RFM & feature temporali
RFM (Recency-Frequency-Monetary) point-in-time, arricchito con propensione, varieta di esplorazione e price sensitivity. Calcolo as-of per evitare data leakage temporale.
Clustering: KMeans vs alternative
K-Means come baseline, scelta di K via elbow e silhouette, confronto con Gaussian Mixture, DBSCAN e Hierarchical clustering. Limiti su feature non-gaussiane e ruolo della standardizzazione.
Split temporali & no leakage
Hold-out cronologico, walk-forward validation, two-snapshot. Definizione di leakage temporale ed esempi pratici nel contesto del clustering RFM.
Classificazione multiclasse & metriche
Accuracy, macro-F1, weighted-F1, balanced accuracy, log-loss e confusion matrix. Scelta della metrica con classi sbilanciate e impatto degli errori costosi nel contesto e-commerce.
Pipeline riproducibile & seed
Riproducibilita in ML: seeding di numpy/sklearn/xgboost, ordering deterministico, versionamento di codice e dataset, struttura modulare con sklearn Pipeline.