Credit Card Fraud — ML Pipeline
Pipeline ML didattica e production-friendly per fraud detection: dataset Kaggle credit card, feature engineering temporale e geo, gestione di un imbalance estremo (0.5% frodi), modelli supervisionati (LogReg, RandomForest, XGBoost) con class_weight='balanced', ottimizzazione della soglia su matrice costi asimmetrica.
:::tip In una riga
Da transazioni grezze a predict_fraud() con feature temporali, gestione sbilanciamento e soglia di decisione ottimizzata sui costi.
:::
Repository GitHub
| Item | Link |
|---|---|
| Repo | fedcal/Credit-Card-Transactions-Fraud-Detection-Dataset |
| Documentazione | https://fedcal.github.io/Credit-Card-Transactions-Fraud-Detection-Dataset/ |
| Licenza | MIT |
| Stack docs | Docusaurus 3 + TypeScript + KaTeX |
Mappa della documentazione
Teoria
- Classificazione sbilanciata — Class imbalance, accuracy paradox, strategie: weighting, sampling, threshold.
- Metriche per fraud detection — Precision, recall, F1, F-beta, ROC-AUC, PR-AUC: cosa misurano e quando preferire una all'altra.
- Feature engineering temporali — Time of day, day of week, time-since-last, geo features.
- Split temporale & leakage — Time-aware split, prevenzione del leakage in transazioni temporali.
- Modelli supervisionati — LogReg, RandomForest, XGBoost: pro/contro per fraud detection.
- Threshold tuning & costi — Decision threshold come iperparametro, matrice costi asimmetrica.
Scelte tecniche
- Architettura del progetto — Moduli fraud_pipeline/, flusso dati, CLI fraud-train e fraud-predict.
- Scelte di modellazione: razionale — Razionale LogReg+RF+XGB, class_weight, soglia, gestione drift.
Autore
Progetto realizzato da Federico Calò come parte del percorso Machine Learning Engineer di DataMasters/Skiller.
Per altri progetti, articoli e contatti: federicocalo.dev.