Credit Card Fraud — ML Pipeline

Pipeline ML didattica e production-friendly per fraud detection: dataset Kaggle credit card, feature engineering temporale e geo, gestione di un imbalance estremo (0.5% frodi), modelli supervisionati (LogReg, RandomForest, XGBoost) con class_weight='balanced', ottimizzazione della soglia su matrice costi asimmetrica.

:::tip In una riga Da transazioni grezze a predict_fraud() con feature temporali, gestione sbilanciamento e soglia di decisione ottimizzata sui costi. :::

Repository GitHub

Item	Link
Repo	`fedcal/Credit-Card-Transactions-Fraud-Detection-Dataset`
Documentazione	https://fedcal.github.io/Credit-Card-Transactions-Fraud-Detection-Dataset/
Licenza	MIT
Stack docs	Docusaurus 3 + TypeScript + KaTeX

Mappa della documentazione

Teoria

Classificazione sbilanciata — Class imbalance, accuracy paradox, strategie: weighting, sampling, threshold.
Metriche per fraud detection — Precision, recall, F1, F-beta, ROC-AUC, PR-AUC: cosa misurano e quando preferire una all'altra.
Feature engineering temporali — Time of day, day of week, time-since-last, geo features.
Split temporale & leakage — Time-aware split, prevenzione del leakage in transazioni temporali.
Modelli supervisionati — LogReg, RandomForest, XGBoost: pro/contro per fraud detection.
Threshold tuning & costi — Decision threshold come iperparametro, matrice costi asimmetrica.

Scelte tecniche

Architettura del progetto — Moduli fraud_pipeline/, flusso dati, CLI fraud-train e fraud-predict.
Scelte di modellazione: razionale — Razionale LogReg+RF+XGB, class_weight, soglia, gestione drift.

Autore

Progetto realizzato da Federico Calò come parte del percorso Machine Learning Engineer di DataMasters/Skiller.

Per altri progetti, articoli e contatti: federicocalo.dev.

Repository GitHub​

Mappa della documentazione​

Teoria​

Scelte tecniche​

Autore​

Repository GitHub

Mappa della documentazione

Teoria

Scelte tecniche

Autore