Passa al contenuto principale

Credit Card Fraud — ML Pipeline

Pipeline ML didattica e production-friendly per fraud detection: dataset Kaggle credit card, feature engineering temporale e geo, gestione di un imbalance estremo (0.5% frodi), modelli supervisionati (LogReg, RandomForest, XGBoost) con class_weight='balanced', ottimizzazione della soglia su matrice costi asimmetrica.

:::tip In una riga Da transazioni grezze a predict_fraud() con feature temporali, gestione sbilanciamento e soglia di decisione ottimizzata sui costi. :::

Repository GitHub

ItemLink
Repofedcal/Credit-Card-Transactions-Fraud-Detection-Dataset
Documentazionehttps://fedcal.github.io/Credit-Card-Transactions-Fraud-Detection-Dataset/
LicenzaMIT
Stack docsDocusaurus 3 + TypeScript + KaTeX

Mappa della documentazione

Teoria

  1. Classificazione sbilanciata — Class imbalance, accuracy paradox, strategie: weighting, sampling, threshold.
  2. Metriche per fraud detection — Precision, recall, F1, F-beta, ROC-AUC, PR-AUC: cosa misurano e quando preferire una all'altra.
  3. Feature engineering temporali — Time of day, day of week, time-since-last, geo features.
  4. Split temporale & leakage — Time-aware split, prevenzione del leakage in transazioni temporali.
  5. Modelli supervisionati — LogReg, RandomForest, XGBoost: pro/contro per fraud detection.
  6. Threshold tuning & costi — Decision threshold come iperparametro, matrice costi asimmetrica.

Scelte tecniche

Autore

Progetto realizzato da Federico Calò come parte del percorso Machine Learning Engineer di DataMasters/Skiller.

Per altri progetti, articoli e contatti: federicocalo.dev.