Architettura del progetto

1. Layout

iot-anomaly-detection-clustering/
├── README.md
├── LICENSE                       MIT — © 2026 Federico Calò
├── pyproject.toml                Build config + dipendenze
├── requirements.txt              Lock approssimativo
├── mkdocs.yml                    Config documentazione (MkDocs Material)
│
├── .github/
│   └── workflows/
│       └── docs.yml              Deploy automatico docs su GitHub Pages
│
├── src/iot_anomaly/              Libreria Python installabile
│   ├── __init__.py
│   ├── config.py                 Path, costanti, iperparametri
│   ├── data.py                   Load + time-aware split
│   ├── wrangling.py              Missing values per asset
│   ├── features.py               TimeSeriesFeatureEngineer (rolling, diff, zscore)
│   ├── clustering.py             KMeans/MiniBatch/GMM + select_k
│   ├── scoring.py                Distanza centroide + soglia percentile
│   ├── evaluation.py             Metriche + plot diagnostici
│   ├── inference.py              detect_anomalies()
│   └── pipeline.py               Orchestrator + CLI iot-detect
│
├── notebooks/                    Documentazione esecutiva
│   ├── 01_eda.ipynb
│   ├── 02_features_pipeline.ipynb
│   ├── 03_clustering_threshold.ipynb
│   └── 04_validation_inference.ipynb
│
├── docs/
│   ├── teoria/                   5 file Markdown didattici
│   └── scelte_tecniche/          Architettura, scelte di modello
│
├── data/raw/                     iot_synth_anomaly_clustering.csv (gitignored)
├── reports/                      Output (figures, models, metrics — gitignored)
│   ├── figures/
│   ├── models/                   *.joblib serializzati
│   └── metrics.json
│
├── scripts/
│   ├── build_notebooks.py
│   └── run_full.sh
└── tests/

2. Principi di design

Stesso pattern di ames-housing-price-pipeline:

2.1 Codice in `src/`, narrativa nei notebook

La logica vive in src/iot_anomaly/. I notebook contengono solo importazioni, chiamate, e narrazione didattica. Modifiche al codice si riflettono automaticamente nei notebook (riavvia kernel).

2.2 Notebook generati da script

scripts/build_notebooks.py è la sorgente di verità. Diff Git puliti.

2.3 Pipeline as code (sklearn-compatible)

Il TimeSeriesFeatureEngineer è un BaseEstimator + TransformerMixin. Il modello finale (clustering + scoring + soglia) è incapsulato in un AnomalyDetector. L'inferenza ricarica un singolo joblib.

2.4 No leakage by construction

Wrangling deterministico (ffill/bfill per asset) — può stare fuori dalla pipeline (non dipende da statistiche).
Imputazione, scaling, soglia → sempre calcolate sul solo training.
Rolling back-looking, per asset (groupby('asset_id')).
Time-aware split, mai casuale.

3. Flusso di esecuzione

3.1 Training completo

iot-detect              # full run, ~60s
iot-detect --quick      # K=5 fisso, ~30s
iot-detect --use-pca    # con PCA prima del clustering
iot-detect --threshold-percentile 95  # soglia più aggressiva

Sequenza interna:

load_raw() → DataFrame ordinato per (asset, time).
add_missing_flags + fill_missing_per_asset → wrangling.
TimeSeriesFeatureEngineer → rolling, diff, zscore.
time_split → 7 giorni train / 3 giorni test.
StandardScaler + (opzionale) PCA.
select_k_by_silhouette su K ∈ {3..10}.
fit_minibatch_kmeans + fit_anomaly_detector (soglia p99).
evaluate su train e test vs anomaly_label e fault_code_true.
Salvataggio joblib + metriche JSON + figure.

3.2 Inferenza

from iot_anomaly.inference import detect_anomalies

import pandas as pd
df_new = pd.read_csv("nuovi_dati.csv", parse_dates=["timestamp"])
result = detect_anomalies(df_new)
print(result[result.anomaly_pred == 1])

detect_anomalies() riapplica wrangling, FE, scaling, scoring usando gli artefatti serializzati. Output: DataFrame originale + colonne anomaly_score, anomaly_pred.

4. Riproducibilità

Stesso dataset: la pipeline carica solo data/raw/iot_synth_anomaly_clustering.csv.
Stesse versioni: requirements.txt pinnato a range minor.
Stesso seed: RANDOM_STATE=42 propagato a MiniBatchKMeans, silhouette_score (via sample), KMeans, GMM.

Con stesso ambiente, esecuzioni successive di iot-detect producono metriche bit-identiche.

5. Trade-off espliciti

Decisione	Vantaggio	Costo
Time-aware split rigido (7+3)	Realismo	Solo 1 holdout, non K-fold temporale
MiniBatchKMeans default	10× più veloce di KMeans full	Inertia ~1-3% peggiore
Soglia p99 fissa	Configurabile, interpretabile	Non ottimale per ogni asset
Niente label nel training	Generalizzazione a anomalie nuove	Performance inferiori vs supervised
FE temporale solo rolling+diff+zscore	Interpretabile, veloce	Nessuna feature multivariata (es. cross-correlations)

6. Estensioni naturali

GMM con BIC in alternativa a KMeans+silhouette.
DBSCAN/HDBSCAN per cluster non sferici e detection di noise nativo.
Soglia per asset: ogni asset ha la sua distribuzione; un percentile globale è sub-ottimale.
Feature multivariate: cross-correlation fra sensori, FFT su finestre brevi.
Modelli sequenziali (LSTM autoencoder) per collective anomalies.
Drift detection (KS-test) + retraining schedulato.
API REST (FastAPI) che espone detect_anomalies().

1. Layout​

2. Principi di design​

2.1 Codice in src/, narrativa nei notebook​

2.2 Notebook generati da script​

2.3 Pipeline as code (sklearn-compatible)​

2.4 No leakage by construction​

3. Flusso di esecuzione​

3.1 Training completo​

3.2 Inferenza​

4. Riproducibilità​

5. Trade-off espliciti​

6. Estensioni naturali​