Roadmap
planML Roadmap — Mai 2026
Letzte Aktualisierung: 2026-05-19 · 9 Experimente + 2 Audits · 3 promoted, 2 pursue, 4 dropped (1 wegen Lookahead-Audit)
🎯 Endstand: synthesis · ⚠️ B4/B5 Audit: lookahead_audit (ETF-Flow Exp #18 hatte Lookahead-Bias, Master-LGBM bleibt validiert)
Dieser Plan dokumentiert eine zweite, methoden-orientierte Welle im ml/-Modul. Die erste Welle (siehe ml/experiments/) hat ausschließlich Point-in-Time-Slicing gemacht — zum Zeitpunkt t Quintile bilden auf Vol, Hour, Funding, etc. Ergebnis: 1 robuster Edge (Vol-Persistence, jetzt live in ml/forecast/), 1 fragil-realer Edge (FOMC-Drift), Rest tot oder marginal.
Die zweite Welle erweitert auf zwei orthogonalen Achsen:
- Methoden, die die Sequenz ausnutzen, nicht nur den Zeitpunkt — Jumps, Change-Points, HMM-State, Order-Flow-Imbalance.
- Neue Datenquellen, die wir bisher nicht angefasst haben — Stablecoin-Supply, ETF-Flows, BTC-VIX (DVOL), Cross-Asset Macro.
Die Auswahl folgt zwei Recherchen (Methoden + Datenquellen, durchgeführt 2026-05-19) und ist gerankt nach erwartetem Lift × Aufwand. Walk-Forward-Embargo und Causal-Feature-Construction sind nicht verhandelbar — die erste Welle hat gezeigt, dass 5 von 6 In-Sample-Findings unter Walk-Forward sterben.
Validierungs-Standards (gelten für jedes Experiment)
- Walk-Forward Splits: 12mo train / 3mo test rolling, Embargo ≥ max forward horizon. Bei Datenquellen mit kürzerer Historie: 6mo train / 2mo test (z. B. ETF-Flows seit 2024-01).
- Information Coefficient (IC): Spearman-Rang-Korrelation, Bootstrap 95% CI, p-Value.
- Stability: mindestens 70% der Walk-Forward-Fenster mit IC im erwarteten Vorzeichen.
- Promote-Gate: pooled IC > 0.05 + Stability ≥ 70% + Bootstrap-CI-low > 0.
- Inconclusive: einzelne Fenster passen, aber kein robustes Pattern.
- Dropped: IC ≤ 0 oder CI-low ≤ 0.
Batch 1 — Methoden ohne neue Datenquellen
Diese Experimente laufen direkt auf bestehender 1m OHLCV + Funding.
Exp #13 · HAR-RV-J — Jump-augmented Vol Forecast
Hypothese: Trennung kontinuierlicher Vol von Sprüngen verbessert predict_vol_4h um ≥3% R² walk-forward gegenüber baseline HAR-RV (das aktuell live ist).
Methode: Bipower Variation (Barndorff-Nielsen/Shephard) → continuous part. Lee-Mykland Jump-Test → jump indicator. HAR-RV-J Regression mit täglichem, wöchentlichem, monatlichem RV plus Jump-Komponente.
Daten: nur 1m BTCUSDT Futures.
Erwartung: positive Verbesserung in High-Vol-Phasen; marginal in Low-Vol.
Exp #14 · VPIN aus 1m Bars
Hypothese: Bulk-Volume-Classification VPIN-Spitzen > Q95 sagen fwd-1h |return| > Q90 voraus mit Hit-Rate > 55%.
Methode: Easley/López de Prado/O'Hara BVC: Volume jeder 1m-Bar via Normal-CDF des Returns in Buy/Sell aufteilen. Equal-volume Buckets, rolling |B−S|/V.
Daten: 1m close + volume (optional: Binance-derivatives taker-buy-ratio als bessere Quelle für Buy/Sell-Split).
Erwartung: ein "Toxicity"-Signal, das vor Jumps spikt. Publizierte Evidenz auf BTC (Bouri et al. 2026, RIBAF).
Exp #15 · BOCPD Change-Point Feature
Hypothese: Bayesian Online Change-Point Detection auf 15m-Returns: in Bars mit P(run_length < 4) > 0.5 ist die fwd-4h Vol +15-20% höher als baseline.
Methode: Adams & MacKay BOCPD mit Gaussian Unknown Parameters Model, λ=1/96. Causal by construction — nur forward, kein smoothing.
Daten: nur 1m OHLCV (auf 15m resampled).
Erwartung: komplementär zu Vol-Persistence (Persistence = stay, Change-Point = break). Niedrige bis mittlere IC erwartet, aber kompositional wertvoll.
Exp #16 · HMM-Regime als Feature (filtered only)
Hypothese: 2-state Gaussian HMM auf (1h log-return, 4h RV) gibt einen kausalen Regime-Tag, der die State-conditional realized vs. forecast vol kalibrierbar trennt.
Methode: hmmlearn GaussianHMM(n=2). Rolling 90d fit, forward-Filter only (kein Viterbi-Smoothing), wöchentlich refit.
Daten: nur OHLCV.
Erwartung: State 0 = "Quiet", State 1 = "Turbulent". Bei richtiger Anwendung Sizing-Input, kein Standalone-Signal.
Pitfall-Warnung: 90% der publizierten HMM-Papers verwenden Smoothing oder fitten auf den vollen Sample → not actionable. Wir validieren strikt forward-only.
Batch 2 — Neue Datenquellen, Single-Source-Experimente
Exp #17 · Stablecoin-Supply-Drift
Hypothese: 7d-Δ(USDT+USDC market cap) > Q80 → fwd-1d BTC-Return > Baseline + 40 bps walk-forward.
Methode: Quintile-IC mit Bootstrap-CI. Sekundär: fwd-4h (vermutlich Pre-Move sichtbar).
Daten: DefiLlama /stablecoincharts/all (free, kein Key, kein Rate-Limit, täglich, seit 2018).
Erwartung: BIS 1270 dokumentiert direkten Effekt im 1-30d Bereich; offen ob 4h-Pre-Move-Signal entsteht.
Exp #18 · ETF-Flow Event-Study
Hypothese: Tage mit Net-Inflow > $500M (IBIT+FBTC+...) zeigen Asien-Session Gap-Fade-Pattern; Net-Outflow-Tage zeigen Continuation. Effekt session-abhängig.
Methode: Event-Study analog zu calendar_events. Walk-forward auf ~28 Monate Historie (seit ETF-Launch Jan 2024) → 6mo train / 2mo test.
Daten: SoSoValue Developer API (free demo) oder Farside HTML-Scrape.
Erwartung: kleines n (~600 Tage) → vorsichtige Bootstrap-CIs. 22:00 NY Release → Asian Open ist zeitlich sauber separierbar (US-Macro-Noise minimal).
Exp #19 · DVOL/Realized-Vol Spread (Variance Risk Premium)
Hypothese: VRP = DVOL - rv_4h (annualised). VRP > Q80 → fwd-4h realized vol sinkt (rich-premium reverts); VRP < Q20 → fwd-4h vol steigt.
Methode: Quintile-IC. Pure Vol-Forecast-Verbesserung, kein Directional-Signal.
Daten: Deribit /public/get_volatility_index_data (free, kein Auth, seit 2021).
Erwartung: Lehrbuch-Edge in Equities (Bollerslev/Tauchen/Zhou 2009), auf BTC unter-getestet. Höchster erwarteter Lift in Batch 2.
Exp #20 · DXY-Shock → BTC-Reversal
Hypothese: DXY 4h-Return ≥ 2σ schiebt BTC in entgegengesetzte Richtung in fwd-1h mit Hit-Rate > 55%.
Methode: Event-Study auf DXY-Schocks; bedingte BTC-fwd-1h-Verteilung vs. Baseline.
Daten: yfinance DX=F 1h (2 Jahre verfügbar) + Daily-Fallback (länger).
Erwartung: BTC–DXY negative beta ist robust dokumentiert (arXiv 2501.09911). 4h-Horizont = US-Session-spezifisch.
Batch 3 — Synthesis
Exp #22 · Master-LightGBM auf vollem Feature-Panel
Hypothese: GBM auf Lag-Panel (returns 1/5/15/60/240m + RV gleiche Fenster + funding + OI Δ + taker ratio + stablecoin Δ + ETF flow + DXY/VIX 4h-returns + DVOL + HMM-state + VPIN + BOCPD-runlength) hat fwd-4h IC ≥ 0.06 walk-forward, dominiert jedes Einzel-Feature.
Methode: LGBMRegressor, TimeSeriesSplit mit Embargo = max horizon (4h). SHAP für Feature-Wichtigkeit. Robustheit: gleicher Lauf mit Top-5 Features only.
Daten: alles bisher + alle neuen Quellen.
Erwartung: paper-evidence (arXiv 2511.20105 Nov 2025): LGBM schlägt Econometric- und RF-Baselines auf BTC, CRPS −23%. Hauptrisiko: Label-Leakage — wenn auch nur eine Lag-Construction nicht causal ist, ist alles Müll.
Skip / Defer
⏸ Exp #21 · CVD aus Binance aggTrades (deferred)
Status: aufgeschoben. Backfill wäre ~6-8h compute, Storage ~50GB raw. Wann zurückkommen: wenn Batch 2 keine ausreichenden Microstructure-Signals liefert.
❌ Reservebank (nicht in dieser Welle)
- Fractional Differencing als Preprocessor — Anbau später falls Exp #22 stagniert
- Matrix Profile / Motif Discovery — hohe Overfitting-Gefahr, explorativ
- Kimchi-Premium (Upbit) — eher 1d/7d Horizont
- Coin Metrics Community — gratis, aber niedrigerer 4h-IC erwartet
- 25-Delta Risk Reversal (Deribit) — Bonus zu Exp #19
❌ Skip (mit Begründung)
- Wavelets als Standalone-Signal — Boundary-Lookahead-Falle in 90% der Papers
- DFA/Hurst als Direkt-Signal — BTC-Hurst ≈0.5 kurzfristig, diagnostisch ja, prädiktiv nein
- Granger-Causality direkt — nicht-linear, LGBM mit Lag-Features dominiert
- LSTM/Transformer — kein GPU, kein dokumentierter Edge vor Ausschöpfung von #13-22
- Glassnode/Tardis/Twitter — Budget/ROI nicht gegeben
Status-Tracking — alle Experimente abgeschlossen ✓
| Exp | Titel | Status | Headline |
|---|---|---|---|
| #13 | HAR-RV-J | ❌ dropped | +0.22 pp R² (effektiv null) |
| #14 | VPIN | ❌ dropped | IC −0.006, kein Edge auf 1m bars |
| #15 | BOCPD | ⭐ promoted | IC +0.16, 21/21 windows, +27% Vol-Lift |
| #16 | HMM-Regime | 🟡 pursue | IC +0.39, separation 1.42× |
| #17 | Stablecoin-Drift | 🟡 weak | IC +0.038, Q5−Q1 +25 bps |
| #18 | ETF-Flow Event | ❌ dropped (B4-Audit) | Lookahead — korrigiert IC +0.04, residual nahe 0 |
| #18b | ETF-Flow Residual | ❌ dropped | Audit-Experiment — Confound bestätigt |
| #19 | DVOL/VRP | ⭐ promoted | IC −0.28, 16/16 windows |
| #20 | DXY-Shock | 🟡 weak | Richtung korrekt, Magnitude klein |
| #22 | Master-LGBM | ⭐ promoted | R²-Lift +10.6 pp vs HAR-RV |
| #22b | Master-LGBM ohne ETF | ✓ done | R²-Lift +10.74 pp — ETF-Feature irrelevant, Robustness-Check bestanden |
| C7 | BOCPD-Filter Backtest | 🟡 ship-tentative | 3/6 strategies promote, BB-Extremes lift +6.9-17% |
| C7-BC | BOCPD-Filter Validation | ⚠️ misleading | Post-hoc Sub-5 sanity falsch (kein Re-Routing); Sub 1+2 zeigen WF + Threshold smooth |
| C7-D | BOCPD-Filter Shuffle Test | ⭐ definitive | BB_E1+E2 echtes Signal (z>6), BB_E3 marginal. Deploy auf E1+E2 |
| #21 | CVD aggTrades | ⏸ deferred | Backfill ~50GB; wartet |
→ Vollständige Auswertung im Synthesis-Report.
Quellen (kondensiert)
- HAR-RV-J: Andersen/Bollerslev/Diebold "Roughing it up" (2007); Lee & Mykland (2008); Scaillet et al. arXiv 1704.08175 (BTC jumps).
- VPIN: Easley/López de Prado/O'Hara, J. Portfolio Management 2012; Bouri et al., RIBAF 2026 (BTC).
- BOCPD: Adams & MacKay 2007.
- HMM Regimes: MDPI Mathematics 13(10):1577 (2025); arXiv 2011.03741.
- VRP: Bollerslev/Tauchen/Zhou, Rev. Financial Studies 2009; Deribit DVOL Insights.
- DXY-BTC: arXiv 2501.09911 (2025).
- LightGBM BTC: arXiv 2511.20105 (Nov 2025).
- Stablecoin → BTC: BIS Working Paper 1270; AInvest 2025/2026.