Overview & Experiments 55 Synthesis Roadmap Lookahead Audit

Roadmap

plan

What happens here

Planned experiments of the second wave: methods and new data sources, ranked by expected lift × effort.

ML Roadmap — Mai 2026

Letzte Aktualisierung: 2026-05-19 · 9 Experimente + 2 Audits · 3 promoted, 2 pursue, 4 dropped (1 wegen Lookahead-Audit)

🎯 Endstand: synthesis · ⚠️ B4/B5 Audit: lookahead_audit (ETF-Flow Exp #18 hatte Lookahead-Bias, Master-LGBM bleibt validiert)

Dieser Plan dokumentiert eine zweite, methoden-orientierte Welle im ml/-Modul. Die erste Welle (siehe ml/experiments/) hat ausschließlich Point-in-Time-Slicing gemacht — zum Zeitpunkt t Quintile bilden auf Vol, Hour, Funding, etc. Ergebnis: 1 robuster Edge (Vol-Persistence, jetzt live in ml/forecast/), 1 fragil-realer Edge (FOMC-Drift), Rest tot oder marginal.

Die zweite Welle erweitert auf zwei orthogonalen Achsen:

Methoden, die die Sequenz ausnutzen, nicht nur den Zeitpunkt — Jumps, Change-Points, HMM-State, Order-Flow-Imbalance.
Neue Datenquellen, die wir bisher nicht angefasst haben — Stablecoin-Supply, ETF-Flows, BTC-VIX (DVOL), Cross-Asset Macro.

Die Auswahl folgt zwei Recherchen (Methoden + Datenquellen, durchgeführt 2026-05-19) und ist gerankt nach erwartetem Lift × Aufwand. Walk-Forward-Embargo und Causal-Feature-Construction sind nicht verhandelbar — die erste Welle hat gezeigt, dass 5 von 6 In-Sample-Findings unter Walk-Forward sterben.

Validierungs-Standards (gelten für jedes Experiment)

Walk-Forward Splits: 12mo train / 3mo test rolling, Embargo ≥ max forward horizon. Bei Datenquellen mit kürzerer Historie: 6mo train / 2mo test (z. B. ETF-Flows seit 2024-01).
Information Coefficient (IC): Spearman-Rang-Korrelation, Bootstrap 95% CI, p-Value.
Stability: mindestens 70% der Walk-Forward-Fenster mit IC im erwarteten Vorzeichen.
Promote-Gate: pooled IC > 0.05 + Stability ≥ 70% + Bootstrap-CI-low > 0.
Inconclusive: einzelne Fenster passen, aber kein robustes Pattern.
Dropped: IC ≤ 0 oder CI-low ≤ 0.

Batch 1 — Methoden ohne neue Datenquellen

Diese Experimente laufen direkt auf bestehender 1m OHLCV + Funding.

Exp #13 · HAR-RV-J — Jump-augmented Vol Forecast

Hypothese: Trennung kontinuierlicher Vol von Sprüngen verbessert predict_vol_4h um ≥3% R² walk-forward gegenüber baseline HAR-RV (das aktuell live ist).

Methode: Bipower Variation (Barndorff-Nielsen/Shephard) → continuous part. Lee-Mykland Jump-Test → jump indicator. HAR-RV-J Regression mit täglichem, wöchentlichem, monatlichem RV plus Jump-Komponente.

Daten: nur 1m BTCUSDT Futures.

Erwartung: positive Verbesserung in High-Vol-Phasen; marginal in Low-Vol.

Exp #14 · VPIN aus 1m Bars

Hypothese: Bulk-Volume-Classification VPIN-Spitzen > Q95 sagen fwd-1h |return| > Q90 voraus mit Hit-Rate > 55%.

Methode: Easley/López de Prado/O'Hara BVC: Volume jeder 1m-Bar via Normal-CDF des Returns in Buy/Sell aufteilen. Equal-volume Buckets, rolling |B−S|/V.

Daten: 1m close + volume (optional: Binance-derivatives taker-buy-ratio als bessere Quelle für Buy/Sell-Split).

Erwartung: ein "Toxicity"-Signal, das vor Jumps spikt. Publizierte Evidenz auf BTC (Bouri et al. 2026, RIBAF).

Exp #15 · BOCPD Change-Point Feature

Hypothese: Bayesian Online Change-Point Detection auf 15m-Returns: in Bars mit P(run_length < 4) > 0.5 ist die fwd-4h Vol +15-20% höher als baseline.

Methode: Adams & MacKay BOCPD mit Gaussian Unknown Parameters Model, λ=1/96. Causal by construction — nur forward, kein smoothing.

Daten: nur 1m OHLCV (auf 15m resampled).

Erwartung: komplementär zu Vol-Persistence (Persistence = stay, Change-Point = break). Niedrige bis mittlere IC erwartet, aber kompositional wertvoll.

Exp #16 · HMM-Regime als Feature (filtered only)

Hypothese: 2-state Gaussian HMM auf (1h log-return, 4h RV) gibt einen kausalen Regime-Tag, der die State-conditional realized vs. forecast vol kalibrierbar trennt.

Methode: hmmlearn GaussianHMM(n=2). Rolling 90d fit, forward-Filter only (kein Viterbi-Smoothing), wöchentlich refit.

Daten: nur OHLCV.

Erwartung: State 0 = "Quiet", State 1 = "Turbulent". Bei richtiger Anwendung Sizing-Input, kein Standalone-Signal.

Pitfall-Warnung: 90% der publizierten HMM-Papers verwenden Smoothing oder fitten auf den vollen Sample → not actionable. Wir validieren strikt forward-only.

Batch 2 — Neue Datenquellen, Single-Source-Experimente

Exp #17 · Stablecoin-Supply-Drift

Hypothese: 7d-Δ(USDT+USDC market cap) > Q80 → fwd-1d BTC-Return > Baseline + 40 bps walk-forward.

Methode: Quintile-IC mit Bootstrap-CI. Sekundär: fwd-4h (vermutlich Pre-Move sichtbar).

Daten: DefiLlama /stablecoincharts/all (free, kein Key, kein Rate-Limit, täglich, seit 2018).

Erwartung: BIS 1270 dokumentiert direkten Effekt im 1-30d Bereich; offen ob 4h-Pre-Move-Signal entsteht.

Exp #18 · ETF-Flow Event-Study

Hypothese: Tage mit Net-Inflow > $500M (IBIT+FBTC+...) zeigen Asien-Session Gap-Fade-Pattern; Net-Outflow-Tage zeigen Continuation. Effekt session-abhängig.

Methode: Event-Study analog zu calendar_events. Walk-forward auf ~28 Monate Historie (seit ETF-Launch Jan 2024) → 6mo train / 2mo test.

Daten: SoSoValue Developer API (free demo) oder Farside HTML-Scrape.

Erwartung: kleines n (~600 Tage) → vorsichtige Bootstrap-CIs. 22:00 NY Release → Asian Open ist zeitlich sauber separierbar (US-Macro-Noise minimal).

Exp #19 · DVOL/Realized-Vol Spread (Variance Risk Premium)

Hypothese: VRP = DVOL - rv_4h (annualised). VRP > Q80 → fwd-4h realized vol sinkt (rich-premium reverts); VRP < Q20 → fwd-4h vol steigt.

Methode: Quintile-IC. Pure Vol-Forecast-Verbesserung, kein Directional-Signal.

Daten: Deribit /public/get_volatility_index_data (free, kein Auth, seit 2021).

Erwartung: Lehrbuch-Edge in Equities (Bollerslev/Tauchen/Zhou 2009), auf BTC unter-getestet. Höchster erwarteter Lift in Batch 2.

Exp #20 · DXY-Shock → BTC-Reversal

Hypothese: DXY 4h-Return ≥ 2σ schiebt BTC in entgegengesetzte Richtung in fwd-1h mit Hit-Rate > 55%.

Methode: Event-Study auf DXY-Schocks; bedingte BTC-fwd-1h-Verteilung vs. Baseline.

Daten: yfinance DX=F 1h (2 Jahre verfügbar) + Daily-Fallback (länger).

Erwartung: BTC–DXY negative beta ist robust dokumentiert (arXiv 2501.09911). 4h-Horizont = US-Session-spezifisch.

Batch 3 — Synthesis

Exp #22 · Master-LightGBM auf vollem Feature-Panel

Hypothese: GBM auf Lag-Panel (returns 1/5/15/60/240m + RV gleiche Fenster + funding + OI Δ + taker ratio + stablecoin Δ + ETF flow + DXY/VIX 4h-returns + DVOL + HMM-state + VPIN + BOCPD-runlength) hat fwd-4h IC ≥ 0.06 walk-forward, dominiert jedes Einzel-Feature.

Methode: LGBMRegressor, TimeSeriesSplit mit Embargo = max horizon (4h). SHAP für Feature-Wichtigkeit. Robustheit: gleicher Lauf mit Top-5 Features only.

Daten: alles bisher + alle neuen Quellen.

Erwartung: paper-evidence (arXiv 2511.20105 Nov 2025): LGBM schlägt Econometric- und RF-Baselines auf BTC, CRPS −23%. Hauptrisiko: Label-Leakage — wenn auch nur eine Lag-Construction nicht causal ist, ist alles Müll.

Skip / Defer

⏸ Exp #21 · CVD aus Binance aggTrades (deferred)

Status: aufgeschoben. Backfill wäre ~6-8h compute, Storage ~50GB raw. Wann zurückkommen: wenn Batch 2 keine ausreichenden Microstructure-Signals liefert.

❌ Reservebank (nicht in dieser Welle)

Fractional Differencing als Preprocessor — Anbau später falls Exp #22 stagniert
Matrix Profile / Motif Discovery — hohe Overfitting-Gefahr, explorativ
Kimchi-Premium (Upbit) — eher 1d/7d Horizont
Coin Metrics Community — gratis, aber niedrigerer 4h-IC erwartet
25-Delta Risk Reversal (Deribit) — Bonus zu Exp #19

❌ Skip (mit Begründung)

Wavelets als Standalone-Signal — Boundary-Lookahead-Falle in 90% der Papers
DFA/Hurst als Direkt-Signal — BTC-Hurst ≈0.5 kurzfristig, diagnostisch ja, prädiktiv nein
Granger-Causality direkt — nicht-linear, LGBM mit Lag-Features dominiert
LSTM/Transformer — kein GPU, kein dokumentierter Edge vor Ausschöpfung von #13-22
Glassnode/Tardis/Twitter — Budget/ROI nicht gegeben

Status-Tracking — alle Experimente abgeschlossen ✓

Exp	Titel	Status	Headline
#13	HAR-RV-J	❌ dropped	+0.22 pp R² (effektiv null)
#14	VPIN	❌ dropped	IC −0.006, kein Edge auf 1m bars
#15	BOCPD	⭐ promoted	IC +0.16, 21/21 windows, +27% Vol-Lift
#16	HMM-Regime	🟡 pursue	IC +0.39, separation 1.42×
#17	Stablecoin-Drift	🟡 weak	IC +0.038, Q5−Q1 +25 bps
#18	ETF-Flow Event	❌ dropped (B4-Audit)	Lookahead — korrigiert IC +0.04, residual nahe 0
#18b	ETF-Flow Residual	❌ dropped	Audit-Experiment — Confound bestätigt
#19	DVOL/VRP	⭐ promoted	IC −0.28, 16/16 windows
#20	DXY-Shock	🟡 weak	Richtung korrekt, Magnitude klein
#22	Master-LGBM	⭐ promoted	R²-Lift +10.6 pp vs HAR-RV
#22b	Master-LGBM ohne ETF	✓ done	R²-Lift +10.74 pp — ETF-Feature irrelevant, Robustness-Check bestanden
C7	BOCPD-Filter Backtest	🟡 ship-tentative	3/6 strategies promote, BB-Extremes lift +6.9-17%
C7-BC	BOCPD-Filter Validation	⚠️ misleading	Post-hoc Sub-5 sanity falsch (kein Re-Routing); Sub 1+2 zeigen WF + Threshold smooth
C7-D	BOCPD-Filter Shuffle Test	⭐ definitive	BB_E1+E2 echtes Signal (z>6), BB_E3 marginal. Deploy auf E1+E2
#21	CVD aggTrades	⏸ deferred	Backfill ~50GB; wartet

→ Vollständige Auswertung im Synthesis-Report.

Quellen (kondensiert)

HAR-RV-J: Andersen/Bollerslev/Diebold "Roughing it up" (2007); Lee & Mykland (2008); Scaillet et al. arXiv 1704.08175 (BTC jumps).
VPIN: Easley/López de Prado/O'Hara, J. Portfolio Management 2012; Bouri et al., RIBAF 2026 (BTC).
BOCPD: Adams & MacKay 2007.
HMM Regimes: MDPI Mathematics 13(10):1577 (2025); arXiv 2011.03741.
VRP: Bollerslev/Tauchen/Zhou, Rev. Financial Studies 2009; Deribit DVOL Insights.
DXY-BTC: arXiv 2501.09911 (2025).
LightGBM BTC: arXiv 2511.20105 (Nov 2025).
Stablecoin → BTC: BIS Working Paper 1270; AInvest 2025/2026.