核心亮点
Ridark 发布了一套完整的预测市场跨平台统计套利系统,包括:
- 55GB L2 订单簿数据集(850M+ 状态更新,100ms 采样,Apache Parquet 格式)
- 开源代码库(含完整回测框架)
- 两种核心量化策略:协整均值回归 + 高频订单簿不平衡预测
数据集详情
| 特性 | 规格 |
|---|---|
| 数据类型 | L2 订单簿快照(20 层深度) |
| 采样频率 | 100ms |
| 时间跨度 | 2024 年末至今 |
| 数据量 | 850M+ 状态更新 |
| 格式 | Apache Parquet |
| 压缩后 | 39GB |
| 解压后 | ~55GB |
数据集包含 Polymarket 和 Kalshi 的跨平台同步时间戳,可直接用于跨市场策略回测。
方法论一:协整与 Ornstein-Uhlenbeck 均值回归
核心逻辑
当两个平台对同一事件定价时,长期价格必然收敛到相同终值(0.00)。局部流动性冲击(如大单抛售)会造成临时价格偏离,量化基金通过统计套利捕获这些偏离。
四阶段框架
Phase 1: 协整检验
构造价差序列:
S_t = P_{P,t} - β * P_{K,t} - μ
通过 ADF 检验或 Johansen 检验确认 S_t 是平稳序列(I(0))。
Phase 2: OU 过程建模
dSₜ = θ(μ − Sₜ)dt + σ dWₜ
- θ: 均值回归速率
- μ: 长期均值
- σ: 波动率
Phase 3: MLE 参数校准
通过 Euler-Maruyama 离散化,在 8.5 亿行数据上提取 θ 的精确数值。
Phase 4: 最优阈值
求解最优停时问题,确定入场/出场阈值 x_open 和 x_close,最大化单位时间期望收益。
方法论二:订单簿不平衡(OBI)与微价格预测
Level 1 OBI 指标
I_t = (V_b(t) - V_a(t)) / (V_b(t) + V_a(t)), I_t ∈ [-1, 1]
微价格公式
P_micro(t) = P_mid(t) + I_t * (Δspread / 2)
跨平台预测信号
由于 Polymarket(链上/混合)和 Kalshi(中心化监管清算所)的 API 架构处理订单流速度不同,量化基金通过马尔可夫链转移矩阵测量平台 A 的不平衡变化(I > 0.8)预测平台 B 的 ask book 清算概率。
关键洞察
机构交易台对实际事件结果完全中立。他们不读政治民调,不分析宏观经济报告。他们的不公平优势完全在于运营流程和结构性数学。
技术栈
- Python 3.10+
uv依赖管理polars,scikit-learn,statsmodels- Cloudflare R2 高速存储
获取方式
git clone https://github.com/Jon-Becker/prediction-market-analysis
cd prediction-market-arbitrage
uv sync
make download-ob