预测市场套利：跨平台量化交易完整路线图

传统散户看价格图表（Charts）。量化基金看限价订单簿（L2）。

这是两种完全不同的信息层级。图表是执行结果的事后记录，订单簿是市场深度的实时切片。

当同一事件在多个平台同时交易时，临时流动性失衡会产生确定性的价格缺口。Backtest 这种非效率，需要的是 bid-ask 队列深度，不是执行打印价格。

数据集：机构级别的真实数据

Ridark 发布了一个 55GB 的数据集，包含：

这个数据集覆盖了 2024 年底至今的完整历史。

# Mac/Linux
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows (PowerShell)
irm https://astral.sh/uv/install.ps1 | iex

uv 是 Astral 出品的极速依赖管理工具，比 pip 快 10-100 倍。

git clone https://github.com/Jon-Becker/prediction-market-analysis
cd prediction-market-arbitrage

uv sync

自动创建隔离环境，安装 polars、scikit-learn、statsmodels 和高性能分析扩展。

make download-ob

从 Cloudflare R2 高吞吐 bucket 拉取 39GB 压缩包（.tar.zst 格式），本地 native 解压。

ls data/snapshots/polymarket/
ls data/snapshots/kalshi/

正确配置后，可以看到按市场分类的每日 Parquet 文件。

价格缺口来源：

为什么散户无法复制：

量化套利的优势：

数据用 Apache Parquet 存储，列式格式，适合快速列运算。

主要字段：

这不是「如何用 AI 预测事件结果」，而是「事件结果已知后如何捕捉平台间价差」。预测市场本身就是事件结果的赌注池，套利策略假设事件结果已经基本确定，真正博弈的是平台间流动性差异。

这个策略容量有限（每个市场的流动性有上限），且需要低延迟基础设施。55GB 数据集的获取只是第一步，后面还需要自己搭建交易引擎。