量化交易即将吞噬整个市场

作者背景与核心问题

作者 sysls 实际上是从金融领域的自主交易员开始的，曾运营一个在新加坡交易所（SGX）和 INE/DCE 之间赚取商品价差压缩收益的套利组合。他发现有些交易只能靠 discretionary 方式做——比如发现新加坡橡胶商人会在特定时段极度激进地竞买橡胶期货（因为 OTC 合约参考当前期货价格，他们希望期货价格越高越好），价格冲击本质上是暂时的 dislocation，没有基本面支撑，但要算法化地区分"骗局导致的冲击"和"知情买入导致的冲击"非常困难。

这个经历塑造了他的观点：他对自主交易员其实有相当的尊重，因为 alpha 来自于把少量样本事件泛化成交易论点——这是量化交易此前不可能做到的事情，直到现在。

量化交易的核心

量化交易的本质很简单：找到一个市场模式 A，使得每次观察到 A 时，可以赌回报会以可预测的方式变化 B。

所有难度、建模、精巧都来自量化 A 和理解 A→B 的关系。

一个简单例子：每当你观察到价格连续两天上涨，你可以赌第三天会均值回归。概率可能只有 50.01%，幅度只有 2bps（万分之二）。因为有（微小的）正期望，你可以押一百万次来提取这个正期望并真正赚钱。

但这不代表量化交易容易。很多模式容易理解但不容易建模。比如"当一个 instrument 的回报和其 sector 的回报相关性上升时，这个 instrument 的截面排名也会上升"——这看起来简单，但建模需要采集大量 instrument、获取它们的 sector、确保覆盖所有 sector 中的所有 instrument、计算所有 instrument 回报、所有 sector 回报、计算相关性、计算 instrument 在其 sector 内的截面排名。复杂度稍微增加，工作量就大幅跃升。

量化交易的边界

量化交易已经吃掉了公开市场的很大一部分。但最大的 pod shops 通常只占业务的 15%—50%，剩下的是自主 long/short 和全球宏观。

量化交易扩不上去，主要难在两个问题：

有些事件很难量化：数据采集困难，或者事件的模糊性。比如"管理层越了解业务，未来回报越可能为正"——分析师能通过观察管理层回答问题的方式来定性评估，但怎么量化？
有些模式样本量极小：比如药厂新药审批。如果是新药，那就是 N=1 的事件，怎么建模、怎么获得统计置信度？

量化交易的通常做法是根本不碰这些问题——药厂行业几乎看不到有意义的量化交易，公开的秘密是几乎所有量化策略都是 ex-pharma（远离制药）。这也是为什么风险投资作为一个资产类别根本没有量化交易——因为（独特的）创业公司本质上是 N=1 事件，在足够早期时，能量化的大概只有创始人特征，但这件事本身就模糊且困难。

AI 带来的结构性转变

一个词：AI。

更长的表述：LLM 可以（1）把几乎任何非结构化、模糊的信息转化为可量化指标；（2）在高维空间里对"一次性"事件做推理和学习泛化。

NLP 的范式跃升

用 NLP 将模糊、非结构化文档转化为量化指标，这件事本身不新。但此前 NLP 技术的智能有限，能做的事很浅：新闻标题的情感分析、词频统计、把文档分类到桶里。这些技术有用，但现在 collapsed the rich information into single-dimensional, crude numerical proxies（把丰富信息压缩成单维度的粗糙数值近似）。

有了 LLMs，你可以把大量历史财报电话会议的 transcripts 喂给 LLM，让它用一个多维度评分表评估管理层理解的深度（回答的具体性、是否愿意回答难题、叙述的一致性等），然后得到一个结构化的、高维度的、可量化的输出。

以前靠一群分析师（各有偏见、不一致、带宽有限）做的事情，现在可以被一个 LLM 在更短时间内替代。而且可以在规模上做：数千家公司、数百个季度的历史数据，产出可以直接插入标准量化流程的干净面板数据集。

以前"不可量化"的领域现在变得可量化：监管文件、法律文件、产品评论、社交媒体上的管理层/创始人统计、职业历史等。无穷无尽。

一次性学习与高维泛化

人类可能是最伟大的一次性学习机器。小时候被热水壶烫过，一瞬间就建立了对所有热东西的终身警觉——不管是明火、看起来热的东西，还是被描述为热的东西。因为人不是只模式匹配到"这个 kettle 烫我"，而是在更高维度上泛化了"热"这个特征。

传统机器学习模型做这件事极差。它们不能在更高维度上推理，因此在训练集明确提供的维度之外经常泛化失败。它们出了名的不擅长"一次性学习"，需要数千个样本才能"教会一个行为"。

关键洞察：传统量化范式要求统计规律性——你需要足够多的"A 事件"历史实例来建立对"A→B 将泛化"的置信度。这正是为什么有些市场领域是"quant-proof"的——因为参与者相信事件太特殊、样本量太小。

LLM 让推理发生在特征层级，而不是事件层级。一个新药审批在具体药品层面是 N=1 事件，但在特征层面不是：治疗领域、作用机制、II 期数据质量、顾问委员会的构成、类似化合物的监管先例、赞助方与 FDA 先前互动的强度……LLM 可以把一个"独特"事件分解成高维特征向量，其中每个特征都在许多类似情境中被观察过很多次、在许多组合中被观察过。

这正是优秀自主交易员一直在做的事情：把丰富的类似情境内部库做模式匹配，权衡他们学到的重要特征。大解锁是：LLM 是第一个可以系统性地规模化复制这种模式匹配、同时保持一致性的技术。

结论

把两件事合在一起——所有东西都可以量化，所有东西都可以学习——意味着以前只有自主交易员能进入的资产类别和事件类型，现在原则上都可以被量化方法处理。

数据提供商生态系统（Bloomberg、Refinitiv、S&P 及其精品对应方）会相互竞争提供独特有用的数据——只是时间问题。Bloomberg 级别的"Comprehensive Startup Scout"数据集迟早会出现。

量化交易能触及的版块在急剧扩大。那些一直是自主交易员避难所的模糊定性边缘，正在被 LLM 驱动的量化过程系统性殖民。

自主交易不会一夜消失。特定领域专业知识、人脉和人类判断力的组合永远会有溢价。但这个溢价的边界在缩小，而且是结构性缩小，不是周期性。

继续在公开信息的模式识别上竞争的自主交易员，会发现自己越来越被量化公司超越——后者能做相同的模式识别，而且更快、更一致、覆盖面更广。

我无法想象大多数市场的未来——公开和私募——不是量化和系统化的。