作者背景与核心问题
作者 sysls 实际上是从金融领域的自主交易员开始的,曾运营一个在新加坡交易所(SGX)和 INE/DCE 之间赚取商品价差压缩收益的套利组合。他发现有些交易只能靠 discretionary 方式做——比如发现新加坡橡胶商人会在特定时段极度激进地竞买橡胶期货(因为 OTC 合约参考当前期货价格,他们希望期货价格越高越好),价格冲击本质上是暂时的 dislocation,没有基本面支撑,但要算法化地区分"骗局导致的冲击"和"知情买入导致的冲击"非常困难。
这个经历塑造了他的观点:他对自主交易员其实有相当的尊重,因为 alpha 来自于把少量样本事件泛化成交易论点——这是量化交易此前不可能做到的事情,直到现在。
量化交易的核心
量化交易的本质很简单:找到一个市场模式 A,使得每次观察到 A 时,可以赌回报会以可预测的方式变化 B。
所有难度、建模、精巧都来自量化 A 和理解 A→B 的关系。
一个简单例子:每当你观察到价格连续两天上涨,你可以赌第三天会均值回归。概率可能只有 50.01%,幅度只有 2bps(万分之二)。因为有(微小的)正期望,你可以押一百万次来提取这个正期望并真正赚钱。
但这不代表量化交易容易。很多模式容易理解但不容易建模。比如"当一个 instrument 的回报和其 sector 的回报相关性上升时,这个 instrument 的截面排名也会上升"——这看起来简单,但建模需要采集大量 instrument、获取它们的 sector、确保覆盖所有 sector 中的所有 instrument、计算所有 instrument 回报、所有 sector 回报、计算相关性、计算 instrument 在其 sector 内的截面排名。复杂度稍微增加,工作量就大幅跃升。
量化交易的边界
量化交易已经吃掉了公开市场的很大一部分。但最大的 pod shops 通常只占业务的 15%—50%,剩下的是自主 long/short 和全球宏观。
量化交易扩不上去,主要难在两个问题:
- 有些事件很难量化:数据采集困难,或者事件的模糊性。比如"管理层越了解业务,未来回报越可能为正"——分析师能通过观察管理层回答问题的方式来定性评估,但怎么量化?
- 有些模式样本量极小:比如药厂新药审批。如果是新药,那就是 N=1 的事件,怎么建模、怎么获得统计置信度?
量化交易的通常做法是根本不碰这些问题——药厂行业几乎看不到有意义的量化交易,公开的秘密是几乎所有量化策略都是 ex-pharma(远离制药)。这也是为什么风险投资作为一个资产类别根本没有量化交易——因为(独特的)创业公司本质上是 N=1 事件,在足够早期时,能量化的大概只有创始人特征,但这件事本身就模糊且困难。
AI 带来的结构性转变
一个词:AI。
更长的表述:LLM 可以(1)把几乎任何非结构化、模糊的信息转化为可量化指标;(2)在高维空间里对"一次性"事件做推理和学习泛化。
NLP 的范式跃升
用 NLP 将模糊、非结构化文档转化为量化指标,这件事本身不新。但此前 NLP 技术的智能有限,能做的事很浅:新闻标题的情感分析、词频统计、把文档分类到桶里。这些技术有用,但现在 collapsed the rich information into single-dimensional, crude numerical proxies(把丰富信息压缩成单维度的粗糙数值近似)。
有了 LLMs,你可以把大量历史财报电话会议的 transcripts 喂给 LLM,让它用一个多维度评分表评估管理层理解的深度(回答的具体性、是否愿意回答难题、叙述的一致性等),然后得到一个结构化的、高维度的、可量化的输出。
以前靠一群分析师(各有偏见、不一致、带宽有限)做的事情,现在可以被一个 LLM 在更短时间内替代。而且可以在规模上做:数千家公司、数百个季度的历史数据,产出可以直接插入标准量化流程的干净面板数据集。
以前"不可量化"的领域现在变得可量化:监管文件、法律文件、产品评论、社交媒体上的管理层/创始人统计、职业历史等。无穷无尽。
一次性学习与高维泛化
人类可能是最伟大的一次性学习机器。小时候被热水壶烫过,一瞬间就建立了对所有热东西的终身警觉——不管是明火、看起来热的东西,还是被描述为热的东西。因为人不是只模式匹配到"这个 kettle 烫我",而是在更高维度上泛化了"热"这个特征。
传统机器学习模型做这件事极差。它们不能在更高维度上推理,因此在训练集明确提供的维度之外经常泛化失败。它们出了名的不擅长"一次性学习",需要数千个样本才能"教会一个行为"。
关键洞察:传统量化范式要求统计规律性——你需要足够多的"A 事件"历史实例来建立对"A→B 将泛化"的置信度。这正是为什么有些市场领域是"quant-proof"的——因为参与者相信事件太特殊、样本量太小。
LLM 让推理发生在特征层级,而不是事件层级。一个新药审批在具体药品层面是 N=1 事件,但在特征层面不是:治疗领域、作用机制、II 期数据质量、顾问委员会的构成、类似化合物的监管先例、赞助方与 FDA 先前互动的强度……LLM 可以把一个"独特"事件分解成高维特征向量,其中每个特征都在许多类似情境中被观察过很多次、在许多组合中被观察过。
这正是优秀自主交易员一直在做的事情:把丰富的类似情境内部库做模式匹配,权衡他们学到的重要特征。大解锁是:LLM 是第一个可以系统性地规模化复制这种模式匹配、同时保持一致性的技术。
结论
把两件事合在一起——所有东西都可以量化,所有东西都可以学习——意味着以前只有自主交易员能进入的资产类别和事件类型,现在原则上都可以被量化方法处理。
数据提供商生态系统(Bloomberg、Refinitiv、S&P 及其精品对应方)会相互竞争提供独特有用的数据——只是时间问题。Bloomberg 级别的"Comprehensive Startup Scout"数据集迟早会出现。
量化交易能触及的版块在急剧扩大。那些一直是自主交易员避难所的模糊定性边缘,正在被 LLM 驱动的量化过程系统性殖民。
自主交易不会一夜消失。特定领域专业知识、人脉和人类判断力的组合永远会有溢价。但这个溢价的边界在缩小,而且是结构性缩小,不是周期性。
继续在公开信息的模式识别上竞争的自主交易员,会发现自己越来越被量化公司超越——后者能做相同的模式识别,而且更快、更一致、覆盖面更广。
我无法想象大多数市场的未来——公开和私募——不是量化和系统化的。