构建 LLM 的人知道而其他人不知道的事

Pallavi（@pallavishekhar_）分享了一个简单但改变使用方式的想法：构建大型语言模型的人理解而大多数人不理解的东西。

一个自信的错误

几乎每个人都经历过这样的事：问 chatbot 某本好书，它给出标题、作者、出版社和年份。一切看起来都对。作者确实是该领域的真实人物。标题听起来完全像那个人会写的书。去买，发现书不存在。从未被写过。

模型没有撒谎。撒谎需要意图。它做了更奇怪的事：产生了最 plausible-looking 的书，而 plausible-looking 的书不总是真实的。

同样的情况出现在数字上。问一个稍微别扭的乘法，经常得到一个干净、自信、错误的数字，大约是对的 size。问一篇支持某个声明的研究论文，可能得到一个格式完美的引用，有作者和期刊名，指向虚无。

每种情况下答案都是错的。但注意重要的部分：答案是错的方式看起来对。而且工具在错误时的确定感和正确时完全一样。

LLM 实际做什么

Large Language Model = Large + Language + Model。Large 因为它在大量文本上训练，有大量内部设置。Language 因为它处理日常用语。Model 因为它是从数据中学习模式并用它们做预测的系统。

LLM 在巨量文本上训练：书籍、文章、网站、对话、代码。训练期间，它反复玩一个简单的游戏：给定一些文本，预测接下来是什么。

文本被拆成称为 token 的小片段。一个 token 大致是一个词或词的一部分。模型读取目前的 token 并预测下一个。然后下一个。然后下一个。这就是它如何一次写完整答案。

如果这听起来像手机的自动补全，那是正确的起点。但不要停在那里，因为规模的变化改变了一切。手机的自动补全看过你的消息。这个模型读过人类曾经写下的大部分内容。要在所有这些中很好地预测下一个词，它必须学习语法、事实、推理步骤、论证的形状、法律合同的风格、十几种编程语言的语法。

所以 next-token prediction 不是廉价技巧。它是引擎。这些模型做的所有令人印象深刻的事都来自把这一件事做得 extraordinarily well。

为什么 next-token prediction 如此强大

要预测物理句子中的下一个词，模型必须 carry 一些物理如何工作的 sense。要完成代码中的函数，它必须跟踪代码在做什么。要继续翻译，它必须同时在两种语言中 hold 意义。在这个规模上很好地预测文本，迫使模型吸收关于世界的 staggering amount 的结构。

这就是这些工具在好日子感觉像魔法的原因。可以给它一个 messy 段落并得到一个 clean 的。可以描述一个 bug 并得到修复。可以要求它向十岁孩子解释一个 hard idea，它会。可以粘贴一个长文档并在几秒钟内得到一个 fair summary。这些都不是伪造的。都来自同一个 next-token 引擎，它是大多数人将 ever touch 的最有用的技术之一。

陷阱：听起来对 ≠ 是对的

现在来到改变使用方式的一个想法。

在所有训练中，模型到底被奖励了什么？它被奖励产生看起来像训练文本的文本。那就是它被优化的目标。Plausible text。读起来自然、流畅、likely 的文本。

慢慢读，因为里面藏着一个 gap。简单 words：模型被优化来听起来对。它没有被优化来是对的。

大多数时候，这两件事一起 travel。真实、true 的句子在训练数据中很常见，所以 true text 通常是最 plausible text。那个相关性正是模型有用的原因。如果听起来对和是对彼此无关，这些工具将毫无价值。

但两者不是同一件事。它们在边缘处分离。当一个 plausible-sounding false answer 可用时，模型没有 separate alarm 会响起。它从未被给予一个。

后来的训练阶段确实有帮助。这些模型被进一步训练以更 helpful、polite 和 accurate，那个阶段 genuinely helps。但它 mostly 塑造模型如何与我们交谈。它教一个 helpful 的语调和一个回答的意愿。它没有安装一个模型可以在说话前咨询的 separate fact-checker。 一个模型可以被训练得更 helpful，仍然没有 inner way 感受它知道的和它编造的区别。

这是大多数人错过的部分。模型内部没有第二个声音问"等等，我真的知道这个吗？"当它回忆起训练中出现一百万次的著名事实，和它发明一个从未见过的引用时，过程是一样的。它在两种情况下都产生下一个 plausible token。所以它在两种情况下听起来 equally sure。

一个人感受"我知道这个"和"我在猜测"之间的区别。我们犹豫。我们说"我认为"或"我不确定"。模型的 confidence 不像我们的那样跟踪 correctness。它可以完全错误，用和完全正确时一样的 smooth、assured tone。

那个 gap——between what is plausible and what is true——不是某人忘记修复的 bug。它 built into 模型被训练做什么。那个 gap 正是我们自己的验证进入画面的地方。

哪里咬得最狠

什么时候 gap 变宽？什么时候 plausible drift away from true？

特定可验证事实。名字、日期、数字、谁做了什么以及何时。恰好有一个正确答案和一千个 plausible 错误。模型可以用 confident voice 产生任何一千个。

数学和计算。这让人惊讶。模型不是运行计算器。它在预测答案 tend to look like 什么。对于简单加法，它看过模式如此频繁以至于通常是对的。对于任何别扭的东西，它产生一个大约 right size 的、简单错误的数字。

引用和来源。引用有固定的、可学习的格式。作者、标题、期刊、年份。格式容易模仿。论文是否真的存在，以及是否真的说了声称的内容，是格式不携带的 separate fact。所以我们得到格式完美的引用，指向从未被写过的内容。

近期事件。模型从某个截止日期之前收集的文本中学习。问那之后的事，没有真实的东西可以回忆，但它仍然会产生 plausible-sounding 的 account。

小众和专业话题。这是 subtle 的一个。在罕见、狭窄的领域中，训练数据 thin。真实材料越少，模型越 hard 地倚靠那个领域 merely sounds right 的东西。所以 plausible 和 true 之间的 gap 在最需要专家的地方 widest——而我们在那里 least able 抓住它。我们最需要专家的地方是模型 least reliable 且听起来 most authoritative 的地方。

哪里实际上可以信任

读完所有这些后决定不信任这些工具做任何事，将是错误的 lesson，而且会 cost 一个真正伟大的工具。

风险不是到处都高。它在特定地方高，在其他地方低。技能是知道哪个是哪个。

当以下三件事之一为真时，风险低：

第一，当听起来对和是对基本上是同一件事时。可以要求模型 rephrase 一个笨拙的句子、soften 一封邮件，或建议十个项目名称。没有隐藏的 true answer 它可以弄错。一个好听的 rewrite 就是一个好的 rewrite。

第二，当我们给它 truth 并要求它处理时。如果我们粘贴自己的文档并要求 summary，事实来自我们。模型是在 reshaping 我们提供的文本，不是从记忆中 pull claims。仍然值得 glance 检查 nothing got twisted，但危险小得多。

第三，当答案自我检查时。代码是最清晰的例子。如果模型写一个函数而我们运行它，计算机会告诉我们它是否工作。我们不是信任模型。我们是信任我们的测试。Brainstorming 同样工作。我们将自己判断想法，所以一个 weak idea cost 我们 nothing。

这也是真实工具来救援的原因。当模型可以运行实际计算、搜索 live source，或在回答前查找东西时，它被 handed 它自己缺乏的 exact external check。Truth 然后来自可以被验证的地方，不是来自模型的记忆。

模式：这些工具在有 cheap way 检查输出，或没有 single truth 可以弄错时 safest。它们在输出是 specific factual claim、presented confidently、需要 real work 来验证时 most dangerous——而正是我们 tempted to skip 的工作。

验证清单

这是什么类型的任务？是品味和措辞的问题，还是要么真要么假的声明？措辞 safe。事实声明需要检查。
把每个特定事实、数字、名字、日期和引用视为未确认，直到我们在别处看到它，特别是如果我们准备把它重复给别人。
永远不要使用我们没有打开的引用。如果模型给我们一个来源，我们必须找到真实来源才能信任它或分享它。
自己做数学，或用计算器。如果数字重要，我们不能 take 模型的 word for it。
当话题是小众或近期时格外小心。这两个领域是 confident 和 wrong 重叠最多的地方。
注意我们自己的懒惰。验证越 hard，跳过检查的 temptation 越大，而我们不 skip 的重要性越大。
Confidence 不是证据。Smooth、certain 的语调意味着 nothing。它在答案对或错时听起来一样。

记住的心理模型

想象我们雇佣了一个 brilliant intern。他们读过几乎所有东西。写得快，写得好。永远礼貌，从不告诉我们什么时候不确定。我们问他们任何事，几秒钟内得到清晰、自信、组织良好的答案。

那个 intern genuinely valuable。不利用他们是愚蠢的。但我们了解了关于他们的一件事。他们在猜测时听起来和正确时 exactly 一样 sure。所以我们用他们做一切，但从不不经阅读就把他们的工作发出去。

这就是整个事情。不是"这些工具很蠢"，这显然是 false。不是"这些工具是神谕"，这是危险的。中间更有用的东西：它们被优化来听起来对，听起来对通常确实意味着是对的，而它不意味着的小空间是我们负责的。

构建这些模型的人生活在那个空间。现在，我们也是。