用了三年 PDF 喂 AI，才发现自己一直在干蠢事

AYi（@AYi_AInotes）用了三年 PDF 喂 AI，昨天才发现自己一直在干一件特别蠢的事。

PDF 不是 AI 的母语。这句话第一次看到的时候，直接愣了三秒。一直觉得喂 AI 文档这事 PDF 是默认最优解，排版精准、跨平台稳定、连律师签合同都用它，AI 既然号称什么都能读，PDF 当然也没问题。

结果错了，而且错得相当离谱。

一、你以为 PDF 是最优解，其实它是二手翻译

从 2023 年开始玩 AI 到现在三年了，电脑里躺着几百份 PDF 文档。

每次扔给 AI 总有那么几次得到的回答让人想砸键盘，漏段落、串数据、还能编造原文里压根不存在的句子。

最离谱的一次，是让 Claude 读一份产品调研报告，PDF 三十几页，里面有组用户留存数据「7 日留存 38%、30 日留存 19%」。

Claude 返回的总结里，这两个数字直接被换了位置，38% 写成了 19%，19% 写成了 38%。

盯着那段回答看了好几分钟，差点把它发给老板。

那一刻以为是模型抽风，直到昨天才反应过来，是一直在用错的方式喂它。

最近好几个粉丝私信同一个问题，为什么 AI 读 PDF 总是出错，是模型不够新吗，要不要升级到 Pro。

跑去问 Grok 和 Claude，问的就一个问题，PDF 和 Markdown 到底哪个更适合喂给你？

两个模型的答案出奇一致：Markdown。

更没想到的是 Claude 接着说的一句话——

大量 RAG 工程实践的标准流程，是先把 PDF 转成 Markdown 再喂给模型。

真正做 AI 应用的专业团队，自己都不直接用 PDF 喂模型，先转一道，转成 MD 再说。

剥开来看，PDF 在 AI 眼里本来就不是一份"文档"，它是一张图加一堆坐标加一些字符，AI 得先把这堆东西重新拼回成"句子"才能开始读。

这一拼，损耗就来了。

打个比方，Markdown 就像别人直接把演讲稿递到你手里，每一个字都清清楚楚。PDF 呢，就像让一个同声传译先听一遍演讲、再凭记忆复述给你，业务再熟练，也总会漏掉点什么。

之前那个 38% 和 19% 被换位的故事，本质就是 AI 在"复述"的时候记混了数字。

最反直觉的地方在于，AI 读 PDF 的时候真不是在"读"。

它在做一件很笨的活——识别每个字符在页面上的坐标，判断这一行和上一行是不是同一个段落，猜测这个表格的行列结构，还得把页眉页脚那些每页都重复出现的公司 logo 文字排除掉。

这些活本来应该排版软件干。结果全甩给 AI 了。

而 Markdown 呢，标题就是 #，列表就是 -，加粗就是 **，结构是直接写在文本里的，AI 一眼就能看明白。

这就是为什么同一份文档，PDF 版本消耗的 Token 通常会比 Markdown 多出一截。Token 是 AI 的算钱单位，格式越乱，它需要先"理顺"再"理解"，钱就花在理顺上了。

更狠的是，为这些脏活付完钱，AI 还容易干错。

有三种情况 PDF 反而是更优解：

但说实话，日常喂给 AI 的，90% 都不是这些。技术文档、学习笔记、论文、产品手册、内部知识库、周报月报，这些东西的最佳归宿，全是 Markdown。

改完之后，AI 使用体验肉眼可见地变好。最直接的反馈，就是再读那份产品调研报告，先用 markitdown 转成 MD 再喂，那两个被换位的数字这次乖乖出现在了正确的位置。

AI 真正的能力上限，从来不取决于模型，取决于你喂给它什么。

用 AI 这件事就像养一盆植物，模型是种子，提示词是阳光，但你喂给它的格式，是土壤。种子再好，土壤板结，它也长不出你想要的样子。

每搞明白一件小事，就是给土壤松一锹土。