AYi(@AYi_AInotes)用了三年 PDF 喂 AI,昨天才发现自己一直在干一件特别蠢的事。
PDF 不是 AI 的母语。这句话第一次看到的时候,直接愣了三秒。一直觉得喂 AI 文档这事 PDF 是默认最优解,排版精准、跨平台稳定、连律师签合同都用它,AI 既然号称什么都能读,PDF 当然也没问题。
结果错了,而且错得相当离谱。
一、你以为 PDF 是最优解,其实它是二手翻译
从 2023 年开始玩 AI 到现在三年了,电脑里躺着几百份 PDF 文档。
每次扔给 AI 总有那么几次得到的回答让人想砸键盘,漏段落、串数据、还能编造原文里压根不存在的句子。
最离谱的一次,是让 Claude 读一份产品调研报告,PDF 三十几页,里面有组用户留存数据「7 日留存 38%、30 日留存 19%」。
Claude 返回的总结里,这两个数字直接被换了位置,38% 写成了 19%,19% 写成了 38%。
盯着那段回答看了好几分钟,差点把它发给老板。
那一刻以为是模型抽风,直到昨天才反应过来,是一直在用错的方式喂它。
最近好几个粉丝私信同一个问题,为什么 AI 读 PDF 总是出错,是模型不够新吗,要不要升级到 Pro。
跑去问 Grok 和 Claude,问的就一个问题,PDF 和 Markdown 到底哪个更适合喂给你?
两个模型的答案出奇一致:Markdown。
更没想到的是 Claude 接着说的一句话——
大量 RAG 工程实践的标准流程,是先把 PDF 转成 Markdown 再喂给模型。
真正做 AI 应用的专业团队,自己都不直接用 PDF 喂模型,先转一道,转成 MD 再说。
剥开来看,PDF 在 AI 眼里本来就不是一份"文档",它是一张图加一堆坐标加一些字符,AI 得先把这堆东西重新拼回成"句子"才能开始读。
这一拼,损耗就来了。
打个比方,Markdown 就像别人直接把演讲稿递到你手里,每一个字都清清楚楚。PDF 呢,就像让一个同声传译先听一遍演讲、再凭记忆复述给你,业务再熟练,也总会漏掉点什么。
之前那个 38% 和 19% 被换位的故事,本质就是 AI 在"复述"的时候记混了数字。
二、AI 读 PDF 的时候,干的根本不是"读"这件事
最反直觉的地方在于,AI 读 PDF 的时候真不是在"读"。
它在做一件很笨的活——识别每个字符在页面上的坐标,判断这一行和上一行是不是同一个段落,猜测这个表格的行列结构,还得把页眉页脚那些每页都重复出现的公司 logo 文字排除掉。
这些活本来应该排版软件干。结果全甩给 AI 了。
而 Markdown 呢,标题就是 #,列表就是 -,加粗就是 **,结构是直接写在文本里的,AI 一眼就能看明白。
这就是为什么同一份文档,PDF 版本消耗的 Token 通常会比 Markdown 多出一截。Token 是 AI 的算钱单位,格式越乱,它需要先"理顺"再"理解",钱就花在理顺上了。
更狠的是,为这些脏活付完钱,AI 还容易干错。
三、PDF 就一无是处吗?也不是
有三种情况 PDF 反而是更优解:
- 文档里有大量图表、设计稿、流程图,希望 AI 直接看图说话,这时候 PDF 的多模态优势就出来了
- 需要严格保留原始版式和法律效力,比如合同、正式报告、盖章文件,别折腾,原样喂
- 既要 AI 读懂文字、又要它理解视觉排版,比如分析一份产品宣传册的设计逻辑
但说实话,日常喂给 AI 的,90% 都不是这些。技术文档、学习笔记、论文、产品手册、内部知识库、周报月报,这些东西的最佳归宿,全是 Markdown。
四、三条规矩
- 新文档全部 Markdown 起手。Obsidian、Typora、VS Code、Notion 导出,工具一抓一大把,从源头上不给 AI 添麻烦
- 旧 PDF 先转再喂。微软的 markitdown、老牌的 pandoc、专门给 LLM 优化的 LlamaParse,一键转完再喂,差距肉眼可见
- 重要文档双版本归档。PDF 留着打印、签字、给人看,Markdown 专门拿来喂 AI、建知识库、做搜索
改完之后,AI 使用体验肉眼可见地变好。最直接的反馈,就是再读那份产品调研报告,先用 markitdown 转成 MD 再喂,那两个被换位的数字这次乖乖出现在了正确的位置。
五、输入决定输出
AI 真正的能力上限,从来不取决于模型,取决于你喂给它什么。
用 AI 这件事就像养一盆植物,模型是种子,提示词是阳光,但你喂给它的格式,是土壤。种子再好,土壤板结,它也长不出你想要的样子。
每搞明白一件小事,就是给土壤松一锹土。