最近 X 上有一组手绘 AI 科普图刷屏了,作者 @sairahul1 把从神经网络到扩散模型的 20 个核心概念,每个都画成一张一目了然的插图,配上简洁的英文解释。Jason Zhu(@GoSailGlobal)把这 20 个概念翻译整理成中文版,加上自己的理解,方便收藏查阅。
Part 1: AI 底层是怎么运作的
1. 神经网络 Neural Networks
大脑有神经元,AI 也有。输入层接收数据,经过若干隐藏层的运算,最终输出结果。学习的过程就是不断调整这些连接的权重。
整个结构其实很朴素,输入进来,层层传递,输出出去。关键在于中间那些隐藏层,每一层都在提取不同层级的特征。
2. 分词 Tokenization
模型不认识"文字",它只认识数字。所以第一步是把一句话切成小块,每块对应一个数字编号。
"She is playing football" 会被切成 She / is / play / ##ing / foot / ##ball 这样的 token。中文也类似,"人工智能"可能被切成"人工"和"智能"两个 token。
3. 词嵌入 Embeddings
把每个 token 映射到一个高维空间里的坐标点。语义相近的词,坐标距离就近。Doctor 和 Nurse 挨着,King 和 Queen 挨着。
这也是为什么大模型能理解同义词和类比关系。它不是靠字面匹配,是靠空间距离。
4. 注意力机制 Attention
"She bought shares in Apple" 这句话里,Apple 是水果还是公司?模型通过注意力机制看整句话的上下文来判断。bought 和 shares 这两个词的权重很高,所以 Apple 被理解为公司。
一个词的含义取决于它周围的词。注意力机制让模型能够动态地分配关注度。
5. Transformer 架构
2017 年 Google 提出的架构,把上面的分词、嵌入、注意力全串起来,而且所有 token 可以并行处理。传统 RNN 一个词一个词地读,Transformer 一次读完整句话。
这个架构是当前所有大模型的基础,GPT、Claude、Gemini、Llama 全都基于它。
Part 2: 大语言模型是怎么工作的
6. 大语言模型 LLMs
本质上就是一个超大号的 Transformer,用海量文本训练出来。它的工作循环很简单:预测下一个词,检查对不对,调整参数,重复。
GPT-4 有超过一万亿参数,训练数据覆盖互联网上大部分公开文本。但它的核心动作始终是"预测下一个 token"。
7. 上下文窗口 Context Window
模型一次能看多少内容是有上限的。这个上限就是上下文窗口。早期的 GPT-3 只有 4K token,现在 Claude 3 已经到了 200K token,Gemini 更是做到了百万级别。
窗口越大,模型能处理的信息越多,但计算成本也跟着涨。对于长文档分析、代码库理解这类任务,大窗口是刚需。
8. 温度 Temperature
温度参数控制模型输出的随机性。Temperature = 0 时,模型每次都选概率最高的词,输出稳定可预测。Temperature 调高到 2,输出变得天马行空。
写代码用低温度,写小说用高温度。大多数日常场景 0.7 到 1 之间就够了。
9. 幻觉 Hallucination
模型会一本正经地编造事实。它的"自信"不等于"正确"。问它一个不存在的论文标题,它可能会编出完整的作者、期刊和摘要。
这是当前大模型最大的可靠性问题。缓解方法包括 RAG、多路验证、让模型说"我不确定"。
10. 提示工程 Prompt Engineering
同一个模型,给它不同的提示词,输出质量差异巨大。一个含糊的提示和一个结构清晰、包含示例的提示,结果可能天差地别。
好的提示包含三个要素:角色设定、具体任务描述、输出格式要求。这也是为什么"提示工程师"成了一个新职位。
Part 3: AI 模型是怎么变强的
11. 迁移学习 Transfer Learning
从零训练一个模型要花几个月和几百万美元。迁移学习的思路是:拿一个已经训练好的基础模型,用少量新数据微调一下,就能适应新任务。
训练成本从几百万降到几千块,时间从几个月缩短到几天。这也是为什么开源基础模型(Llama、Mistral)对行业这么重要。
12. 微调 Fine-Tuning
在基础模型上用特定领域的数据继续训练。同一个底座模型,微调出来可以变成医疗助手、法律顾问、代码生成器。
微调不改变模型的核心架构,只是调整参数权重。类似于一个全科医生去进修某个专科。
13. RLHF 人类反馈强化学习
训练出来的原始模型可能会说有毒的话或者给出错误的信息。RLHF 的做法是:让模型生成多个回答,人类标注员选出最好的那个,模型根据这些偏好反馈来调整自己。
这个过程重复成千上万次,原始模型逐渐变成一个对齐人类偏好的助手。ChatGPT 能好用,RLHF 功不可没。
14. LoRA 低秩适配
全量微调一个大模型需要更新所有参数,代价太高。LoRA 的思路是冻结原始模型的所有参数,只在旁边加一小组可训练的"适配器"。
效果几乎一样,成本降低 100 倍。现在社区里大量的开源微调模型都是用 LoRA 做的。
15. 量化 Quantization
把模型参数从 32 位浮点数压缩到 8 位甚至 4 位整数。一个 70GB 的模型可以压缩到 4GB 左右,在笔记本上就能跑。
精度会有一点损失,但对大多数应用场景来说几乎感觉不到。这也是为什么现在手机上也能跑大模型了。
Part 4: 真实 AI 系统是怎么搭建的
16. RAG 检索增强生成
让模型在回答前先去检索相关资料,然后基于检索结果生成答案。先查再答,不是凭记忆编。
RAG 大幅降低了幻觉率,而且知识可以实时更新,不需要重新训练模型。企业级 AI 应用几乎都在用这个架构。
17. 向量数据库 Vector Databases
传统数据库按关键词搜索,向量数据库按语义搜索。搜"如何提高效率"也能匹配到"提升生产力的方法"。
这是 RAG 架构的核心组件。把文档切块,每块转成向量存进数据库,查询时用语义相似度来召回最相关的内容。
18. AI Agent 智能体
传统的 LLM 只能对话,Agent 能行动。它有一个思考、行动、观察、重复的循环:接到任务后自己拆解步骤,调用工具执行,观察结果,再决定下一步。
2025 年是 Agent 爆发的一年,从 Manus 到 Claude Code,从 Cursor 到 Devin,能自主完成复杂任务的 AI Agent 正在重塑工作流。
19. 思维链 Chain of Thought
直接问 AI "17 x 24 = ?" 它可能算错。但如果让它分步思考(17x20=340,17x4=68,340+68=408),正确率大幅提升。
同一个模型,给更多"思考空间"就能给出更好的答案。这也是 o1、o3、Claude 3.5 Sonnet 等推理模型的核心原理。
20. 扩散模型 Diffusion Models
Midjourney、DALL-E、Stable Diffusion 背后的技术。训练时把图片逐步加噪声直到变成纯噪点,推理时反过来,从噪点一步步还原出图片。
文本生成图片的关键在于:用文字描述来引导去噪的方向。同样的噪点,不同的文字提示,生成完全不同的图片。
以上 20 个概念覆盖了当前 AI 领域最核心的技术栈。从底层的神经网络到上层的 Agent 应用,从训练侧的 RLHF 到推理侧的思维链,每一个概念都在真实的产品和系统中发挥着作用。
所有插图来自 X 用户 @sairahul1 的原创手绘系列。