20 张手绘图讲透 AI 核心概念，从神经网络到 Agent 一次看懂

最近 X 上有一组手绘 AI 科普图刷屏了，作者 @sairahul1 把从神经网络到扩散模型的 20 个核心概念，每个都画成一张一目了然的插图，配上简洁的英文解释。Jason Zhu（@GoSailGlobal）把这 20 个概念翻译整理成中文版，加上自己的理解，方便收藏查阅。

Part 1: AI 底层是怎么运作的

1. 神经网络 Neural Networks

大脑有神经元，AI 也有。输入层接收数据，经过若干隐藏层的运算，最终输出结果。学习的过程就是不断调整这些连接的权重。

整个结构其实很朴素，输入进来，层层传递，输出出去。关键在于中间那些隐藏层，每一层都在提取不同层级的特征。

2. 分词 Tokenization

模型不认识"文字"，它只认识数字。所以第一步是把一句话切成小块，每块对应一个数字编号。

"She is playing football" 会被切成 She / is / play / ##ing / foot / ##ball 这样的 token。中文也类似，"人工智能"可能被切成"人工"和"智能"两个 token。

3. 词嵌入 Embeddings

把每个 token 映射到一个高维空间里的坐标点。语义相近的词，坐标距离就近。Doctor 和 Nurse 挨着，King 和 Queen 挨着。

这也是为什么大模型能理解同义词和类比关系。它不是靠字面匹配，是靠空间距离。

4. 注意力机制 Attention

"She bought shares in Apple" 这句话里，Apple 是水果还是公司？模型通过注意力机制看整句话的上下文来判断。bought 和 shares 这两个词的权重很高，所以 Apple 被理解为公司。

一个词的含义取决于它周围的词。注意力机制让模型能够动态地分配关注度。

5. Transformer 架构

2017 年 Google 提出的架构，把上面的分词、嵌入、注意力全串起来，而且所有 token 可以并行处理。传统 RNN 一个词一个词地读，Transformer 一次读完整句话。

这个架构是当前所有大模型的基础，GPT、Claude、Gemini、Llama 全都基于它。

Part 2: 大语言模型是怎么工作的

6. 大语言模型 LLMs

本质上就是一个超大号的 Transformer，用海量文本训练出来。它的工作循环很简单：预测下一个词，检查对不对，调整参数，重复。

GPT-4 有超过一万亿参数，训练数据覆盖互联网上大部分公开文本。但它的核心动作始终是"预测下一个 token"。

7. 上下文窗口 Context Window

模型一次能看多少内容是有上限的。这个上限就是上下文窗口。早期的 GPT-3 只有 4K token，现在 Claude 3 已经到了 200K token，Gemini 更是做到了百万级别。

窗口越大，模型能处理的信息越多，但计算成本也跟着涨。对于长文档分析、代码库理解这类任务，大窗口是刚需。

8. 温度 Temperature

温度参数控制模型输出的随机性。Temperature = 0 时，模型每次都选概率最高的词，输出稳定可预测。Temperature 调高到 2，输出变得天马行空。

写代码用低温度，写小说用高温度。大多数日常场景 0.7 到 1 之间就够了。

9. 幻觉 Hallucination

模型会一本正经地编造事实。它的"自信"不等于"正确"。问它一个不存在的论文标题，它可能会编出完整的作者、期刊和摘要。

这是当前大模型最大的可靠性问题。缓解方法包括 RAG、多路验证、让模型说"我不确定"。

10. 提示工程 Prompt Engineering

同一个模型，给它不同的提示词，输出质量差异巨大。一个含糊的提示和一个结构清晰、包含示例的提示，结果可能天差地别。

好的提示包含三个要素：角色设定、具体任务描述、输出格式要求。这也是为什么"提示工程师"成了一个新职位。

Part 3: AI 模型是怎么变强的

11. 迁移学习 Transfer Learning

从零训练一个模型要花几个月和几百万美元。迁移学习的思路是：拿一个已经训练好的基础模型，用少量新数据微调一下，就能适应新任务。

训练成本从几百万降到几千块，时间从几个月缩短到几天。这也是为什么开源基础模型（Llama、Mistral）对行业这么重要。

12. 微调 Fine-Tuning

在基础模型上用特定领域的数据继续训练。同一个底座模型，微调出来可以变成医疗助手、法律顾问、代码生成器。

微调不改变模型的核心架构，只是调整参数权重。类似于一个全科医生去进修某个专科。

13. RLHF 人类反馈强化学习

训练出来的原始模型可能会说有毒的话或者给出错误的信息。RLHF 的做法是：让模型生成多个回答，人类标注员选出最好的那个，模型根据这些偏好反馈来调整自己。

这个过程重复成千上万次，原始模型逐渐变成一个对齐人类偏好的助手。ChatGPT 能好用，RLHF 功不可没。

14. LoRA 低秩适配

全量微调一个大模型需要更新所有参数，代价太高。LoRA 的思路是冻结原始模型的所有参数，只在旁边加一小组可训练的"适配器"。

效果几乎一样，成本降低 100 倍。现在社区里大量的开源微调模型都是用 LoRA 做的。

15. 量化 Quantization

把模型参数从 32 位浮点数压缩到 8 位甚至 4 位整数。一个 70GB 的模型可以压缩到 4GB 左右，在笔记本上就能跑。

精度会有一点损失，但对大多数应用场景来说几乎感觉不到。这也是为什么现在手机上也能跑大模型了。

Part 4: 真实 AI 系统是怎么搭建的

16. RAG 检索增强生成

让模型在回答前先去检索相关资料，然后基于检索结果生成答案。先查再答，不是凭记忆编。

RAG 大幅降低了幻觉率，而且知识可以实时更新，不需要重新训练模型。企业级 AI 应用几乎都在用这个架构。

17. 向量数据库 Vector Databases

传统数据库按关键词搜索，向量数据库按语义搜索。搜"如何提高效率"也能匹配到"提升生产力的方法"。

这是 RAG 架构的核心组件。把文档切块，每块转成向量存进数据库，查询时用语义相似度来召回最相关的内容。

18. AI Agent 智能体

传统的 LLM 只能对话，Agent 能行动。它有一个思考、行动、观察、重复的循环：接到任务后自己拆解步骤，调用工具执行，观察结果，再决定下一步。

2025 年是 Agent 爆发的一年，从 Manus 到 Claude Code，从 Cursor 到 Devin，能自主完成复杂任务的 AI Agent 正在重塑工作流。

19. 思维链 Chain of Thought

直接问 AI "17 x 24 = ?" 它可能算错。但如果让它分步思考（17x20=340，17x4=68，340+68=408），正确率大幅提升。

同一个模型，给更多"思考空间"就能给出更好的答案。这也是 o1、o3、Claude 3.5 Sonnet 等推理模型的核心原理。

20. 扩散模型 Diffusion Models

Midjourney、DALL-E、Stable Diffusion 背后的技术。训练时把图片逐步加噪声直到变成纯噪点，推理时反过来，从噪点一步步还原出图片。

文本生成图片的关键在于：用文字描述来引导去噪的方向。同样的噪点，不同的文字提示，生成完全不同的图片。

以上 20 个概念覆盖了当前 AI 领域最核心的技术栈。从底层的神经网络到上层的 Agent 应用，从训练侧的 RLHF 到推理侧的思维链，每一个概念都在真实的产品和系统中发挥着作用。

所有插图来自 X 用户 @sairahul1 的原创手绘系列。

Part 1: AI 底层是怎么运作的

Part 2: 大语言模型是怎么工作的

Part 3: AI 模型是怎么变强的

Part 4: 真实 AI 系统是怎么搭建的

继续阅读