想转 AI 工程师?先搞懂这 7 个概念再说
为什么这份概念地图值得读
想转 AI 工程师的人,第一反应通常是学 ChatGPT 怎么用、学 prompt engineering。但真正进了项目组就会发现,工具会用和系统能搭完全是两回事。
Jason Zhu 整理的这份地图,把 7 个核心模块串成了一条完整的架构链路。每个概念讲清楚"是什么"和"什么时候用",适合刚入行或想补全知识盲区的人通读一遍。
模块一:LLM(大语言模型)
本质:预测引擎——预测序列中最可能出现的下一个 token。
三个核心概念:
| 概念 | 说明 |
|---|---|
| Token | 模型处理的最小单位,可以是词、子词或标点。模型看的是 token 序列,不是完整句子 |
| 上下文窗口 | 决定模型一次能参考多少信息。窗口越大,"记住"的对话越长,但成本越高 |
| 参数 | 模型训练出来的权重数量,直接影响能力天花板。GPT-4 级别在万亿参数 |
LLM 有两个阶段:
- 预训练阶段:从海量数据学习语言模式
- 推理阶段:根据用户输入实时生成回复(你用 ChatGPT 时跑的就是这个)
天然短板:只知道训练数据里的东西。公司内部文档、最新产品更新、私有数据库——模型完全不知道。
模块二:RAG(检索增强生成)
解决什么问题:模型知识过时或不知道私有数据的问题。
做法:在模型生成回答之前,先从外部数据源检索相关内容,把检索到的上下文喂给模型,再让它生成回答。幻觉大幅减少。
RAG 管道三步走:
索引 → 检索 → 生成
- 索引:把文档切成小块(chunking),每块转成向量(embedding),存入向量数据库
- 检索:用户提问时,把问题也转成向量,从数据库中找语义最相似的文档块
- 生成:把检索到的上下文 + 原始问题一起交给 LLM,生成有据可查的回答
两种检索方式:
- 稀疏检索:靠关键词匹配,速度快但语义理解弱
- 稠密检索:靠 embedding 做语义匹配,效果好但计算量大
- 生产环境通常两者混合使用
模块三:向量数据库
Embedding 是怎么工作的:把文本、图片、音频转成一组数字(向量)。语义相近的内容在向量空间里距离更近,无关的内容距离更远。这就是推荐系统、语义搜索、AI 助手的核心原理。
主流选型:
| 数据库 | 特点 | 适合场景 |
|---|---|---|
| Pinecone | 全托管,上手最快 | 原型验证 |
| FAISS | Meta 开源,单机性能极强 | 延迟敏感场景 |
| Chroma | 轻量级,LangChain 集成最好 | 本地开发 |
| Milvus | 分布式架构 | 大规模生产部署 |
模块四:Fine-tuning vs RAG
很多人分不清两者的区别。一句话总结:
RAG 给模型加知识,Fine-tuning 改模型的行为。
RAG 适合的场景:
- 模型需要访问实时数据
- 私有文档、特定领域知识库
- 知识随时在变——RAG 只需更新外部数据源,模型本身不用动
Fine-tuning 适合的场景:
- 想让模型用特定语气说话
- 遵循特定输出格式
- 在某个垂直领域表现更好
- 这改的是模型本身的行为模式,不是给它加新知识
生产环境里两者经常一起用:Fine-tuning 让模型掌握输出风格和专业术语,RAG 确保它能引用最新数据。
模块五:记忆系统
没有记忆系统的 AI 每次对话都是从零开始——你上一轮告诉它的偏好、背景信息、决策历史,下一轮全忘了。
AI 的记忆分两层:
| 类型 | 机制 | 例子 |
|---|---|---|
| 短期记忆 | 上下文窗口,当前对话里的所有内容都在这里 | 窗口有上限,超出部分被丢掉 |
| 长期记忆 | 转成 embedding 存入向量数据库,下次对话时检索注入上下文 | ChatGPT Memory、Claude Project Memory |
核心挑战:决定什么值得记、什么可以丢。记太多引入噪音,记太少丢失关键上下文。
模块六:Agent(智能体)
普通 AI 应用 vs Agentic AI:
- 普通:你问一句它答一句
- Agentic:你给它一个目标,它自己规划步骤、调用工具、执行任务、检查结果,不合理就重来
Agent 的三大核心能力:
- Planning(规划):把大目标拆成小步骤
- Tool Use(工具调用):调用外部工具完成子任务
- Self-reflection(自我纠错):检查结果,不合理就重试
例子:你让 Agent "帮我分析这个 CSV 然后生成报告",它会自己决定:先读文件 → 写分析代码 → 跑完检查输出是否合理 → 不合理就重来。
模块七:MCP(Model Context Protocol)
解决什么问题:AI 怎么跟外部工具通信。
如果没有统一协议,每个工具厂商写一套接口,AI 要接 10 个工具就得写 10 套适配代码。MCP 提供了统一标准——类似于 AI 应用的 USB-C 接口。
核心价值:一次对接,所有支持 MCP 的工具都能用。
MCP 是 Anthropic 推出的开放协议,是 AI 工具生态走向标准化的重要信号。
完整架构:七个模块怎么协作
一个完整的 AI 系统通常是这样的架构:
用户输入
↓
Agent 层(任务编排 + 自主执行)
↓
LLM(推理引擎)
↓
┌── RAG(接入外部知识源)
├── 向量数据库(语义存储和检索)
├── 记忆系统(对话历史 + 用户偏好)
├── Fine-tuning(定制输出风格)
└── MCP(打通外部工具链)
各层各司其职:
- LLM 做底层推理
- RAG 接入知识源
- 向量数据库 做语义存储
- 记忆系统 管对话历史
- Fine-tuning 定制行为风格
- MCP 打通外部工具
- Agent 负责任务编排
实用takeaway
- RAG ≠ Fine-tuning:前者加知识,后者改行为。生产环境经常一起用
- 向量数据库选型:原型用 Pinecone,量产看规模和延迟要求选 FAISS/Milvus,本地开发用 Chroma
- MCP 是机会:协议标准意味着工具生态正在整合,提前熟悉 MCP 接口有先发优势
- 记忆系统的核心挑战:不是什么值得记,而是噪点控制——记太多=噪音,记太少=丢上下文
- Agent 是最终形态:单个模块会逐渐被 Agent 层的任务编排能力整合