想转 AI 工程师？先搞懂这 7 个概念再说

为什么这份概念地图值得读

想转 AI 工程师的人，第一反应通常是学 ChatGPT 怎么用、学 prompt engineering。但真正进了项目组就会发现，工具会用和系统能搭完全是两回事。

Jason Zhu 整理的这份地图，把 7 个核心模块串成了一条完整的架构链路。每个概念讲清楚"是什么"和"什么时候用"，适合刚入行或想补全知识盲区的人通读一遍。

模块一：LLM（大语言模型）

本质：预测引擎——预测序列中最可能出现的下一个 token。

三个核心概念：

概念	说明
Token	模型处理的最小单位，可以是词、子词或标点。模型看的是 token 序列，不是完整句子
上下文窗口	决定模型一次能参考多少信息。窗口越大，"记住"的对话越长，但成本越高
参数	模型训练出来的权重数量，直接影响能力天花板。GPT-4 级别在万亿参数

LLM 有两个阶段：

预训练阶段：从海量数据学习语言模式
推理阶段：根据用户输入实时生成回复（你用 ChatGPT 时跑的就是这个）

天然短板：只知道训练数据里的东西。公司内部文档、最新产品更新、私有数据库——模型完全不知道。

模块二：RAG（检索增强生成）

解决什么问题：模型知识过时或不知道私有数据的问题。

做法：在模型生成回答之前，先从外部数据源检索相关内容，把检索到的上下文喂给模型，再让它生成回答。幻觉大幅减少。

RAG 管道三步走：

索引 → 检索 → 生成

索引：把文档切成小块（chunking），每块转成向量（embedding），存入向量数据库
检索：用户提问时，把问题也转成向量，从数据库中找语义最相似的文档块
生成：把检索到的上下文 + 原始问题一起交给 LLM，生成有据可查的回答

两种检索方式：

稀疏检索：靠关键词匹配，速度快但语义理解弱
稠密检索：靠 embedding 做语义匹配，效果好但计算量大
生产环境通常两者混合使用

模块三：向量数据库

Embedding 是怎么工作的：把文本、图片、音频转成一组数字（向量）。语义相近的内容在向量空间里距离更近，无关的内容距离更远。这就是推荐系统、语义搜索、AI 助手的核心原理。

主流选型：

数据库	特点	适合场景
Pinecone	全托管，上手最快	原型验证
FAISS	Meta 开源，单机性能极强	延迟敏感场景
Chroma	轻量级，LangChain 集成最好	本地开发
Milvus	分布式架构	大规模生产部署

模块四：Fine-tuning vs RAG

很多人分不清两者的区别。一句话总结：

RAG 给模型加知识，Fine-tuning 改模型的行为。

RAG 适合的场景：

模型需要访问实时数据
私有文档、特定领域知识库
知识随时在变——RAG 只需更新外部数据源，模型本身不用动

Fine-tuning 适合的场景：

想让模型用特定语气说话
遵循特定输出格式
在某个垂直领域表现更好
这改的是模型本身的行为模式，不是给它加新知识

生产环境里两者经常一起用：Fine-tuning 让模型掌握输出风格和专业术语，RAG 确保它能引用最新数据。

模块五：记忆系统

没有记忆系统的 AI 每次对话都是从零开始——你上一轮告诉它的偏好、背景信息、决策历史，下一轮全忘了。

AI 的记忆分两层：

类型	机制	例子
短期记忆	上下文窗口，当前对话里的所有内容都在这里	窗口有上限，超出部分被丢掉
长期记忆	转成 embedding 存入向量数据库，下次对话时检索注入上下文	ChatGPT Memory、Claude Project Memory

核心挑战：决定什么值得记、什么可以丢。记太多引入噪音，记太少丢失关键上下文。

模块六：Agent（智能体）

普通 AI 应用 vs Agentic AI：

普通：你问一句它答一句
Agentic：你给它一个目标，它自己规划步骤、调用工具、执行任务、检查结果，不合理就重来

Agent 的三大核心能力：

Planning（规划）：把大目标拆成小步骤
Tool Use（工具调用）：调用外部工具完成子任务
Self-reflection（自我纠错）：检查结果，不合理就重试

例子：你让 Agent "帮我分析这个 CSV 然后生成报告"，它会自己决定：先读文件 → 写分析代码 → 跑完检查输出是否合理 → 不合理就重来。

模块七：MCP（Model Context Protocol）

解决什么问题：AI 怎么跟外部工具通信。

如果没有统一协议，每个工具厂商写一套接口，AI 要接 10 个工具就得写 10 套适配代码。MCP 提供了统一标准——类似于 AI 应用的 USB-C 接口。

核心价值：一次对接，所有支持 MCP 的工具都能用。

MCP 是 Anthropic 推出的开放协议，是 AI 工具生态走向标准化的重要信号。

完整架构：七个模块怎么协作

一个完整的 AI 系统通常是这样的架构：

用户输入
    ↓
Agent 层（任务编排 + 自主执行）
    ↓
LLM（推理引擎）
    ↓
┌── RAG（接入外部知识源）
├── 向量数据库（语义存储和检索）
├── 记忆系统（对话历史 + 用户偏好）
├── Fine-tuning（定制输出风格）
└── MCP（打通外部工具链）

各层各司其职：

LLM 做底层推理
RAG 接入知识源
向量数据库 做语义存储
记忆系统 管对话历史
Fine-tuning 定制行为风格
MCP 打通外部工具
Agent 负责任务编排

实用takeaway

RAG ≠ Fine-tuning：前者加知识，后者改行为。生产环境经常一起用
向量数据库选型：原型用 Pinecone，量产看规模和延迟要求选 FAISS/Milvus，本地开发用 Chroma
MCP 是机会：协议标准意味着工具生态正在整合，提前熟悉 MCP 接口有先发优势
记忆系统的核心挑战：不是什么值得记，而是噪点控制——记太多=噪音，记太少=丢上下文
Agent 是最终形态：单个模块会逐渐被 Agent 层的任务编排能力整合