核心洞察
工具会用和系统能搭完全是两回事。
先把链路理清楚,再挑一两个层深入,比上来就学框架 API 有效得多。
7 个核心概念链路
LLM(推理引擎)
↓
RAG(外部知识)
↓
向量数据库(语义存储)
↓
记忆系统(上下文管理)
↓
Fine-tuning(行为定制)
↓
MCP(工具连接)
↓
Agent(任务编排)
1. LLM:所有 AI 应用的推理引擎
本质
预测引擎——预测序列中最可能出现的下一个 token。
三个核心概念
| 概念 | 说明 |
|---|---|
| Token | 模型处理的最小单位,可以是词、子词或标点。模型不看完整句子,看的是 token 序列 |
| 上下文窗口 | 模型一次能参考多少信息。窗口越大"记住"的对话越长,计算成本越高 |
| 参数 | 训练出来的权重数量,直接影响能力天花板。GPT-4 级别万亿级 |
两个阶段
| 阶段 | 说明 | 示例 |
|---|---|---|
| 预训练 | 从海量数据中学习语言模式 | - |
| 推理 | 根据用户输入实时生成回复 | 用 ChatGPT 聊天 |
2. RAG:让 LLM 读到它没见过的数据
问题
LLM 天然短板:只知道训练数据里有的东西。
- 公司内部文档 ❌
- 最新产品更新 ❌
- 私有数据库内容 ❌
做法
检索增强生成(Retrieval-Augmented Generation):
在模型生成回答之前:
- 从外部数据源检索相关内容
- 把检索到的上下文喂给模型
- 再生成回答
效果:回答有真实数据支撑,幻觉大幅减少。
三步管道
第一步:索引
文档 → 切成小块(chunking)
→ 每块转成向量表示(embedding)
→ 存入向量数据库
第二步:检索
用户提问 → 问题转成向量
→ 从数据库找语义最相似的文档块
第三步:生成
检索到的上下文 + 原始问题 → 交给 LLM → 生成有据可查的回答
两种检索方式
| 方式 | 原理 | 特点 |
|---|---|---|
| 稀疏检索 | 关键词匹配 | 速度快,语义理解弱 |
| 稠密检索 | embedding 语义匹配 | 效果更好,计算量大 |
生产环境:通常两者混合使用。
3. 向量数据库:语义搜索的基础设施
与传统数据库的区别
| 类型 | 查询方式 | 示例 |
|---|---|---|
| 传统数据库 | 精确匹配 | WHERE name = 'xxx' |
| 向量数据库 | 相似度搜索 | 找语义最接近的内容 |
Embedding 原理
- 把文本、图片、音频转成一组数字(向量)
- 语义相近的内容在向量空间里距离更近
- 语义无关的距离更远
应用:推荐系统、语义搜索、AI 助手。
主流选型
| 数据库 | 特点 | 适用场景 |
|---|---|---|
| Pinecone | 全托管,上手最快 | 原型验证 |
| FAISS | Meta 开源,单机性能极强 | 延迟敏感 |
| Chroma | 轻量级,LangChain 集成最好 | 本地开发 |
| Milvus | 分布式架构 | 大规模生产 |
4. Fine-tuning vs RAG:一个管知识,一个管行为
一句话总结
| 技术 | 作用 | 适用场景 |
|---|---|---|
| RAG | 给模型加知识 | 实时数据、私有文档、特定领域知识库 |
| Fine-tuning | 改模型的行为 | 特定语气、输出格式、垂直领域表现 |
关键区别
| 维度 | RAG | Fine-tuning |
|---|---|---|
| 知识更新 | 更新外部数据源,模型不动 | 需要重新训练 |
| 改动对象 | 外部知识库 | 模型本身行为模式 |
| 灵活性 | 高 | 低 |
生产环境
经常一起用:
- Fine-tuning:掌握输出风格和专业术语
- RAG:确保引用最新数据
5. 记忆系统:让 AI 记住上下文
没有记忆的问题
每次对话从零开始。
上一轮告诉它的偏好、背景、决策历史 → 下一轮全忘。
两层记忆
| 类型 | 机制 | 限制 |
|---|---|---|
| 短期记忆 | 上下文窗口 | 有上限,超出部分被丢掉 |
| 长期记忆 | 重要交互转 embedding 存向量数据库,下次检索注入上下文 | 决定什么值得记 |
示例
- ChatGPT Memory 功能
- Claude Project Memory
核心挑战
决定什么值得记、什么可以丢。
| 问题 | 后果 |
|---|---|
| 记太多 | 引入噪音 |
| 记太少 | 丢失关键上下文 |
6. Agentic AI + MCP:从回答问题到自主执行
普通 AI vs Agent
| 类型 | 交互方式 |
|---|---|
| 普通 AI | 你问一句,它答一句 |
| Agent | 你给目标,它自己规划步骤、调用工具、执行任务、检查结果 |
Agent 核心能力
- Planning(规划)
- Tool use(工具调用)
- Self-reflection(自我纠错)
示例:"帮我分析这个 CSV 然后生成报告"
→ 自己决定:先读文件 → 写分析代码 → 跑完检查输出 → 不合理就重来
MCP:AI 的 USB-C 接口
问题:每个工具厂商自己写接口,AI 接 10 个工具要写 10 套适配代码。
MCP(Model Context Protocol):
- Anthropic 推出的开放协议
- 统一标准
- 类似 AI 应用的 USB-C 接口
- 一次对接,所有支持 MCP 的工具都能用
7. 完整系统架构
各层协作
| 层级 | 组件 | 作用 |
|---|---|---|
| 底层 | LLM | 推理引擎 |
| 知识层 | RAG | 接入外部知识源 |
| 存储层 | 向量数据库 | 语义存储和检索 |
| 记忆层 | 记忆系统 | 管理对话历史和用户偏好 |
| 定制层 | Fine-tuning | 定制输出风格 |
| 工具层 | MCP | 打通外部工具链 |
| 编排层 | Agent | 任务编排和自主执行 |
关键认知
7 个概念不是各自独立的技术点,它们是同一个系统的不同层。
学习建议
错误路径
上来就学框架 API → 学了一堆 API → 只是在给自己加班。
正确路径
- 先把这条链路理清楚
- 再挑一两个层深入
- 从"会聊天"升级成"会搭系统"
资源
- 作者:Jason Zhu (@GoSailGlobal)
- 原文:https://x.com/GoSailGlobal/status/2055484154587087301
- 英文原文:https://blog.ratishfolio.com/if-you-want-to-become-an-ai-engineer-learn-these-concepts-first