返回 FEED
AGENT2026-05-17

想转 AI 工程师?先搞懂这 7 个概念再说

想转 AI 工程师?先搞懂这 7 个概念再说

为什么这份概念地图值得读

想转 AI 工程师的人,第一反应通常是学 ChatGPT 怎么用、学 prompt engineering。但真正进了项目组就会发现,工具会用和系统能搭完全是两回事。

Jason Zhu 整理的这份地图,把 7 个核心模块串成了一条完整的架构链路。每个概念讲清楚"是什么"和"什么时候用",适合刚入行或想补全知识盲区的人通读一遍。

模块一:LLM(大语言模型)

本质:预测引擎——预测序列中最可能出现的下一个 token。

三个核心概念

概念说明
Token模型处理的最小单位,可以是词、子词或标点。模型看的是 token 序列,不是完整句子
上下文窗口决定模型一次能参考多少信息。窗口越大,"记住"的对话越长,但成本越高
参数模型训练出来的权重数量,直接影响能力天花板。GPT-4 级别在万亿参数

LLM 有两个阶段:

  • 预训练阶段:从海量数据学习语言模式
  • 推理阶段:根据用户输入实时生成回复(你用 ChatGPT 时跑的就是这个)

天然短板:只知道训练数据里的东西。公司内部文档、最新产品更新、私有数据库——模型完全不知道。


模块二:RAG(检索增强生成)

解决什么问题:模型知识过时或不知道私有数据的问题。

做法:在模型生成回答之前,先从外部数据源检索相关内容,把检索到的上下文喂给模型,再让它生成回答。幻觉大幅减少。

RAG 管道三步走

索引 → 检索 → 生成
  1. 索引:把文档切成小块(chunking),每块转成向量(embedding),存入向量数据库
  2. 检索:用户提问时,把问题也转成向量,从数据库中找语义最相似的文档块
  3. 生成:把检索到的上下文 + 原始问题一起交给 LLM,生成有据可查的回答

两种检索方式

  • 稀疏检索:靠关键词匹配,速度快但语义理解弱
  • 稠密检索:靠 embedding 做语义匹配,效果好但计算量大
  • 生产环境通常两者混合使用

模块三:向量数据库

Embedding 是怎么工作的:把文本、图片、音频转成一组数字(向量)。语义相近的内容在向量空间里距离更近,无关的内容距离更远。这就是推荐系统、语义搜索、AI 助手的核心原理。

主流选型

数据库特点适合场景
Pinecone全托管,上手最快原型验证
FAISSMeta 开源,单机性能极强延迟敏感场景
Chroma轻量级,LangChain 集成最好本地开发
Milvus分布式架构大规模生产部署

模块四:Fine-tuning vs RAG

很多人分不清两者的区别。一句话总结:

RAG 给模型加知识,Fine-tuning 改模型的行为。

RAG 适合的场景

  • 模型需要访问实时数据
  • 私有文档、特定领域知识库
  • 知识随时在变——RAG 只需更新外部数据源,模型本身不用动

Fine-tuning 适合的场景

  • 想让模型用特定语气说话
  • 遵循特定输出格式
  • 在某个垂直领域表现更好
  • 这改的是模型本身的行为模式,不是给它加新知识

生产环境里两者经常一起用:Fine-tuning 让模型掌握输出风格和专业术语,RAG 确保它能引用最新数据。


模块五:记忆系统

没有记忆系统的 AI 每次对话都是从零开始——你上一轮告诉它的偏好、背景信息、决策历史,下一轮全忘了。

AI 的记忆分两层

类型机制例子
短期记忆上下文窗口,当前对话里的所有内容都在这里窗口有上限,超出部分被丢掉
长期记忆转成 embedding 存入向量数据库,下次对话时检索注入上下文ChatGPT Memory、Claude Project Memory

核心挑战:决定什么值得记、什么可以丢。记太多引入噪音,记太少丢失关键上下文。


模块六:Agent(智能体)

普通 AI 应用 vs Agentic AI

  • 普通:你问一句它答一句
  • Agentic:你给它一个目标,它自己规划步骤、调用工具、执行任务、检查结果,不合理就重来

Agent 的三大核心能力

  1. Planning(规划):把大目标拆成小步骤
  2. Tool Use(工具调用):调用外部工具完成子任务
  3. Self-reflection(自我纠错):检查结果,不合理就重试

例子:你让 Agent "帮我分析这个 CSV 然后生成报告",它会自己决定:先读文件 → 写分析代码 → 跑完检查输出是否合理 → 不合理就重来。


模块七:MCP(Model Context Protocol)

解决什么问题:AI 怎么跟外部工具通信。

如果没有统一协议,每个工具厂商写一套接口,AI 要接 10 个工具就得写 10 套适配代码。MCP 提供了统一标准——类似于 AI 应用的 USB-C 接口。

核心价值:一次对接,所有支持 MCP 的工具都能用。

MCP 是 Anthropic 推出的开放协议,是 AI 工具生态走向标准化的重要信号。


完整架构:七个模块怎么协作

一个完整的 AI 系统通常是这样的架构:

用户输入
    ↓
Agent 层(任务编排 + 自主执行)
    ↓
LLM(推理引擎)
    ↓
┌── RAG(接入外部知识源)
├── 向量数据库(语义存储和检索)
├── 记忆系统(对话历史 + 用户偏好)
├── Fine-tuning(定制输出风格)
└── MCP(打通外部工具链)

各层各司其职:

  • LLM 做底层推理
  • RAG 接入知识源
  • 向量数据库 做语义存储
  • 记忆系统 管对话历史
  • Fine-tuning 定制行为风格
  • MCP 打通外部工具
  • Agent 负责任务编排

实用takeaway

  1. RAG ≠ Fine-tuning:前者加知识,后者改行为。生产环境经常一起用
  2. 向量数据库选型:原型用 Pinecone,量产看规模和延迟要求选 FAISS/Milvus,本地开发用 Chroma
  3. MCP 是机会:协议标准意味着工具生态正在整合,提前熟悉 MCP 接口有先发优势
  4. 记忆系统的核心挑战:不是什么值得记,而是噪点控制——记太多=噪音,记太少=丢上下文
  5. Agent 是最终形态:单个模块会逐渐被 Agent 层的任务编排能力整合