1.1 LLM:Transformer 架构基石
大语言模型(Large Language Model, LLM)是 Agent 智能的核心来源。理解 LLM 的基础架构,是构建 Agent 系统的第一步。
Attention Is All You Need:Transformer 的诞生
2017 年 Google 发表的论文《Attention Is All You Need》彻底改变了 AI 的发展轨迹,也为后来的大语言模型奠定了理论基础。
注意力机制的核心思想
注意力机制本质上是模拟人类的选择性关注:
传统序列模型:顺序处理,难以捕捉长距离依赖
注意力机制:并行计算,直接建模任意两个位置的关联
核心公式:
Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V
- Q (Query):当前位置的查询向量
- K (Key):所有位置的键向量
- V (Value):所有位置的值向量
- sqrt(d_k):缩放因子,防止点积过大导致梯度消失
Transformer 架构全貌
输入 → 嵌入层 → 位置编码 → [编码器] × N → [解码器] × N → 输出层 → 预测
编码器(Encoder):
- 多头自注意力 + 前馈网络
- 双向注意力,可看到全部上下文
- 适合理解任务:分类、实体识别
解码器(Decoder):
- 掩码多头自注意力 + 交叉注意力 + 前馈网络
- 单向注意力,只能看到已生成的 token
- 适合生成任务:文本生成、翻译
Decoder-Only 架构的胜利
在 Transformer 的三种架构变体中,Decoder-Only(仅解码器)成为了当下最为主流的大模型架构。
三种架构变体对比
| 架构类型 | 代表模型 | 特点 | 适用场景 |
|---|---|---|---|
| Encoder-Decoder | T5、BART | 编码器理解,解码器生成 | 翻译、摘要、结构化生成 |
| Encoder-Only | BERT、RoBERTa | 双向理解,不擅长生成 | 分类、检索、语义理解 |
| Decoder-Only | GPT 系列、Claude、Llama | 自回归生成,能力全面 | 通用对话、推理、代码生成 |
为什么 Decoder-Only 成为主流?
1. 涌现能力的温床
Decoder-Only 架构在规模化后展现出惊人的涌现能力:
- 上下文学习(In-Context Learning):无需微调,仅通过示例即可学习新任务
- 思维链(Chain-of-Thought):逐步推理解决复杂问题
- 工具使用:自主理解并调用外部工具
2. 训练的可扩展性
数据量 + 参数量 + 计算量 = 能力可预测提升
Scaling Laws(缩放定律)的发现让训练过程变得可预测、可规划。
3. 统一的建模方式
所有任务都可以统一为"预测下一个 token":
- 问答 → 预测答案 token
- 代码 → 预测下一行代码
- 推理 → 预测思考过程
- 工具调用 → 预测函数调用格式
主流大模型概览
Claude 系列(Anthropic)
特点:
- 超长上下文窗口(可达 200K+ tokens)
- 强大的推理与工具调用能力
- 出色的安全性与对齐
典型代表:Claude 3 Opus / Sonnet / Haiku
GPT 系列(OpenAI)
特点:
- 最早实现商业化的大模型
- 强大的多模态能力
- 完善的工具调用生态
典型代表:GPT-4、GPT-4o
开源模型生态
| 模型系列 | 开发者 | 特点 |
|---|---|---|
| Llama | Meta | 开源标杆,生态最丰富 |
| Mistral | Mistral AI | 小模型高性能代表 |
| Qwen | 阿里 | 中文能力出色 |
| GLM | 智谱 | 国产开源主力 |
大模型的核心能力矩阵
1. 理解能力
- 自然语言理解与意图识别
- 代码理解与分析
- 多模态理解(图像、音频、视频)
- 长文本上下文理解
2. 推理能力
- 逻辑推理与演绎
- 数学计算与问题求解
- 因果推断与反事实思考
- 规划与分解能力
3. 生成能力
- 文本创作与内容生成
- 代码生成与重构
- 结构化数据输出
- 多模态内容生成
4. 工具调用能力
- 理解工具描述与使用场景
- 生成正确的调用格式
- 处理调用结果与错误
- 多工具链式 调用
Transformer 不仅仅是一个模型架构,它定义了现代 AI 的计算范式。理解 Attention,就是理解智能的本质。