1.1 LLM：Transformer 架构基石

大语言模型（Large Language Model, LLM）是 Agent 智能的核心来源。理解 LLM 的基础架构，是构建 Agent 系统的第一步。

Attention Is All You Need：Transformer 的诞生

2017 年 Google 发表的论文《Attention Is All You Need》彻底改变了 AI 的发展轨迹，也为后来的大语言模型奠定了理论基础。

注意力机制的核心思想

注意力机制本质上是模拟人类的选择性关注：

传统序列模型：顺序处理，难以捕捉长距离依赖
注意力机制：并行计算，直接建模任意两个位置的关联

核心公式：

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V

Q (Query)：当前位置的查询向量
K (Key)：所有位置的键向量
V (Value)：所有位置的值向量
sqrt(d_k)：缩放因子，防止点积过大导致梯度消失

Transformer 架构全貌

输入 → 嵌入层 → 位置编码 → [编码器] × N → [解码器] × N → 输出层 → 预测

编码器（Encoder）：

多头自注意力 + 前馈网络
双向注意力，可看到全部上下文
适合理解任务：分类、实体识别

解码器（Decoder）：

掩码多头自注意力 + 交叉注意力 + 前馈网络
单向注意力，只能看到已生成的 token
适合生成任务：文本生成、翻译

Decoder-Only 架构的胜利

在 Transformer 的三种架构变体中，Decoder-Only（仅解码器）成为了当下最为主流的大模型架构。

三种架构变体对比

架构类型	代表模型	特点	适用场景
Encoder-Decoder	T5、BART	编码器理解，解码器生成	翻译、摘要、结构化生成
Encoder-Only	BERT、RoBERTa	双向理解，不擅长生成	分类、检索、语义理解
Decoder-Only	GPT 系列、Claude、Llama	自回归生成，能力全面	通用对话、推理、代码生成

为什么 Decoder-Only 成为主流？

1. 涌现能力的温床

Decoder-Only 架构在规模化后展现出惊人的涌现能力：

上下文学习（In-Context Learning）：无需微调，仅通过示例即可学习新任务
思维链（Chain-of-Thought）：逐步推理解决复杂问题
工具使用：自主理解并调用外部工具

2. 训练的可扩展性

数据量 + 参数量 + 计算量 = 能力可预测提升

Scaling Laws（缩放定律）的发现让训练过程变得可预测、可规划。

3. 统一的建模方式

所有任务都可以统一为"预测下一个 token"：

问答 → 预测答案 token
代码 → 预测下一行代码
推理 → 预测思考过程
工具调用 → 预测函数调用格式

主流大模型概览

Claude 系列（Anthropic）

特点：

超长上下文窗口（可达 200K+ tokens）
强大的推理与工具调用能力
出色的安全性与对齐

典型代表：Claude 3 Opus / Sonnet / Haiku

GPT 系列（OpenAI）

特点：

最早实现商业化的大模型
强大的多模态能力
完善的工具调用生态

典型代表：GPT-4、GPT-4o

开源模型生态

模型系列	开发者	特点
Llama	Meta	开源标杆，生态最丰富
Mistral	Mistral AI	小模型高性能代表
Qwen	阿里	中文能力出色
GLM	智谱	国产开源主力

大模型的核心能力矩阵

1. 理解能力

自然语言理解与意图识别
代码理解与分析
多模态理解（图像、音频、视频）
长文本上下文理解

2. 推理能力

逻辑推理与演绎
数学计算与问题求解
因果推断与反事实思考
规划与分解能力

3. 生成能力

文本创作与内容生成
代码生成与重构
结构化数据输出
多模态内容生成

4. 工具调用能力

理解工具描述与使用场景
生成正确的调用格式
处理调用结果与错误
多工具链式调用

Transformer 不仅仅是一个模型架构，它定义了现代 AI 的计算范式。理解 Attention，就是理解智能的本质。

Attention Is All You Need：Transformer 的诞生​

注意力机制的核心思想​

Transformer 架构全貌​

Decoder-Only 架构的胜利​

三种架构变体对比​

为什么 Decoder-Only 成为主流？​

1. 涌现能力的温床​

2. 训练的可扩展性​

3. 统一的建模方式​

主流大模型概览​

Claude 系列（Anthropic）​

GPT 系列（OpenAI）​

开源模型生态​

大模型的核心能力矩阵​

1. 理解能力​

2. 推理能力​

3. 生成能力​

4. 工具调用能力​