Skip to main content

1.1 LLM:Transformer 架构基石

大语言模型(Large Language Model, LLM)是 Agent 智能的核心来源。理解 LLM 的基础架构,是构建 Agent 系统的第一步。

Attention Is All You Need:Transformer 的诞生

2017 年 Google 发表的论文《Attention Is All You Need》彻底改变了 AI 的发展轨迹,也为后来的大语言模型奠定了理论基础。

注意力机制的核心思想

注意力机制本质上是模拟人类的选择性关注:

传统序列模型:顺序处理,难以捕捉长距离依赖
注意力机制:并行计算,直接建模任意两个位置的关联

核心公式

Attention(Q, K, V) = softmax(QK^T / sqrt(d_k)) V
  • Q (Query):当前位置的查询向量
  • K (Key):所有位置的键向量
  • V (Value):所有位置的值向量
  • sqrt(d_k):缩放因子,防止点积过大导致梯度消失

Transformer 架构全貌

输入 → 嵌入层 → 位置编码 → [编码器] × N → [解码器] × N → 输出层 → 预测

编码器(Encoder)

  • 多头自注意力 + 前馈网络
  • 双向注意力,可看到全部上下文
  • 适合理解任务:分类、实体识别

解码器(Decoder)

  • 掩码多头自注意力 + 交叉注意力 + 前馈网络
  • 单向注意力,只能看到已生成的 token
  • 适合生成任务:文本生成、翻译

Decoder-Only 架构的胜利

在 Transformer 的三种架构变体中,Decoder-Only(仅解码器)成为了当下最为主流的大模型架构。

三种架构变体对比

架构类型代表模型特点适用场景
Encoder-DecoderT5、BART编码器理解,解码器生成翻译、摘要、结构化生成
Encoder-OnlyBERT、RoBERTa双向理解,不擅长生成分类、检索、语义理解
Decoder-OnlyGPT 系列、Claude、Llama自回归生成,能力全面通用对话、推理、代码生成

为什么 Decoder-Only 成为主流?

1. 涌现能力的温床

Decoder-Only 架构在规模化后展现出惊人的涌现能力:

  • 上下文学习(In-Context Learning):无需微调,仅通过示例即可学习新任务
  • 思维链(Chain-of-Thought):逐步推理解决复杂问题
  • 工具使用:自主理解并调用外部工具

2. 训练的可扩展性

数据量 + 参数量 + 计算量 = 能力可预测提升

Scaling Laws(缩放定律)的发现让训练过程变得可预测、可规划。

3. 统一的建模方式

所有任务都可以统一为"预测下一个 token":

  • 问答 → 预测答案 token
  • 代码 → 预测下一行代码
  • 推理 → 预测思考过程
  • 工具调用 → 预测函数调用格式

主流大模型概览

Claude 系列(Anthropic)

特点

  • 超长上下文窗口(可达 200K+ tokens)
  • 强大的推理与工具调用能力
  • 出色的安全性与对齐

典型代表:Claude 3 Opus / Sonnet / Haiku

GPT 系列(OpenAI)

特点

  • 最早实现商业化的大模型
  • 强大的多模态能力
  • 完善的工具调用生态

典型代表:GPT-4、GPT-4o

开源模型生态

模型系列开发者特点
LlamaMeta开源标杆,生态最丰富
MistralMistral AI小模型高性能代表
Qwen阿里中文能力出色
GLM智谱国产开源主力

大模型的核心能力矩阵

1. 理解能力

  • 自然语言理解与意图识别
  • 代码理解与分析
  • 多模态理解(图像、音频、视频)
  • 长文本上下文理解

2. 推理能力

  • 逻辑推理与演绎
  • 数学计算与问题求解
  • 因果推断与反事实思考
  • 规划与分解能力

3. 生成能力

  • 文本创作与内容生成
  • 代码生成与重构
  • 结构化数据输出
  • 多模态内容生成

4. 工具调用能力

  • 理解工具描述与使用场景
  • 生成正确的调用格式
  • 处理调用结果与错误
  • 多工具链式调用

Transformer 不仅仅是一个模型架构,它定义了现代 AI 的计算范式。理解 Attention,就是理解智能的本质。