英伟达主流的企业级显卡有几种?
· 4 min read
英伟达目前的企业级显卡主要分为两条产品线(注:两者本质上都是 GPU,只是市场定位不同):
训练卡:
- Ampere 架构:A100
- Hopper 架构:H100 / H200 / H800(中国特供) / H20(中国特供)
- Blackwell 架构:B100 / GB200 / B200
推理卡:
- Ada Lovelace 架构:L4 / L40 / L40S
此外,华为也有 昇腾系列 NPU(如 2026 年发布的 950PR)作为替代方案。
选购建议:训练选 H100/H200,推理选 L40S,尝鲜等 B100。
核心规格对比表
| 型号 | 类型 | 上市时间 | FP16 算力 | FP8 算力 | FP4 算力 | 显存 | 显存带宽 | NVLink 互联带宽 |
|---|---|---|---|---|---|---|---|---|
| A100 | GPU | 2020 | 312 TFLOPS | N/A | N/A | 80GB | 2 TB/s | 600 GB/s |
| H100 | GPU | 2022 | 990 TFLOPS | 1979 TFLOPS | N/A | 80GB | 3.35 TB/s | 900 GB/s |
| H20(中国特供) | GPU | 2023 | 148 TFLOPS | 296 TFLOPS | N/A | 96GB | 4.0 TB/s | 无 |
| H200 | GPU | 2023 | 990 TFLOPS | 1979 TFLOPS | N/A | 141GB | 4.8 TB/s | 900 GB/s |
| B200 | GPU | 2024 | 2250 TFLOPS | 4500 TFLOPS | 9000 TFLOPS | 180GB | 7.7 TB/s | 900 GB/s |
| 华为 950PR | NPU | 2026 | ? | ? | ? × 2.87 | ? | ? | ? |
info
- 华为 950PR 为 2026 年发布的 NPU(神经网络处理器)产品,其 "? × 2.87" 是基于 H20 推测 FP4 算力的倍数
- NVIDIA 产品线为通用 GPU(图形处理器),兼顾图形渲染与 AI 计算;华为昇腾系列为专用 NPU,专为 AI 计算优化
Ampere 架构:上一代经典
A100 是英伟达 2020 年推出的架构,虽然已经被 Hopper 替代,但仍是很多现有集群的主力:
- A100:80GB HBM2e 显存,FP16 算力 312 TFLOPS,上一代训练标配。
A100 最大的意义是建立了英伟达在 AI 训练市场的绝对统治地位,其生态成熟度至今仍有优势。
Hopper 架构:当前训练主力
Hopper 是英伟达 2022 年推出的架构,专为 AI 训练设计。
- H100:旗舰款,80GB HBM3 显存,FP8 算力 1979 TFLOPS,当前主流训练集群标配。
- H800:中国特供版,基于 H100 砍掉了 NVLink,显存带宽降低,但价格更低。
- H20:另一款中国特供版,基于 H200 的缩水版:96GB HBM3e 显存(H200是141GB),FP16 算力 148 TFLOPS,FP8 算力 296 TFLOPS,显存带宽 4.0 TB/s(H200是4.8 TB/s),无 NVLink,主打入门级训练和推理。
- H200:H100 升级版,显存升级到 HBM3e,容量提升到 141GB,带宽提升 50%。
Hopper 系列的核心优势是 Transformer Engine,专门优化 Attention 计算,比上一代 A100 快 3-6 倍。
Ada 架构:推理性价比之选
Ada Lovelace 架构 2023 年推出,虽然是游戏卡 RTX 40 系列的同宗,但在数据中心主要用于推理。
- L4:小卡,24GB GDDR6,单槽半高,适合边缘部署。
- L40:48GB GDDR6,支持硬件光追,适合渲染 + 推理混合场景。
- L40S:加强版,FP8 算力翻倍,目前推理部署首选。
L40S 的性价比极高,价格只有 H100 的 1/3,但推理吞吐量能达到 H100 的 60-70%。
Blackwell 架构:下一代标杆
Blackwell 2024 年发布,目前还在早期阶段,但已经被各家云厂商争抢。
- B100:H100 继任者,FP8 算力 4090 TFLOPS,直接翻倍。
- GB200:Grace CPU + Blackwell GPU 的超级芯片,主打超大规模训练。
Blackwell 最猛的是 RAS 技术( 可靠性、可用性、可维护性),硬件层面支持错误隔离,卡挂了不影响整台机器。
实际案例:DeepSeek V4 的混合硬件策略
DeepSeek V4 采用了训练 + 推理异构的硬件配置:
- 训练阶段:使用 NVIDIA H100 显卡(成熟稳定,生态完善)
- 推理阶段:迁移到华为昇腾 950PR NPU(性价比更高)
这种策略既利用了 NVIDIA 在训练生态上的优势,又在推理环节通过国产 NPU 降低成本。正如 DeepSeek 官方公众号所言:“预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。”
怎么选?
| 场景 | 推荐型号 | 理由 |
|---|---|---|
| 70B 以下模型训练 | H100 | 成熟稳定,生态好 |
| 70B+ 大规模训练 | H200 / B100 | 显存带宽更高 |
| 纯推理业务 | L40S / 昇腾 950PR | 性价比碾压 |
| 有钱想尝鲜 | GB200 | 一步到位未来 3 年 |
注意:买不到卡是常态,别死等某一款,有啥用啥才是务实策略。