Skip to main content

英伟达主流的企业级显卡有几种?

· 4 min read

英伟达目前的企业级显卡主要分为两条产品线(注:两者本质上都是 GPU,只是市场定位不同):

训练卡

  • Ampere 架构:A100
  • Hopper 架构:H100 / H200 / H800(中国特供) / H20(中国特供)
  • Blackwell 架构:B100 / GB200 / B200

推理卡

  • Ada Lovelace 架构:L4 / L40 / L40S

此外,华为也有昇腾系列 NPU(如 2026 年发布的 950PR)作为替代方案。

选购建议:训练选 H100/H200,推理选 L40S,尝鲜等 B100。


核心规格对比表

型号类型上市时间FP16 算力FP8 算力FP4 算力显存显存带宽NVLink 互联带宽
A100GPU2020312 TFLOPSN/AN/A80GB2 TB/s600 GB/s
H100GPU2022990 TFLOPS1979 TFLOPSN/A80GB3.35 TB/s900 GB/s
H20(中国特供)GPU2023148 TFLOPS296 TFLOPSN/A96GB4.0 TB/s
H200GPU2023990 TFLOPS1979 TFLOPSN/A141GB4.8 TB/s900 GB/s
B200GPU20242250 TFLOPS4500 TFLOPS9000 TFLOPS180GB7.7 TB/s900 GB/s
华为 950PRNPU2026??? × 2.87???
info
  • 华为 950PR 为 2026 年发布的 NPU(神经网络处理器)产品,其 "? × 2.87" 是基于 H20 推测 FP4 算力的倍数
  • NVIDIA 产品线为通用 GPU(图形处理器),兼顾图形渲染与 AI 计算;华为昇腾系列为专用 NPU,专为 AI 计算优化

Ampere 架构:上一代经典

A100 是英伟达 2020 年推出的架构,虽然已经被 Hopper 替代,但仍是很多现有集群的主力:

  • A100:80GB HBM2e 显存,FP16 算力 312 TFLOPS,上一代训练标配

A100 最大的意义是建立了英伟达在 AI 训练市场的绝对统治地位,其生态成熟度至今仍有优势。

Hopper 架构:当前训练主力

Hopper 是英伟达 2022 年推出的架构,专为 AI 训练设计。

  • H100:旗舰款,80GB HBM3 显存,FP8 算力 1979 TFLOPS,当前主流训练集群标配
  • H800:中国特供版,基于 H100 砍掉了 NVLink,显存带宽降低,但价格更低。
  • H20:另一款中国特供版,基于 H200 的缩水版:96GB HBM3e 显存(H200是141GB),FP16 算力 148 TFLOPS,FP8 算力 296 TFLOPS,显存带宽 4.0 TB/s(H200是4.8 TB/s),无 NVLink,主打入门级训练和推理。
  • H200:H100 升级版,显存升级到 HBM3e,容量提升到 141GB,带宽提升 50%。

Hopper 系列的核心优势是 Transformer Engine,专门优化 Attention 计算,比上一代 A100 快 3-6 倍。

Ada 架构:推理性价比之选

Ada Lovelace 架构 2023 年推出,虽然是游戏卡 RTX 40 系列的同宗,但在数据中心主要用于推理。

  • L4:小卡,24GB GDDR6,单槽半高,适合边缘部署。
  • L40:48GB GDDR6,支持硬件光追,适合渲染 + 推理混合场景。
  • L40S:加强版,FP8 算力翻倍,目前推理部署首选

L40S 的性价比极高,价格只有 H100 的 1/3,但推理吞吐量能达到 H100 的 60-70%。

Blackwell 架构:下一代标杆

Blackwell 2024 年发布,目前还在早期阶段,但已经被各家云厂商争抢。

  • B100:H100 继任者,FP8 算力 4090 TFLOPS,直接翻倍
  • GB200:Grace CPU + Blackwell GPU 的超级芯片,主打超大规模训练。

Blackwell 最猛的是 RAS 技术(可靠性、可用性、可维护性),硬件层面支持错误隔离,卡挂了不影响整台机器。

实际案例:DeepSeek V4 的混合硬件策略

DeepSeek V4 采用了训练 + 推理异构的硬件配置:

  • 训练阶段:使用 NVIDIA H100 显卡(成熟稳定,生态完善)
  • 推理阶段:迁移到华为昇腾 950PR NPU(性价比更高)

这种策略既利用了 NVIDIA 在训练生态上的优势,又在推理环节通过国产 NPU 降低成本。正如 DeepSeek 官方公众号所言:“预计下半年昇腾 950 超节点批量上市后,Pro 的价格会大幅下调。

怎么选?

场景推荐型号理由
70B 以下模型训练H100成熟稳定,生态好
70B+ 大规模训练H200 / B100显存带宽更高
纯推理业务L40S / 昇腾 950PR性价比碾压
有钱想尝鲜GB200一步到位未来 3 年

注意:买不到卡是常态,别死等某一款,有啥用啥才是务实策略。