跳到主要内容

GPU / TPU 与计算硬件

问题

AI 训练和推理需要什么硬件?GPU 的显存、算力该如何评估和选型?

答案

一、GPU vs CPU

特性CPUGPU
核心数8-128数千~数万
适合任务串行逻辑、复杂控制流大规模并行计算
AI 场景不适合训练,可做小模型推理训练和推理的标配

GPU 的优势在于大规模并行矩阵运算——而 Transformer 的核心就是矩阵乘法。

二、NVIDIA GPU 产品线

GPU显存FP16 算力适用场景
RTX 409024GB330 TFLOPS个人研究/小模型微调
A10040/80GB312 TFLOPS训练/推理主力
H10080GB990 TFLOPS大模型训练
H200141GB990 TFLOPS超大模型,HBM3e
B200192GB2250 TFLOPSBlackwell 架构,最新
显存是核心瓶颈

LLM 推理的瓶颈通常是显存而非算力。一个 7B 参数的模型(FP16)需要约 14GB 显存。

三、显存需求估算

推理显存 ≈ 模型参数 × 每参数字节数 + KV Cache

模型大小FP16(2B/参数)INT8(1B/参数)INT4(0.5B/参数)
7B14 GB7 GB3.5 GB
13B26 GB13 GB6.5 GB
70B140 GB70 GB35 GB
显存参数量×精度字节数+KV Cache+开销\text{显存} \approx \text{参数量} \times \text{精度字节数} + \text{KV Cache} + \text{开销}

四、TPU 与其他芯片

芯片厂商特点
TPU v5pGoogle专为 Transformer 优化,Cloud 独享
Trainium2AWS训练专用,性价比高
Inferentia2AWS推理专用,低成本
Apple SiliconAppleM 系列 NPU,端侧推理

五、GPU 选型建议


常见面试问题

Q1: 为什么 GPU 适合深度学习?

答案

  • 深度学习的核心运算是矩阵乘法
  • GPU 有数千个核心,擅长大规模并行计算
  • GPU 有Tensor Core(专门的矩阵运算单元),加速矩阵乘法
  • 高带宽显存(HBM)解决数据传输瓶颈

Q2: 一个 70B 参数的模型需要几张 GPU?

答案

  • FP16:70B × 2B = 140GB 显存,至少 2 × A100 80GB
  • INT8:70B × 1B = 70GB,1 × A100 80GB 勉强可以
  • INT4:70B × 0.5B = 35GB,1 × A100 40GB 或 RTX 4090
  • 还需加上 KV Cache 等额外开销(约 10-20%)

相关链接