5月14日晚间,NVIDIA 终于发布了期待已久的全新“安培”(Ampere)架构,又一个核弹级的 GPU 芯片,当然它面向的不是 PC 游戏市场,而是人工智能、深度学习、高性能计算、大数据等等尖端领域。
 
  宣布新架构的同时,NVIDIA 也发布了相应的第三代工作站“DGX A100”,或者按照 NVIDIA 的说法叫做个人超级计算机,可以支持在桌面端进行 AI 研究,并扩展到云端。
 
  DGX A100 内部配备了八颗安培架构的 Tesla A100 GPU,每一颗整合 40GB HBM2 高带宽显存,总容量达 320GB。
 
  每颗 GPU 均支持多达 12 路的 NVLink 互连总线,GPU-GPU 带宽高达 600GB/s,可保证八颗 GPU 彼此完全互连,同时还有 6 颗 NVIDIA NVSwitch 芯片,双向带宽高达 4.8TB/s。
 
  不过从示意图上可以看出,每颗 GPU 周围其实有六颗 HBM2 显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量 8GB 从而组成 40GB。这意味着,A100 核心现在应该也是屏蔽了六分之一的规模。
 
  网络方面配备了刚完成收购的 Mellanox 的解决方案,包括八颗单端口 ConnectX-6 VPI 用于聚类,峰值性能 200GB/s,以及一颗双端口 ConnectX-6 VPI 用于数据与存储网络。
 
  有趣的是,搭配的 CPU 处理器这次抛弃了 Intel 至强,改而使用两颗 AMD 二代霄龙(Rome),且是顶级的 64 核心型号,同时搭配 1TB DDR4 内存、15TB PCIe 4.0 NVMe SSD 固态硬盘。
 
  黄仁勋称这是“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有 45 斤的重量,集成超过 3 万个不同组件,钻孔数量多达 100 万个,连接电路长达 1 公里。
 
  NVIDIA 宣称,DGX A100 系统单节点的峰值性能为:INT8 10 PetaOPS (每秒 1 亿亿次整数运算)、FP16 5 PFlops (每秒 5 千万亿次半精度浮点运算)、TF32 2.5 PFlops (每秒 2.5 千万亿次运算)、FP64 156 TFlops (每秒 156 万亿次双精度浮点运算)。
 
  相比于高端 CPU 服务器,它的 AI 计算性能要高出 150 倍,内存带宽高出 40 倍,IO 带宽也高出 40 倍。
 
  NVIDIA DGX A100 个人超算现已上市,售价 19.9 万美元,约合人民币 141 万元。
 
  该方案的云服务客户有阿里云、亚马逊 AWS、百度云、Google Cloud、微软 Azure、甲骨文、腾讯云,系统级客户有 AtoS、Cray、戴尔、富士通、技嘉、HPE、浪潮、联想、广达、SuperMicro。