【小巧强劲】PCIE版安培计算卡亮相，更适合高性能计算服务器定制

2022-04-28 13:09:06 admin 2728

NVIDIA A100 Tensor Core GPU可针对AI、数据分析和高性能计算(HPC)，在各种规模上实现出色的加速，应对极其严峻的计算挑战。前不久，基于标准PCIe形态的A100计算卡也终于登场了，更适合主流标准服务器。我们详细对比了两种不同形态的A100，一起来看看区别吧。

图片关键词

NVIDIA A100 GPU性能对比

我们自然语音处理用PyTorch的BERT预训练吞吐量包括(2/3)阶段1和(1/3)阶段2。阶段1序列长度=128，阶段2序列长度=512，做一下训练测试比对。

硬件环境：采用DGX-1 8块 V100(32G)使用FP32精度计算 VS DGX A100 8块A100(40G)使用TF32精度计算。

图片关键词

训练测试最终结果可以看到，A100采用TF32进行训练，最高可提供6倍性能提升。

另外我们拿HPC高性能应用程序，测试硬件采用双CPU，4卡P100/V100 16G/V100 32G / V100S 32G /A100 ,做吞吐量测试。

图片关键词

技术总结

目前在高性能计算中大量使用GPU去做计算，这些在物理化学、分子动力学、冷冻电镜、气象、流体仿真、药物筛选等领域，随着数据的递增对算力的精度的准确度提高，不得不使得我们的硬件也要做新的革新，此次新的Ampere 架构的A100新技术的引入，让我们的运算吞吐量实现了更高的提升。

PCIe版本A100加速卡已发布

从P100时代开始，NVIDIA就会发布两种不同形态的顶级加速卡，一种形态是NVIDIA自家开发出的SXM，需要配合自家的HGX主板使用，价格较为昂贵，但是可以提高整体的集成度，在一套系统里面集成更多的加速卡。另一种形态就是传统的Add-in-Card，用的是PCIe的接口，可以装载到传统系统中使用。

PCIe A100仍然基于GA100核心，规模保持不变，还是台积电7nm工艺、826平方毫米、542亿个晶体管，提供6912个FP32 CUDA核心，最高加速频率也是1.41GHz，因此峰值性能相同：单精度19.5TFlops、双精度9.7TFlops、INT8推理1248Tops、INT8张量624Tops、FP16张量312TFlops、FP32张量156TFlops、FP32训练312TFlops、FP64高性能计算19.5TFlops。

NVIDIA宣称，相比于上代Volta伏特架构的V100计算卡，INT8推理性能、FP32训练性能都实现了20倍的提升，FP64高性能计算也提升了2.5倍，是历史上进步最大的一次。

图片关键词