NVIDIA® Tesla® A40
产品亮点:NVIDIA Ampere 架构 CUDA® 核心速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能,例如复杂的 3D 计算机辅助设计 (CAD) 和计算机辅助工程 (CAE)。第二代 RT Core第二代 RT Core 的吞吐量是上一代的 2 倍,并能同时运行光线追踪和着色或降噪功能,从而大幅加快工作负载的运行速度,例如电影内容的逼真渲染、
产品亮点:NVIDIA Ampere 架构 CUDA® 核心速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能,例如复杂的 3D 计算机辅助设计 (CAD) 和计算机辅助工程 (CAE)。第二代 RT Core第二代 RT Core 的吞吐量是上一代的 2 倍,并能同时运行光线追踪和着色或降噪功能,从而大幅加快工作负载的运行速度,例如电影内容的逼真渲染、
产品亮点:
NVIDIA Ampere 架构 CUDA® 核心
速度提升一倍的单精度浮点 (FP32) 运算处理和改善的能效可显著提高图形和模拟工作流程的性能,例如复杂的 3D 计算机辅助设计 (CAD) 和计算机辅助工程 (CAE)。
第二代 RT Core
第二代 RT Core 的吞吐量是上一代的 2 倍,并能同时运行光线追踪和着色或降噪功能,从而大幅加快工作负载的运行速度,例如电影内容的逼真渲染、建筑设计评估和产品设计的虚拟原型创建。这项技术还可加速渲染具有光线追踪效果的动态模糊画面,从而更快更准确的获得视觉呈现。
第三代 Tensor Core
新的 Tensor Float 32 (TF32) 精度提供的训练吞吐量达到上一代的 5 倍,而且无需更改代码即可加速 AI 和数据科学模型的训练。从硬件上支持结构稀疏度使推理吞吐量提升一倍。 Tensor Core 还通过 DLSS、AI 降噪等功能将 AI 引入到图形处理中,并增强了特定应用程序的编辑功能。
48 GB 的 GPU 显存
超高速 GDDR6 显存可通过 NVLink 扩展到高达 96 GB,为数据科学家、工程师和创意专业人士提供所需的大容量显存,让他们能够处理大型数据集以及数据科学和模拟等工作负载。
第三代 NVIDIA NVLink®
可连接多达两个 A40 GPU,从而将 GPU 显存从 48 GB 扩展至 96 GB。更高的 GPU 到 GPU 互联带宽提供了一体式可扩展显存,可加速图形和计算工作负载,并能处理更大的数据集。更紧凑的新型 NVLink 连接器可在更多型号的服务器中实现互联功能。
虚拟化就绪
NVIDIA 虚拟 GPU (vGPU) 软件带来的新一代改进能为远程用户提供更大、功能更强的虚拟工作站实例,从而支持高端远程设计、AI 和计算工作负载。
PCI Express 第 4 代
PCI Express 第 4 代将 PCIe 第 3 代的带宽增加了一倍,因而提升了从 CPU 内存传输数据的速度,能更好地支持 AI、数据科学和 3D 设计等数据密集型任务。更快的 PCIe 性能还能加速 GPU 直接显存访问 (DMA) 传输,这在 GPU 与支持 GPUDirect® for Video 的设备之间提供了更快的视频数据 I/O 通信速度,从而带来强大的直播解决方案。A40 向后兼容 PCI Express 第 3 代,这提供了部署灵活性。
数据中心效率和安全性
NVIDIA A40 采用双插槽、高能效设计,与上一代相比能效提升 2 倍,这点已经过全球 OEM 出品的各种 NVIDIA 认证系统的验证。NVIDIA A40 还通过硬件可信根功能进行安全的测量式引导,确保固件未被篡改或损坏。
规格参数
GPU架构 | NVIDIA Ampere 架构 |
GPU显存 | 带有 ECC 的 48 GB GDDR6 |
显存带宽 | 696 GB/秒 |
互联接口 | NVIDIA ® NVLink ® 112.5 GB/s (双向) PCIe 4.0 31.5 GB/s(双向) |
基于 NVIDIA Ampere 架构的 CUDA 核心 | 10752 |
NVIDIA 第二代 RT Core | 84 |
NVIDIA 第三代 Tensor Core | 336 |
FP32 TFLOPS 峰值 (非 Tensor) | 37.4 |
使用 FP16 累加的 FP16 Tensor TFLOPS 峰值 | 149.7| 299.4* |
TF32 Tensor TFLOPS 峰值 | 74.8| 149.6* |
RT Core 性能 TFLOPS | 73.1 |
使用 FP32 累加的 BF16 Tensor TFLOPS 峰值 | 149.7| 299.4* |
INT8 Tensor TOPS 峰值 INT4 Tensor TOPS 峰值 | 299.3| 598.6* 598.7 | 1197.4* |
外形规格 | 4.4"(高)x 10.5"(长)双插槽 |
显示端口 | 3 个 DisplayPort 1.4**;支持 NVIDIA Mosaic 和 Quadro ® Sync 4 |
功耗 | 300 W |
散热解决方案 | 被动式 |
虚拟 GPU (vGPU) 软件支持 | NVIDIA vPC/vApp、NVIDIA RTX 虚拟工作站、NVIDIA 虚拟计算服务器 |