英伟达全新GPU架构Blackwell——第二代Transformer计算性能提升-谷动谷力

鸣涧发表于 2024-3-19 13:39:16

英伟达全新GPU架构Blackwell——第二代Transformer计算性能提升

英伟达全新GPU架构Blackwell——第二代Transformer引擎、计算性能提升1000倍北京时间3月19日4时-6时，万众瞩目的英伟达GPU技术大会（GTC）在美国加州圣何塞SAP中心正式开启。英伟达创始人黄仁勋在大会上发表了《见证AI的变革时刻》的主题演讲。在这场两个小时的演讲中，黄仁勋公布了搭载B200芯片的GB200 Grace Blackwell超级芯片系统，以及英伟达在AI软件（NIM微服务）、Omiverse云、具身智能方面的最新进展。按照每两年更新一次GPU架构的传统，今年黄仁勋如期公布了英伟达新一代AI芯片架构Blackwell，以及基于该架构的B200、GB200系列芯片。他在演讲台上表示，这是目前为止功能最强大的AI芯片家族。8年，从Pascal架构到Blackwell架构，英伟达将AI计算性能提升了1000倍！每一代英伟达GPU架构都会以一位科学家的名字来命名。新架构取名Blackwell是为了致敬美国科学院首位黑人院士、杰出统计学家兼数学家David Blackwell。Blackwell擅长将复杂的问题简单化，他独立发明的“动态规划”、“更新定理”被广泛多个科学及工程学领域。▲David Blackwell旧照黄仁勋现场对比Blackwell架构和Grace Hopper架构的GPU，他表示：“Hopper 固然已经非常出色了，但我们需要更强大的 GPU”。Blackwell GPU有6大核心技术：
1、号称是“世界最强大的芯片”：集成2080亿颗晶体管，采用定制台积电4NP工艺，承袭“拼装芯片”的思路，采用统一内存架构+双芯配置，将2个受光刻模板（reticle）限制的GPU die通过10TB/s芯片间NVHyperfuse接口连一个统一GPU，共有192GB HBM3e内存、8TB/s显存带宽，单卡AI训练算力可达20PFLOPS。跟上一代Hopper相比，Blackwell因为集成了两个die，面积变大，比Hopper GPU足足多了1280亿个晶体管。对比之下，前代H100只有80GB HBM3内存、3.35TB/s带宽，H200有141GB HBM3e内存、4.8TB/s带宽。2、第二代Transformer引擎：将新的微张量缩放支持和先进的动态范围管理算法与TensorRT-LLM和NeMo Megatron框架结合，使Blackwell具备在FP4精度的AI推理能力，可支持2倍的计算和模型规模，能在将性能和效率翻倍的同时保持混合专家模型的高精度。‍‍在全新FP4精度下，Blackwell GPU的AI性能达到Hopper的5倍。英伟达并未透露其CUDA核心的性能，有关架构的更多细节还有待揭晓。3、第五代NVLink：为了加速万亿参数和混合专家模型的性能，新一代NVLink为每个GPU提供1.8TB/s双向带宽，支持多达576个GPU间的无缝高速通信，适用于复杂大语言模型。单颗NVLink Switch芯片有500亿颗晶体管，采用台积电4NP工艺，以1.8TB/s连接4个NVLink。4、RAS引擎：Blackwell GPU包括一个确保可靠性、可用性、可维护性的专用引擎，还增加了芯片级功能，可利用基于AI的预防性维护来进行诊断和预测可靠性问题，最大限度延长系统的正常运行时间，提高大规模AI部署的弹性，一次可不间断地运行数周甚至数月，并降低运营成本。5、安全AI：先进的机密计算功能可保护AI模型和客户数据，而不会影响性能，支持新的本地接口加密协议。6、解压缩引擎：支持最新格式，加速数据库查询，以提供数据分析和数据科学的最高性能。AWS、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI都将采用Blackwell产品。特斯拉和xAI共同的CEO马斯克直言：“目前在AI领域，没有比英伟达硬件更好的。”值得注意的是，相比以往强调单芯片的性能表现，此次Blackwell系列发布更侧重在整体系统性能，并对GPU代号称谓模糊，大部分都统称为“Blackwell GPU”。相关链接https://nvidianews.nvidia.com/news/nvidia-blackwell-platform-arrives-to-power-a-new-era-of-computinghttps://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/

页: [1]

谷动谷力's Archiver

英伟达全新GPU架构Blackwell——第二代Transformer计算性能提升