谷动谷力

 找回密码
 立即注册
查看: 796|回复: 0
打印 上一主题 下一主题
收起左侧

谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍

[复制链接]
跳转到指定楼层
楼主
发表于 2024-1-29 11:04:39 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 sunsili 于 2024-1-29 11:09 编辑

谷歌AI芯片TPU v5p在训练LLM方面比其前一代快2.8倍


1月29日 消息:谷歌正迅速成为其最好的朋友英伟达的强大对手——其超级计算机所使用的TPU v5p人工智能芯片比以往任何时候都更快、更大、更宽,甚至超过了强大的H100。谷歌在最近推出其Gemini人工智能模型的同时,也发布了其最新版本的旗舰张量处理单元(TPU),用于人工智能的训练和推理,这似乎是一种挑战英伟达自己的市场领先的图形处理器(GPU)的尝试。
大模型,芯片图源备注:图片由AI生成,图片授权服务商Midjourney


TPU v5p是谷歌最强大的定制设计的人工智能加速器,已经被部署到了该公司的“人工智能超级计算机”上。这是一种专门为运行人工智能应用而构建的超级计算架构,而不是通常运行科学工作负载的超级计算机,因为TPU不适合这些工作。

其最新版本的TPU每个单元(组成系统的部分)有8, 960 个芯片,相比之下,v4 只有4, 096 个,而且在每个单元可用的浮点运算次数(FLOPs)方面,它的可扩展性是v4 的四倍。这些新的单元提供了4,800Gbps的吞吐量。新的单元还拥有95GB的高带宽内存(HBM),而TPU v4 只有32GB的HBM RAM。

不同于英伟达,它将其GPU出售给其他公司,谷歌的定制TPU仍然只在其自己的产品和服务中使用。谷歌的TPU长期以来一直用于为其服务提供动力,包括Gmail、YouTube和Android,而最新版本也被用于训练Gemini。

谷歌的v5p TPU在训练大型语言模型方面比TPU v4 快2. 8 倍,并且提供2. 1 倍的性价比。虽然今年早些时候发布的中间版本TPU v5e在三者中提供了最高的性价比,但它只比TPU v4 快1. 9 倍,这使得TPU v5p成为最强大的。

它甚至强大到足以与英伟达广受欢迎的H100 GPU相媲美,这是市场上最适合人工智能工作负载的显卡之一。根据该公司自己的数据,这个组件在训练工作负载方面比英伟达的A100 GPU快四倍。

与此同时,谷歌的TPU v4 据估计比A100 快1. 2 到1. 7 倍,这是根据它在四月份发布的研究结果。粗略的计算表明,TPU v5p大约比A100 快3. 4 到4. 8 倍,这使得它与H100 相当或者更优秀,尽管在得出任何结论之前,需要更详细的基准测试。


+10
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|深圳市光明谷科技有限公司|光明谷商城|Sunshine Silicon Corpporation ( 粤ICP备14060730号|Sitemap

GMT+8, 2024-12-28 02:23 , Processed in 0.096379 second(s), 42 queries .

Powered by Discuz! X3.2 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表