黄仁勋：很多计算资源被浪费，世界需要更好的模型-谷动谷力

鸣涧发表于 2024-3-22 09:21:32

黄仁勋：很多计算资源被浪费，世界需要更好的模型

黄仁勋对话Transformer七作者：很多计算资源被浪费，世界需要更好的模型
AI（人工智能）大模型奠基之作Transformer论文的七位作者与英伟达CEO黄仁勋一起讨论生成式AI的过去、现在与未来。当地时间3月21日，提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切（Attention Is All You Need）》的作者们现身英伟达GTC大会，在名为Transforming AI（变革AI）的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变故而无法前来的Essential AI的联合创始人Niki Parmar外，其余七位作者都来到了现场，这是他们首次在公开场合集体亮相。这场会议也是黄仁勋在整个GTC大会上除了主题演讲以外，唯一一场公开的活动。
在开场白中，黄仁勋表示，虽然计算技术自1964年以来都没有发生根本性的改变，但计算机的边际成本持续下降，以至于在二十年的时间里，计算机的成本几乎降低了一万倍。然而，计算机成本的下降已经到达了一个临界点，逐渐趋向于停滞。而在那之后，生成式AI的诞生为行业带来了新的希望，能够为我们解读数据背后的含义，是“一次全新工业革命的开始”。毫无疑问，Transformer架构的出现在这一过程中起到了非常重要的作用。黄仁勋表示：“你不会想要错过接下来的十年。”划时代的论文《注意力就是你所需要的一切》由谷歌Brain团队的八位研究者发布于2017年。这八位研究者已经陆续离开了谷歌，几乎都创办了自己的公司，并仍在从事AI相关工作。来到现场的七位论文作者分别是：全栈型智能产品开发商Essential AI的CEO阿希什·瓦斯瓦尼（Ashish Vaswani），AI生物技术提供商Inceptive的CEO雅各布·乌斯克雷特（Jakob Uszkoreit），区块链公司NEAR Protocol的联合创始伊利亚·波洛苏欣（Illia Polosukhin），AI聊天机器人平台Character.AI的联合创始人兼CEO诺姆·沙齐尔（Noam Shazeer），AI初创企业Sakana.ai的联合创始人兼CEO利昂·琼斯（Llion Jones），AI初创企业Cohere的联合创始人艾丹·戈麦斯（Aidan Gomez），以及被黄仁勋调侃为“唯一还在从事程序员工作的英雄”、OpenAI研究员卢卡什·凯泽（Lukasz Kaiser）。

黄仁勋和原计划参加会议的“Transformer论文八子”。来源：英伟达

黄仁勋和原计划参加会议的“Transformer论文八子”。来源：英伟达在这场时长不到一小时的讨论中，八人都表现得较为放松，将谈话重点放在对AI未来的展望上，也披露了一些关于Transformer创建初期的往事。所有的机器学习都是“transformer（变革者）”所谓的Transformer模型，其实是一种基于自注意力机制的神经网络模型，能够用于处理序列数据。相比于传统的循环神经网络模型，Transformer模型能够更准确地捕捉单词的上下文和含义，因而成为了像GPT-4和ChatGPT这样的大语言模型的基础，同时也被应用于非语言领域，包括OpenAI的AI代码生成训练模型Codex、文生视频模型Sora和谷歌DeepMind的蛋白质折叠结构预测模型AlphaFold。
据几位研究者介绍，在开发Transformer之前，他们注意到随着模型规模的增大，其智能程度也随之提高，而递归神经网络（RNN）处理大量信息的效率并不高，激发他们去寻找能够真正迅速处理信息的模型。沙齐尔表示：“我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们也可以用蒸汽机实现工业革命，但那会非常痛苦，而内燃机让一切都变得更好。”而对于“transformer”这一名字是如何确定下来的，乌斯克雷特称几人只是“随便起了一个名字”，觉得它很有创意，因为所有的机器学习都是“transformer（变革者）”。琼斯表示：“但我们确实意识到，我们实际上是在尝试创造一种非常通用的东西，它真的可以将任何东西都转化成其他的任何东西。我们并未预测到，当Transformer被用于图像时会有这么好的表现，这有些令人惊讶。”“世界需要比Transformer更好的东西”不过，Transformer的创造者们已经开始把目光放得更远，转向AI的下一个阶段。戈麦斯表示，在这一点上，“世界需要比Transformer更好的东西”：“我认为，我们都希望它被一些能将我们带到更新性能高度的东西所取代……你们认为接下来会发生什么？这是令人兴奋的一步，因为我认为（现在的发展）太像六七年前就存在的东西了。”对此，琼斯指出，为了让AI行业在Transformer之后进入下一个阶段，从业者 “不仅需要做得更好，你还必须非常明显地做到更好……（我们）还停留在原始模型上，尽管从技术上讲，它可能还不是我们现在拥有的最强大的东西。”琼斯补充道，每个人都知道自己想要什么样的个人工具，例如更大的上下文窗口、更快地生成token的能力：“我不知道你们喜不喜欢这个说法，但人们现在使用了太多的计算量，我认为大家浪费了很多计算资源。”随后，黄仁勋也邀请几人介绍自己现在所在的公司。几位创业者基本都提到，希望能让AI技术走出实验室，让这项能够改变世界的技术尽快被更多人运用，并同时降低其成本。作为第一个离开谷歌的人，选择研究区块链技术的波洛苏欣表示：“我坚信，我们正在向着实现几乎整个世界的软件化进步，而机器学习就是软件的一部分。因此，最直接的方法是教会机器编码，这样你就能够生成软件，并改变所有人的访问方式。”当琼斯谈到推理是“下一个重要的发展方向”，其他研究者都进行了附和。凯泽指出，在未来，作为“与现实世界互动的地方”，数据的质量将变得更加重要：“我认为将会出现一个新时代，仍然会有一些免费的预训练模型，但重要的可能将是那些更大型的、高质量的东西。”

页: [1]

谷动谷力's Archiver

黄仁勋：很多计算资源被浪费，世界需要更好的模型