鸣涧 发表于 2024-3-22 09:21:32

黄仁勋:很多计算资源被浪费,世界需要更好的模型

黄仁勋对话Transformer七作者:很多计算资源被浪费,世界需要更好的模型
AI(人工智能)大模型奠基之作Transformer论文的七位作者与英伟达CEO黄仁勋一起讨论生成式AI的过去、现在与未来。当地时间3月21日,提出了Transformer架构、改写AI领域发展历程的论文《注意力就是你所需要的一切(Attention Is All You Need)》的作者们现身英伟达GTC大会,在名为Transforming AI(变革AI)的圆桌会议上与黄仁勋一起展开了同台讨论。除了因临时变故而无法前来的Essential AI的联合创始人Niki Parmar外,其余七位作者都来到了现场,这是他们首次在公开场合集体亮相。这场会议也是黄仁勋在整个GTC大会上除了主题演讲以外,唯一一场公开的活动。
在开场白中,黄仁勋表示,虽然计算技术自1964年以来都没有发生根本性的改变,但计算机的边际成本持续下降,以至于在二十年的时间里,计算机的成本几乎降低了一万倍。然而,计算机成本的下降已经到达了一个临界点,逐渐趋向于停滞。而在那之后,生成式AI的诞生为行业带来了新的希望,能够为我们解读数据背后的含义,是“一次全新工业革命的开始”。毫无疑问,Transformer架构的出现在这一过程中起到了非常重要的作用。黄仁勋表示:“你不会想要错过接下来的十年。”划时代的论文《注意力就是你所需要的一切》由谷歌Brain团队的八位研究者发布于2017年。这八位研究者已经陆续离开了谷歌,几乎都创办了自己的公司,并仍在从事AI相关工作。来到现场的七位论文作者分别是:全栈型智能产品开发商Essential AI的CEO阿希什·瓦斯瓦尼(Ashish Vaswani),AI生物技术提供商Inceptive的CEO雅各布·乌斯克雷特(Jakob Uszkoreit),区块链公司NEAR Protocol的联合创始伊利亚·波洛苏欣(Illia Polosukhin),AI聊天机器人平台Character.AI的联合创始人兼CEO诺姆·沙齐尔(Noam Shazeer),AI初创企业Sakana.ai的联合创始人兼CEO利昂·琼斯(Llion Jones),AI初创企业Cohere的联合创始人艾丹·戈麦斯(Aidan Gomez),以及被黄仁勋调侃为“唯一还在从事程序员工作的英雄”、OpenAI研究员卢卡什·凯泽(Lukasz Kaiser)。

黄仁勋和原计划参加会议的“Transformer论文八子”。来源:英伟达



黄仁勋和原计划参加会议的“Transformer论文八子”。来源:英伟达在这场时长不到一小时的讨论中,八人都表现得较为放松,将谈话重点放在对AI未来的展望上,也披露了一些关于Transformer创建初期的往事。所有的机器学习都是“transformer(变革者)”所谓的Transformer模型,其实是一种基于自注意力机制的神经网络模型,能够用于处理序列数据。相比于传统的循环神经网络模型,Transformer模型能够更准确地捕捉单词的上下文和含义,因而成为了像GPT-4和ChatGPT这样的大语言模型的基础,同时也被应用于非语言领域,包括OpenAI的AI代码生成训练模型Codex、文生视频模型Sora和谷歌DeepMind的蛋白质折叠结构预测模型AlphaFold。
据几位研究者介绍,在开发Transformer之前,他们注意到随着模型规模的增大,其智能程度也随之提高,而递归神经网络(RNN)处理大量信息的效率并不高,激发他们去寻找能够真正迅速处理信息的模型。沙齐尔表示:“我喜欢把Tansformer比作是从蒸汽机到内燃机的飞跃。我们也可以用蒸汽机实现工业革命,但那会非常痛苦,而内燃机让一切都变得更好。”而对于“transformer”这一名字是如何确定下来的,乌斯克雷特称几人只是“随便起了一个名字”,觉得它很有创意,因为所有的机器学习都是“transformer(变革者)”。琼斯表示:“但我们确实意识到,我们实际上是在尝试创造一种非常通用的东西,它真的可以将任何东西都转化成其他的任何东西。我们并未预测到,当Transformer被用于图像时会有这么好的表现,这有些令人惊讶。”“世界需要比Transformer更好的东西”不过,Transformer的创造者们已经开始把目光放得更远,转向AI的下一个阶段。戈麦斯表示,在这一点上,“世界需要比Transformer更好的东西”:“我认为,我们都希望它被一些能将我们带到更新性能高度的东西所取代……你们认为接下来会发生什么?这是令人兴奋的一步,因为我认为(现在的发展)太像六七年前就存在的东西了。”对此,琼斯指出,为了让AI行业在Transformer之后进入下一个阶段,从业者 “不仅需要做得更好,你还必须非常明显地做到更好……(我们)还停留在原始模型上,尽管从技术上讲,它可能还不是我们现在拥有的最强大的东西。”琼斯补充道,每个人都知道自己想要什么样的个人工具,例如更大的上下文窗口、更快地生成token的能力:“我不知道你们喜不喜欢这个说法,但人们现在使用了太多的计算量,我认为大家浪费了很多计算资源。”随后,黄仁勋也邀请几人介绍自己现在所在的公司。几位创业者基本都提到,希望能让AI技术走出实验室,让这项能够改变世界的技术尽快被更多人运用,并同时降低其成本。作为第一个离开谷歌的人,选择研究区块链技术的波洛苏欣表示:“我坚信,我们正在向着实现几乎整个世界的软件化进步,而机器学习就是软件的一部分。因此,最直接的方法是教会机器编码,这样你就能够生成软件,并改变所有人的访问方式。”当琼斯谈到推理是“下一个重要的发展方向”,其他研究者都进行了附和。凯泽指出,在未来,作为“与现实世界互动的地方”,数据的质量将变得更加重要:“我认为将会出现一个新时代,仍然会有一些免费的预训练模型,但重要的可能将是那些更大型的、高质量的东西。”
页: [1]
查看完整版本: 黄仁勋:很多计算资源被浪费,世界需要更好的模型