都在围观最新CPU/GPU，关注Arm中国这个动向

sunsili · 发表于 2019-6-12 23:54:40

都在围观最新CPU/GPU，关注Arm中国这个动向

“孙正义曾说大约在2035年左右，全球可能会有1万亿个在线连接的AIoT设备。坦白的讲，这并不是一个很激进的数字。”Arm中国生态发展副总裁、OPEN AI LAB创始人兼CEO金勇斌日前在接受媒体采访时称，从1991年到2017年，Arm花了26年的时间才实现了1000亿片Arm架构芯片的出货。然而从2017年开始，这一进程明显加快，每年基于Arm架构芯片的年出货量达到了250亿片，按此速度推算，只需4年甚至更短的时间，第二个1000亿的出货量就可实现。

这些智能设备现在无时无刻不在感知我们，阅读我们，但却不需要消费者去跟它做频繁的交互。这意味着，人机交互方式正从过去的“人看机”向现在的“机看人”转变，设备对智能化和AI的需求从未像今天这样迫切。在这样的大背景下，Arm中国在2018年世界互联网大会上，推出了具备自主知识产权的人工智能处理器平台—“周易”。

什么是“周易”？

在中国文化中，“易”字常代表三种意思：“简易”、“变易”和“恒常不变”。东汉郑玄在其著作《易论》中就写到，“易一名而含三义：易简一也；变易二也；不易三也。”即是说宇宙事物存在状能是顺乎自然的，既时时在变易之中，又能保持一种恒常。

而Arm中国之所以给自己的人工智能处理器平台取名“周易”，想必也是出于这种考虑。

Arm“周易”平台更多面向AIoT应用，主打适用性、兼容性和安全性，希望大幅降低人工智能算力、芯片和应用成本、加快应用研发周期，在更多的IoT设备上实现人工智能。其核心要素包含两部分：一是Tengine软件框架；二是处理以卷积神经网络、深度神经网络为代表的AI计算的人工智能处理单元(AIPU)。

•Tengine软件框架

Arm中国产品经理高锦炜对《电子工程专辑》表示，在2020年之前，谁家的软件最好用，谁就能真正掌控市场，大家甚至都不会去谈论传统芯片的评价指标。为此，Arm提供了从IP开发到软件开发的整套完整的工具链，包括编译器、性能优化库等等。对芯片厂商来说，可以通过其中包含的仿真器和算法示例等来帮助软件开发。从这个角度来看，“周易”AI处理引擎对用户来说相当于是一键式开发服务，可以把他们想实现的算法一键式地部署到“周易”上。

“一键式”软件工具链

比如，对于已有的成熟芯片，“周易”平台可以通过Tengine软件框架进行统一推理，人工智能应用程序可以使用标准的Tengine API在不同的硬件上部署，大大节省了移植或是在特定硬件上进行优化的工作量。

而对于新开发的芯片，“周易”不但提供了AIPU IP，还提供了验证测试向量、参考用例和后端实现参考流程等全面支持，以加速新的SoC设计。当芯片设计出来后，Tengine软件框架内包含的不同library可以对不同算力做分布和调度，并在上层支持Caffe、PyTorch等主流算法，基于这些框架开发出来的算法可以无缝地应用在Tengine上。

Tengine软件框架

金勇斌说，芯片公司有三个基本的核心竞争力：产品化能力、销售渠道和成本管理。对他们来说，周易的推出意味着IC设计公司不必再专门开发基于AIPU的专用AI芯片，或是包含AIPU单元的芯片。现有的成熟芯片通过Tengine把算力提取出来，就可以直接实现更多现成的算法，能够大幅度提高性能，改善用户体验。正所谓，“在上游把一个根本问题解决了，下游的普及速度就会非常快，可以带来顺流而下的效应。”

•人工智能处理单元

AIPU最大的特点，是拥有一套遵循Arm生态方式的人工智能和神经网络优化指令集。也就是说，Arm每一代处理器都会遵循这套硬件指令集，从而能够保证整体软件生态一直被延续。

而之所以叫AIPU而不是AI Chip，Arm方面强调称它只是SoC中的一个处理单元，能够实现终端SoC的高度集成化，实现灵活性和高效率之间的平衡，降低SoC集成AI功能的设计门槛和上层软件的开发门槛，就像传统的CPU、GPU一样，只是功能有所不同。

“神经网络处理器是一种暴力计算的计算方式，所以它对计算的能效比和性能要求非常高。” 高锦炜的看法是，在当前工艺不能带来更多性能红利的前提下，只能依靠构架和创新来提高能效比，因此，Arm引入了粗粒度(AI Fix Function)、中粒度(Vector)和细粒度指令的概念。

周易人工智能处理单元AIPU

我们可以从以下这几个维度来思考这三个概念。其一，现在神经网络AI计算的90%，甚至95%以上的操作都是卷积操作，这是一种单一且基本的操作方式，会长期存在。在设计中完全可以把这种类型的操作固化下来，并使用专用电路来实现，从而提升整体的计算能效。

其二，AI算法的发展迭代速度很快，基本是以一年为周期，而芯片的开发周期则是3-5年。因此，在芯片立项时，处理器单元必须要有可编程性，可编程性要有粗粒度、中粒度和细粒度。周易中的中粒度和细粒度可以理解为两条流水线，中粒度是矢量处理流水线，用于处理位宽较大的数据，可编程，可实现一些新的算法；细粒度是标量处理流水线，可以实现标量操作的计算。

此前很多厂商一直都在使用DSP来进行神经网络处理，但在高锦炜看来，虽然DSP和周易平台在硬件设计上是类似的，比如都采用超长指令集以提高数据的整体吞吐力和计算效率，但DSP几十年来一直没有形成一个比较好的生态。究其原因，一是目前存在多个DSP构架，不同DSP构架间彼此不兼容，这就分散了整个产业软件投入的资源和开发精力。另一方面，DSP的开发没有软件生态维护的概念，这会造成即使是同一个厂家，第一代DSP的指令集或者软件程序无法使用在第二代DSP上，这对软件开发来说是灾难性的。

AI落地，就差最后1公里

“目前的平台框架，不管是TensorFlow或是其他，包括Arm Trillium，都无法做到对不同的芯片实现全部支持，因此做算法、做方案的公司，在解决最后1公里的落地问题时，甚至需要把前面99公里的东西都再学一遍，因此增加了很大的工作量，造成了落地困难。”金勇斌认为，要想扭转这一局面，就必须打通从芯片、算法到解决方案的全部路径，使后端设计人员无需关注底层的差异。

目前，一些基于“周易”平台的使用场景已经落地，比如行车记录、智能停车、ADAS、安防、人脸识别等。在金勇斌给出的一个前端人脸识别系统的用户案例中，用户无需改动硬件，只需通过Tengine便可自动在前端进行人脸识别，然后将匹配结果上传即可，不必再像之前那样，将采集的人脸数据交由后端服务器处理，从而将网络的部署成本从一万八千元降低至两千元以内，几乎节省了10倍。

另据透露，基于“周易”AIPU的SoC产品最快会在明年年中问世。而随着终端场景的细化，Arm中国未来还会根据功耗、面积、使用场景、用户扩展性等特性，在底层架构方面做出取舍和优化，推出不同版本的“周易”平台。

“AI要想普及化，必须实现85%以上的智能化都在终端实现。”金勇斌表示，很多AI公司都希望能够自己去做处理器、框架和应用，这种做法有点像IBM早期做PC的模式，独立开发处理器、指令集、芯片、设备、应用、系统等，但最终没有发展起来。反而是微软的Windows系统能够非常普及，就是因为它开放给第三方做应用程序，这样就形成了巨大的生态。AIoT时代也是一样，一家公司指望“从沙子做到云”是行不通的，AI生态需要在每个层级上进行交叉合作、竞争，这样才能够把成本降下来，把普及率提高，把渗透性做好，才能尽早实现未来的万亿级AIoT市场。

文章来源于：EET电子工程专辑

		自动登录	找回密码
密码			立即注册