IBM 的人工智能芯片在语音识别方面的能效是传统微芯片的十几倍。许多人工智能系统,包括 和其他大型语言模型,以及现在用于创建视频和图像的生成式人工智能,可能会从该设备中受益。
IBM 指出,由于人工智能的存在,自动转录的准确性在过去十年中得到了极大提高。然而,用于帮助训练和操作这些以及其他人工智能系统的硬件变得越来越昂贵且耗能。为了训练最先进的 AI GPT-3, 花费了 460 万美元,让 9,200 个 GPU 运行了两周。
一个主要障碍是在处理器和内存之间传输大量数据所损失的能量和时间,这种方式消耗的能量可能是实际计算的三到 10,000 倍。模仿大脑的神经形态硬件通常试图模仿生物神经元计算和存储数据的方式。例如,内存计算或“模拟人工智能”微芯片直接在内存中执行计算。
IBM 之前的模拟表明,模拟 AI 的能效可以是适用于 AI 应用的最佳 GPU 的 40 到 140 倍。在这项新研究中,IBM 研究人员对相变存储器进行了实验。该设备依赖于一种材料,当受到电脉冲冲击时,该材料不仅可以以类似于数字处理器的 1 和 0 的方式在非晶相和晶相之间切换,而且还可以切换到位于这些值之间的状态。这意味着相变存储器可以仅使用存储器中的几个电阻器或电容器对乘法累加 (MAC) 运算的结果进行编码,这是驱动人工智能当前爆炸式增长的深度神经网络中最基本的计算。传统方法使用数百或数千个晶体管。
IBM研究人员创建了一种 14 纳米微芯片,在 34 个区块上装载了 3500 万个相变存储单元。总而言之,该设备每瓦每秒能够执行高达 12.4 万亿次操作,其能效是最强大的 CPU 和 GPU 的数十甚至数百倍。该团队使用两个语音识别神经网络程序来检查他们设备的灵活性。一个名为 的小型系统被用来识别语音命令的关键字,而这项任务的速度可能至关重要。 是一个大型系统,用于将语音转录为文本,其中有效分析大量数据的能力可能是最有价值的。他们发现,他们的设备的性能与在传统硬件上运行的神经网络一样准确,而 其工作速度 的7 倍,能源效率是 的 14 倍。
同时,这种新的微芯片可以支持 ,这是当前为 等聊天机器人提供支持的大型语言模型 (LLM) 背后的神经网络类型。 本质上是智能手机用来预测一个人正在输入的单词的其余部分的自动完成功能的增强版,它已经通过了法学院和商学院考试,成功回答了软件编码工作的面试问题,撰写了房地产清单,并开发了广告内容等。也是生成人工智能的关键组成部分。事实证明, 、 和 DALL-E 等生成式 AI 系统因其制作的艺术而广受欢迎。新芯片“有可能大幅降LLMs和生成式人工智能的功耗和成本”。
但需要指出,新芯片并不包含处理所提供数据所需的所有组件。“因此,其性能受到芯片与其他片外组件之间通信的限制,”。在实现商业上可行的模拟人工智能的道路上还有五个步骤。我们需要的是MAC操作之外的新电路,以减少对数字芯片的依赖;混合模拟数字架构,处理模拟设备无法执行的计算;定制编译器,可以有效地将任务映射到可用硬件,以最大限度地提高性能;针对模拟计算遇到的错误进行优化的定制算法;以及针对模拟芯片优化的应用程序。