格芯®(GF®)瞄准高能效人工智能

近年来,人工智能(AI)技术取得了长足的进步,从少数应用中的有限使用发展为各种系统的重要驱动技术,现已渗透到我们生活的方方面面。

“智能”恒温器、门铃和语音助手;半自动驾驶汽车;具有预测能力的医疗监测设备;以及许多领域的众多其他应用现在都依赖于AI技术。

然而,AI及其专用子集(机器学习、深度学习和神经形态计算)存在一个致命弱点,那就是电能需求巨大且不断增长,这阻碍了其进一步发展。随着AI的计算要求越来越高及其整体使用的日益普及,AI计算和数据传输所需的电能迅速增加,进而导致了电能资源的过度使用和全球碳足迹的大幅增加。

这种电能使用增长是不可持续的。以大量使用AI的数据中心为例。2017年,美国的数据中心用电量约占全国总用电量的3%,而到2020年,这一数字翻了一番,达到6%,而且仍看不到尽头。根据行业预测,如果依旧采用当今低效的计算架构,从理论上来说,数据中心到2041年将用掉全球所有的发电量。

2020年,数据中心用电量约占全美总用电量的6%

AI能源挑战不仅限于数据中心。位于网络边缘的电池供电型物联网(IoT)设备,其整体电力需求也非常大。随着更多AI处理向边缘迁移,日益复杂的物联网设备必须变得更加高效,这样其锂离子电池才能为更多功能供电、续航时间更长且/或体积更小。这也有助于减少因废弃电池而带来更多的潜在危险锂离子废弃物。

为了应对AI能源挑战,格芯(GF)对其产品路线图做出了调整,将一系列技术创新融入其12LP/12LP+FinFET解决方案(用于数据中心和物联网边缘服务器)和22FDX® FD-SOI解决方案(用于物联网边缘)。此外,格芯还携手领先的AI研究人员,共同开发更高效的新型计算架构和算法,从而打开AI新世界的大门。

格芯正在致力于解决数据中心和电池供电物联网边缘设备(现已渗透到日常生活)不断增长的能源需求

AI的范式变革

AI系统会收集大量结构化或非结构化数据,然后根据为给定应用编写的算法对其进行处理。其目标是在数据中找到相应的关联性和模式,以此为依据做出推理和决策,并以满足应用需求的方式基于这些推理采取行动。鉴于数据集的大小和算法的复杂性,需要密集的计算机处理。

Ted Letavic格芯无线基础架构(CWI)战略业务部首席技术官兼计算和副总裁Ted Letavic表示:“目前,大多数AI任务都在云中运行,但馈入云端算法的数据集来自外部世界,并采用边缘物联网设备等模拟接口传输。基于云的AI范式能效低下,因为它需要将大量数据从网络边缘(物联网边缘)传输到数据中心,在数据中心执行计算并推导出结果,然后再将结果传输回边缘设备。这种方法不仅能效低下,而且与数据传输相关的时间也会导致系统的整体延迟,因此无法用于许多安全关键型AI应用。”

起初,AI和机器学习使用传统的通用中央处理器(CPU)。Letavic表示:“这些CPU原本是为随机存储器访问而设计的,鉴于需要不断减少在处理器和存储器之间传输数据所需的时间和能耗,这种设计带来了很多问题。我们需要改变该范式,在存储数据的存储器网络内部处理数据,而无需进行数据传输。”

他指出,计算架构因此正在发生根本性的转变。一场向特定领域计算架构演进的“设计复兴”正在拉开帷幕,这些架构对于数据流和计算路径定义明确的AI推理(训练)任务来说非常节能。这些优化的加速器类似于存储器层次结构,通常称为“数字存内计算”或“模拟存内计算”。这些加速器执行并行操作,使其成为AI核心计算类型的理想选择,并且大幅降低了总功耗,从而能够在网络边缘更充分地利用AI。

格芯12LP+使存储器效率提高4倍

为了适应架构上的这些变化,格芯进行了技术改进并启用了新的设计流程。

Letavic表示:“在我们研究的几乎每一种AI工作负载中,存储器带宽和存储器访问功率都限制了整体性能,因为必须在固定的功率预算内完成一定数量的操作,而且存储器消耗了太多的功率。因此,我们将从7nm技术开发工作中得到的一些经验应用到我们的12LP/LP+技术中,推出了支持1 GHz的0.55V SRAM存储器宏,对于典型工作负载而言,它将与存储器访问相关的能耗降低到了原来的四分之一。该解决方案针对脉动阵列处理器,可直接用于处理AI和机器学习工作负载。”

Letavic指出,格芯接下来研究了阵列架构。

“我们发现,每个客户都有不同的数据流架构,基本上没办法选择一个最佳设计。”他表示,“为了解决这个问题,我们创建了一个将逻辑和存储元件合成在一起的新颖设计流程,使它们可以非常接近地进行构建,并具有高度的灵活性。这种设计流程打破了逻辑和存储器宏合成的传统范式,这种逻辑和存储元件的混合可用于实现非常新颖的AI架构。”

格芯推出的差异化12LP+解决方案针对人工智能训练和推理应用进行了优化

Letavic指出,格芯的先进技术与新型的独特设计和合成流程相结合,构成了实现全新计算范式的强大工具,并进一步开启了AI时代。格芯正携手领先研究机构,推动该领域的重要科研工作。

Marian Verhelst博士和格芯的大学联系项目

格芯正在与一些全球领先的研究人员合作,研究这些创新架构,并为其确立客观效益和佐证点,从而让格芯的客户可以利用它们来设计更高效的AI系统。

Marian Verhelst, Ph.D.这些研究工作大多通过与IMEC等研究联盟合作展开,以及通过格芯大学合作计划(UPP)与大学教授合作展开。在该计划下,格芯与全球学术研究人员密切合作,开展利用格芯技术的创新项目。

Marian Verhelst博士是格芯的主要学术合作人员之一,她是比利时鲁汶大学的教授,同时也是Imec的研究主任。Verhelst博士是高效处理架构的全球权威专家之一。她之前曾在美国英特尔实验室工作,从事数字增强模拟和射频电路研究,并于2012年加入鲁汶大学,并创立了一个研究实验室,该实验室目前拥有16名博士生和博士后研究人员。

她的实验室科研项目涵盖各方面,从欧盟资助的长期宏观项目,到涉及向广泛从业者进行技术转让的中短期研究。她曾获得比利时André Mischke YAE奖,该奖项旨在表彰国际领先的学术研究、管理和循证决策成就。

她作为比利时青年学院和佛兰德STEM平台的前成员,是科学与教育的大力倡导者,并曾登上比利时国家电视台多个科普类节目的专访。2014年,她创立了InnovationLab,旨在为高中教师及高中生开发交互式工程项目。她也是IEEE“Women in Circuits”倡导计划的成员之一,并积极参与许多其他宣传和教育活动。

DIANA芯片——AI向前迈进的重要一步

Verhelst博士致力于研发混合神经网络芯片,该芯片不仅是全球首款将模拟存内计算和数字脉动阵列结合到一起的芯片,而且还可以在这些异构资源之间无缝划分AI算法,以实现最佳能耗性能、准确性和延迟。

该芯片名为DIANA(DIgital和ANAlog,即数字和模拟),在格芯的22FDX平台上构建,相关的论文将在本月末举行的极具声望的2022年国际固态电路会议(ISSCC)上发表。

Verhelst表示:“机器学习正在蓬勃发展,每家企业都有一个针对机器学习优化的处理器,但大多数情况下,它们都是纯粹在数字领域中设计的,使用0和1进行计算,这并不总是能实现最高效率。因此,许多研究人员现在正在研究模拟领域中的计算,甚至在SRAM存储器内部,使用各个SRAM单元之间的电流累积而不是0和1。从电能角度来看,这将更有效,从芯片密度的角度来看也是如此,因为它允许在每平方毫米上进行更多的计算。”

“到目前为止,我们已经取得了一些不错的成果,但仅适用于恰好与存储器形状完美匹配的特定机器学习网络。对于其他网络来说,算法不一定能有效运行。”她补充道,“DIANA芯片包含一个主机处理器以及一个数字和模拟存储器协处理器。对于神经网络的每一层,它都可以将指定层分派给推理加速器或协处理器,以确保尽可能高效地运行。所有操作都是并行运行,中间数据在各层之间有效共享。”

为了实现这一目标,Verhelst的团队开发了先进的调度程序和映射程序,用于分析芯片的硬件特性,以确定最优能效或最优延迟的“计算顺序”,即如何在芯片上运行给定算法。

“算法运行可以采用很多方法,具体取决于存储器大小、它的特性、处理阵列中有多少计算元件等。”她表示,“因此,我们开发了一些工具,您可以在其中输入硬件特性,并帮助您根据工作负载找到适合的最佳解决方案。”

正在进行的合作

DIANA芯片是Verhelst与格芯的最新合作成果,该次合作大约始于五年前,当时格芯为她的一名博士生提供了机会,使用22FDX技术流片视频处理芯片,该芯片可以高效并行执行数百个操作。

格芯的22FDX边缘AI加速器经优化可缩短延迟和可操作性响应时间,通过在边缘管理数据来增强安全性和数据隐私

此外,Verhelst还使用格芯的12 LP+技术,为高度密集的计算结构构建了深度学习芯片,该芯片包含超过2,000个乘法器和大量SRAM内容。另一个处于初始阶段的项目是使用格芯的22FDX平台构建一个高占空比的机器学习芯片,专注于超低功耗运行,面向物联网、机器监控或其他须以毫瓦级功率运行的传感器节点。

她指出,格芯提供的芯片和技术合作伙伴关系非常宝贵。她表示:“生产功能完备的芯片成本极为昂贵,尤其是对于体积很大的数字处理器。与格芯合作既为我们降低了芯片门槛,又为我们提供了获得最新相关IP的途径。”

“此外,格芯还为我们提供建议和支持,解决有时候遇到的物理设计收敛工作难题,对于如此先进的技术,该工作不再是小问题。在后端需要考虑的事情有很多,当我们试图确保快速IO、出色的振荡器、最佳电源门控等性能时,格芯的制造经验确实对我们很有帮助。”

展望

当被问及格芯在更高效AI领域的下一步举措时,Letavic提到了公司在计算芯片本身的集成电压调节以及用于更高水平传输和计算效率的硅光子学方面的研发工作。

他表示:“改进供电是一种弥补较小节点功率扩展不足的方法,这已成为系统层面的真正限制。要节省应用总功耗,关键方法之一就是提高向处理器内核提供电流和电压的效率。我们正在探索各种可选方案,鉴于格芯在双极性CMOS和DMOS功率器件方面的悠久传统,这对我们来说会是一个巨大的商机。”

Letavic还提到,光子加速,即使用光(光子)替代电(电子),不仅可以通过光纤传输信号,还可用于计算本身,将会在AI中发挥重要作用。“我想说这种技术发展速度比我预期的要快得多。这是我们已有一些大学明确参与合作的另一个领域。”

阅读其他通过格芯大学合作计划开展的研究项目: