格芯旨在实现高能效人工智能的目标

作者:Gary Dagastine

人工智能(AI)技术在最近几年取得了长足的进步,从少数应用中的有限使用发展到现在渗透到我们生活中的系统的重要推动者。

"智能 "恒温器、门铃和语音助手;半自动驾驶汽车;具有预测能力的医疗监测设备;以及许多领域的无数其他应用现在都依赖于人工智能技术。

但人工智能及其专门的子集(机器学习、深度学习和神经形态计算)有一个阻碍进一步进步的阿喀琉斯之踵:巨大且不断增长的能源需求。随着人工智能计算的要求越来越高,其总体使用量越来越大,人工智能计算和数据运输所需的能源量迅速增加,导致能源资源的过度使用和全球碳足迹的大幅增加。

数据中心照片

这种能源使用的增长是不可持续的。考虑一下大量使用人工智能的数据中心。2017年,它们消耗了美国所有电力的约3%,但到2020年,这一比例翻了一番,达到6%,而且看不到尽头。行业预测说,到2041年,如果今天的低效计算架构仍在使用,理论上数据中心将消耗世界上的全部能源产出。

AI的能源挑战并不局限于数据中心。网络边缘的电池供电的物联网(IoT)设备也有很大的电力需求,总的来说。随着更多的人工智能处理转移到边缘,日益复杂的物联网设备必须变得更加高效,以便它们的锂离子电池能够为更多的功能供电,持续时间更长和/或物理上更小。这也将有助于减少来自废弃电池的潜在危险的锂离子废物的数量。

物联网

GlobalFoundries (GF) has aligned its product roadmap to address the AI energy challenge, by incorporating a series of technical innovations into its 12LP/12LP+ FinFET solution (used in data centers and IoT edge servers) and 22FDX® FD-SOI solution (used at the IoT edge). In addition, GF is working with leading AI researchers to develop new, more efficient computing architectures and algorithms to open up new AI horizons.

人工智能的范式变化

人工智能系统收集大量的结构化或非结构化数据,然后根据为特定应用编写的算法进行处理。目标是在数据中找到相关的关联和模式,根据它们做出推断和决定,并以满足应用需求的方式对这些推断采取行动。鉴于数据集的大小和算法的复杂性,需要密集的计算机处理。

泰德-莱塔维茨,博士。

"目前,大多数人工智能任务都在云中运行,但输入云中算法的数据集来自外部世界,通过边缘的物联网设备等模拟接口进入,"GF的首席技术官兼计算和无线基础设施(CWI)副总裁Ted Letavic说。"基于云的人工智能范式是低能效的,因为它需要将大量的数据从网络边缘(物联网边缘)传输到数据中心,在那里进行计算并得出结果,随后再将结果传输回边缘设备。这不仅是能源效率低下,与数据传输相关的时间导致整个系统的延迟,这使得许多安全关键的人工智能应用无法使用。"

起初,传统的通用中央处理单元(CPU)被用于人工智能和机器学习。"这些是为随机内存访问而设计的,鉴于越来越需要减少在处理器和内存之间传输数据的时间和能量,这已经成为问题,"Letavic说。"我们需要改变模式,处理存储在内存网络本身中的数据,而不需要运输它。"

因此,他说,计算架构正在发生根本性转变。一场针对特定领域的计算架构的 "设计复兴 "正在发生,这些计算架构对于包括定义明确的数据流和计算路径的人工智能推理(训练)任务来说是非常节能的。这些优化的加速器类似于内存层次,通常被称为 "内存中数字计算 "或 "内存中模拟计算"。这些加速器执行并行操作,使它们成为人工智能核心计算类型的理想选择,并大大降低了总功率,使人工智能在网络边缘得到更多的使用。

使用GF的12LP+可提高4倍的内存效率

为了适应架构上的这些变化,GF进行了技术改进,并启用了新的设计流程。

"在我们研究的几乎每一个人工智能工作负载中,内存带宽和内存访问功率都限制了整体能力,因为一定数量的操作必须在固定的功率预算内进行,而内存消耗了太多的预算,"Letavic说。"因此,我们将从7纳米技术开发工作中获得的一些经验应用于我们的12LP/LP+技术,并推出了业界首个支持1GHz的0.55V SRAM内存宏,对于典型的工作负载,它将与内存访问相关的能量降低了4倍。这个解决方案针对的是收缩阵列处理器,直接适用于人工智能和机器学习工作负载"。

12LP+

接下来,GF研究了阵列架构,Letavic说。

"我们发现每个客户都有不同的数据流架构,基本上没有办法选择一个最佳的设计,"他说。"为了解决这个问题,我们创建了一个新颖的设计流程,将逻辑和内存元素合成在一起,因此它们可以在非常接近的情况下构建,具有高度的灵活性。这种设计流程打破了逻辑和存储器宏观合成的传统模式,逻辑和存储器元素的交融可以用来实现非常新颖的人工智能架构"。

Letavic说,GF技术的进步,加上新的、独特的设计和合成流程,是实现新计算范式的有力工具,并进一步释放了人工智能的前景。这一领域的重要工作正在与领先的研究机构合作进行。

Marian Verhelst博士和GF的大学联系

GF正在与一些世界领先的研究人员合作,研究这些新颖的架构,并为其建立客观的效益和证明点,然后GF的客户可以利用这些效益来设计更有效的人工智能系统。

Marian Verhelst, Ph.D.

Much of this work is taking place through collaborations with research consortia such as imec, and with university professors through GF’s University Partnership Program (UPP). Under the program, GF works closely with worldwide academic researchers on innovative projects leveraging GF technology.

GF的主要学术合作者之一是Marian Verhelst博士,他是比利时鲁汶大学的教授,也是Imec的研究主任。Verhelst博士是世界领先的高效处理架构专家之一。她曾在美国英特尔实验室从事数字增强模拟和射频电路的研究,并于2012年来到鲁汶大学,创办了一个研究实验室,目前有16名博士生和博士后研究员。

她的实验室的工作涵盖了从欧盟资助的长期、大视野的项目,到涉及向广泛的行业参与者进行技术转让的近期工作。她曾被授予比利时André Mischke YAE奖,该奖项旨在表彰国际领先的学术研究、管理和循证政策制定。

作为比利时青年学院和佛兰德斯STEM平台的前成员,她是科学和教育的直言不讳的倡导者,并在国家电视台的几个流行的科学节目中出现。2014年,她创立了创新实验室,为高中教师和他们的学生开发互动工程项目。她也是IEEE的 "电路中的女性 "倡议的成员,以及其他许多宣传和教育活动。

抱歉,这段视频需要得到cookie的同意。

接受营销cookies以观看此视频。

DIANA芯片--人工智能的一个重要步骤

维尔赫斯特博士领导了一项生产混合神经网络芯片的工作,该芯片是世界上第一个不仅结合了模拟内存计算和数字收缩阵列的芯片,而且可以在这些异质资源中无缝分割人工智能算法,以实现最佳的能源性能、精确度和延迟。

这款名为DIANA(DIgital and ANAlog)的芯片是使用GF的22FDX平台制造的,并将在本月晚些时候在著名的2022年国际固态电路会议(ISSCC)上发表的一篇论文中予以介绍。

"机器学习正在蓬勃发展,每个人都有一个为机器学习而优化的处理器,但大多数情况下,它们是纯粹在数字领域设计的,它们使用零和一进行计算,这并不总是你能做的最有效的事情,"Verhelst说。"因此,许多研究人员现在正在研究模拟领域的计算,甚至是在SRAM存储器内部的计算,在SRAM单元中使用电流积累,而不是使用零和一。从能源的角度来看,这可能是更有效的,从芯片密度的角度来看也是如此,因为它允许你在每平方毫米内做更多的计算。"

"到目前为止,已经有了一些出色的结果,但只是针对特定的机器学习网络,这些网络恰好与记忆的形状很好地匹配。她说:"对于其他人来说,这些算法不一定有效地运行。"DIANA芯片包含一个主处理器,以及一个数字和一个模拟内存协处理器。对于神经网络的每一层,它可以将给定的一层分配给推理加速器或联合处理器,使其最有效地运行。一切都是并行运行的,中间数据在各层之间有效共享。

为了实现这一目标,Verhelst的团队开发了先进的调度器和映射器,它们分析了芯片的硬件特性,以确定能量最优化或延迟最优化的 "计算顺序",或如何在芯片上运行一个特定的算法。

"她说:"有许多方法来运行一个算法,这取决于你有多少内存,它的特点,你的处理阵列中有多少计算元素,等等。"因此,我们开发了一些工具,你可以将硬件特性输入其中,这些工具有助于为你的工作负载找到最佳解决方案。"

一个持续的合作

薯片

DIANA芯片是Verhelst与GF合作的最新成果。大约五年前,GF为她的一名博士生提供了在22FDX技术上录制视频处理芯片的机会,该芯片可以有效地进行数百次并行操作。

随后,Verhelst利用GF的12 LP+技术,为一个非常密集的计算结构构建了一个深度学习芯片,该芯片上有超过2000个乘法器和大量的SRAM内容。然而,另一个处于初始阶段的项目是利用GF的22FDX平台构建一个重负载循环的机器学习芯片,重点是为物联网、机器监测或其他必须以毫瓦功率运行的传感器节点提供极低的功率运行。

她说,GF提供的硅片使用权和技术合作是非常宝贵的。她说:"生产工作用的硅片可能非常昂贵,特别是对于物理尺寸较大的数字处理器。她说:"与GF合作,我们既能降低硅的门槛,又能获得最新的相关IP。

"此外,GF还为我们提供了建议和支持,因为有时物理设计封闭工作很困难,考虑到这些先进的技术,这未必是小事。在后端需要考虑的事情太多了,当我们要确保快速IO、良好的振荡器、最佳的电源门控等事情时,GF的制造经验确实能帮助我们。"

展望未来

当被问及GF在更节能的人工智能方面的下一步计划时,Letavic提到了该公司在计算芯片本身的集成电压调节和硅光子技术方面的工作,以实现更高水平的传输和计算效率。

"他说:"改进电力输送是弥补在较小节点上缺乏电力扩展的一种方式,这已经成为系统层面上的一个真正的限制。他说:"节省总应用功率的关键方法之一就是更有效地将电流和电压输送到处理器内核。我们正在探索各种方案,鉴于我们在双极CMOS和DMOS功率器件方面的长期传统,这对GF来说可能是一个非常大的机会。"

莱塔维奇还提到,光子加速,或使用光(光子)而不是电(电子)不仅通过光纤传输信号,而且用于计算本身,可能会在人工智能中发挥重要作用。"我想说,这的发展速度比我预期的要快得多。这也是我们有一些真正坚实的大学参与的另一个地方。"

阅读有关通过GF的大学合作计划进行的其他研究。