GF strebt nach energieeffizienter künstlicher Intelligenz

von Gary Dagastine

Die Technologie der künstlichen Intelligenz (KI) hat in den letzten Jahren große Fortschritte gemacht und sich von einer begrenzten Anzahl von Anwendungen zu einem wesentlichen Bestandteil der Systeme entwickelt, die heute unser Leben durchdringen.

"Intelligente" Thermostate, Türklingeln und Sprachassistenten, halbautonome Fahrzeuge, medizinische Überwachungsgeräte mit Vorhersagefunktionen und unzählige andere Anwendungen in vielen Bereichen stützen sich heute auf die KI-Technologie.

Doch KI und ihre spezialisierten Teilbereiche (maschinelles Lernen, Deep Learning und neuromorphes Rechnen) haben eine Achillesferse, die weiteren Fortschritten im Wege steht: einen enormen und wachsenden Energiehunger. Da KI-Computing immer anspruchsvoller wird und die Nutzung insgesamt zunimmt, steigt der Energiebedarf für KI-Berechnungen und den Datentransport rapide an, was zu einer übermäßigen Nutzung von Energieressourcen und einem erheblich größeren globalen CO2-Fußabdruck führt.

Foto Rechenzentrum

Dieser Anstieg des Energieverbrauchs ist nicht tragbar. Nehmen wir nur die Rechenzentren, die intensiv auf KI zurückgreifen. Im Jahr 2017 verbrauchten sie etwa drei Prozent des gesamten Stroms in den USA, aber bis 2020 hat sich dieser Anteil auf sechs Prozent verdoppelt, und ein Ende ist nicht in Sicht. Branchenprognosen besagen, dass Rechenzentren bis 2041 theoretisch die gesamte Energieproduktion der Welt verbrauchen würden, wenn die heutigen ineffizienten Rechenarchitekturen noch im Einsatz wären.

Das Energieproblem der KI ist nicht auf Rechenzentren beschränkt. Auch batteriebetriebene Internet-of-Things-Geräte (IoT) am Netzwerkrand haben insgesamt einen hohen Energiebedarf. Da die KI-Verarbeitung immer mehr in die Randbereiche verlagert wird, müssen die immer ausgefeilteren IoT-Geräte wesentlich effizienter werden, damit ihre Lithium-Ionen-Batterien mehr Funktionen versorgen können, länger halten und/oder physisch kleiner werden können. Dies würde auch dazu beitragen, die wachsenden Mengen an potenziell gefährlichem Li-Ionen-Abfall aus ausrangierten Batterien zu reduzieren.

IoT

GlobalFoundries (GF) hat seine Produkt-Roadmap auf die KI-Energieherausforderung ausgerichtet und eine Reihe technischer Innovationen in seine 12LP/12LP+ FinFET-Lösung (die in Rechenzentren und IoT-Edge-Servern eingesetzt wird) und 22FDX® FD-SOI-Lösung (die am IoT-Edge eingesetzt wird) integriert. Darüber hinaus arbeitet GF mit führenden KI-Forschern zusammen, um neue, effizientere Rechenarchitekturen und Algorithmen zu entwickeln, die neue KI-Horizonte eröffnen.

Ein Paradigmenwechsel für AI

Ein KI-System sammelt große Mengen an strukturierten oder unstrukturierten Daten und verarbeitet sie dann nach einem für eine bestimmte Anwendung geschriebenen Algorithmus. Ziel ist es, relevante Korrelationen und Muster in den Daten zu finden, daraus Schlüsse zu ziehen, Entscheidungen zu treffen und diese so umzusetzen, dass sie den Anforderungen der Anwendung entsprechen. Angesichts der Größe der Datensätze und der Raffinesse der Algorithmen ist eine intensive Computerverarbeitung erforderlich.

Ted Letavic, Ph.D.

"Derzeit laufen die meisten KI-Aufgaben in der Cloud, aber die Datensätze, die in die Algorithmen in der Cloud eingespeist werden, kommen aus der Außenwelt, über eine analoge Schnittstelle wie ein IoT-Gerät am Netzwerkrand", so Ted Letavic, CTO und VP Computing and Wireless Infrastructure (CWI) bei GF. "Das Cloud-basierte KI-Paradigma ist energieineffizient, da es den Transport großer Datenmengen vom Rand des Netzwerks (IoT-Edge) zum Rechenzentrum erfordert, wo die Berechnungen durchgeführt und die Ergebnisse abgeleitet werden, und den anschließenden Transport der Ergebnisse zurück zum Edge-Gerät. Dies ist nicht nur energieineffizient, sondern die mit dem Datentransport verbundene Zeit führt auch zu einer Latenzzeit des Gesamtsystems, die den Einsatz für viele sicherheitskritische KI-Anwendungen ausschließt."

Zunächst wurden für KI und maschinelles Lernen herkömmliche Mehrzweck-Zentraleinheiten (CPUs) verwendet. "Diese waren für den zufälligen Speicherzugriff konzipiert, was angesichts der zunehmenden Notwendigkeit, den Zeit- und Energieaufwand für die Übertragung von Daten zwischen Prozessoren und Speicher zu verringern, problematisch geworden ist", so Letavic. "Wir müssen das Paradigma ändern und die im Speichernetzwerk selbst gespeicherten Daten verarbeiten, ohne sie transportieren zu müssen."

Infolgedessen findet ein grundlegender Wandel bei den Computerarchitekturen statt. Es findet eine "Renaissance des Designs" statt, hin zu domänenspezifischen Rechenarchitekturen, die extrem energieeffizient für KI-Inferenz-(Trainings-)Aufgaben sind und genau definierte Datenfluss- und Rechenpfade beinhalten. Diese optimierten Beschleuniger ähneln Speicherhierarchien, die oft als "digitales Compute-in-Memory" oder "analoges Compute-in-Memory" bezeichnet werden. Diese Beschleuniger führen parallele Operationen durch und sind damit ideal für die Art von Berechnungen, die im Mittelpunkt der KI stehen, und das bei wesentlich geringerer Gesamtleistung, was eine stärkere Nutzung der KI am Netzwerkrand ermöglicht.

4X effizienter Speicher mit GF's 12LP+

Um diesen Veränderungen in der Architektur Rechnung zu tragen, hat GF technologische Verbesserungen vorgenommen und neue Designflüsse ermöglicht.

"Bei praktisch jeder einzelnen von uns untersuchten KI-Arbeitslast schränkten Speicherbandbreite und Speicherzugriffsleistung die Gesamtkapazitäten ein, da eine bestimmte Anzahl von Operationen innerhalb eines festen Energiebudgets stattfinden muss, und der Speicher verbrauchte viel zu viel davon", sagte Letavic. "Wir haben also einige Erkenntnisse aus der Entwicklung unserer 7-nm-Technologie auf unsere 12LP/LP+-Technologie übertragen und die branchenweit ersten 1-GHz-fähigen 0,55-V-SRAM-Speichermakros entwickelt, die bei typischen Arbeitslasten die mit dem Speicherzugriff verbundene Energie um den Faktor vier reduzieren. Diese Lösung zielt auf systolische Array-Prozessoren ab und ist direkt auf KI- und Machine-Learning-Workloads anwendbar."

12LP+

Als nächstes untersuchte GF die Array-Architekturen, so Letavic.

"Wir stellten fest, dass jeder einzelne Kunde eine andere Datenflussarchitektur hatte und es im Grunde keine Möglichkeit gab, ein optimales Design auszuwählen", sagte er. "Um dieses Problem zu lösen, haben wir einen neuartigen Designflow entwickelt, der Logik- und Speicherelemente zusammen synthetisiert, so dass sie mit einem hohen Maß an Flexibilität in unmittelbarer Nähe zueinander aufgebaut werden können. Dieser Entwurfsablauf durchbricht das konventionelle Paradigma der Makrosynthese von Logik und Speicher, und die Vermischung von Logik- und Speicherelementen kann zur Implementierung sehr neuartiger KI-Architekturen genutzt werden."

Die Fortschritte in der GF-Technologie, gepaart mit einem neuen und einzigartigen Design- und Synthesefluss, sind laut Letavic leistungsstarke Werkzeuge für die Implementierung neuer Rechenparadigmen, die das Potenzial der KI weiter erschließen. Wichtige Arbeiten in diesem Bereich finden in Zusammenarbeit mit führenden Forschungseinrichtungen statt.

Dr. Marian Verhelst und die Hochschulverbindung von GF

GF arbeitet mit einigen der weltweit führenden Forscher zusammen, um diese neuartigen Architekturen zu untersuchen und objektive Vorteile und Beweise für sie zu finden, die die Kunden von GF dann zur Entwicklung effizienterer KI-Systeme nutzen können.

Marian Verhelst, Ph.D.

Ein Grossteil dieser Arbeit findet in Zusammenarbeit mit Forschungskonsortien wie imec und mit Universitätsprofessoren im Rahmen des University Partnership Program (UPP) von GF statt. Im Rahmen dieses Programms arbeitet GF eng mit akademischen Forschern weltweit an innovativen Projekten, die die Technologie von GF nutzen.

Einer der führenden akademischen Mitarbeiter von GF ist Dr. Marian Verhelst, Professor an der Universität KU Leuven in Leuven, Belgien, und Forschungsdirektor bei Imec. Dr. Verhelst ist eine der weltweit führenden Expertinnen für hocheffiziente Verarbeitungsarchitekturen. Sie arbeitete zuvor bei Intel Labs in den USA an digital verbesserten Analog- und HF-Schaltungen und kam 2012 an die KU Leuven, wo sie ein Forschungslabor gründete, in dem derzeit 16 Doktoranden und Postdocs arbeiten.

Die Arbeit ihres Labors reicht von langfristigen, von der Europäischen Union finanzierten Großprojekten bis hin zu kurzfristigen Bemühungen, die einen Technologietransfer an eine Vielzahl von Industrieakteuren beinhalten. Sie wurde mit dem belgischen André-Mischke-YAE-Preis ausgezeichnet, mit dem international führende akademische Forschung, Management und evidenzbasierte Politikgestaltung gewürdigt werden.

Als ehemaliges Mitglied der Jungen Akademie Belgiens und der flämischen STEM-Plattform setzt sie sich offen für Wissenschaft und Bildung ein und war bereits in mehreren populären Wissenschaftssendungen im nationalen Fernsehen zu sehen. Im Jahr 2014 gründete sie InnovationLab, das interaktive technische Projekte für Gymnasiallehrer und ihre Schüler entwickelt. Außerdem ist sie Mitglied der IEEE-Initiative "Women in Circuits" und engagiert sich in vielen anderen Bereichen der Interessenvertretung und Bildung.

Entschuldigung, dieses Video erfordert die Zustimmung zu Cookies.

Bitte akzeptieren Sie Marketing-Cookies, um dieses Video anzusehen.

Der DIANA-Chip - ein bedeutender Schritt für die KI

Dr. Verhelst hat die Entwicklung eines hybriden neuronalen Netzwerkchips geleitet, der als weltweit erster Chip nicht nur analoge Compute-in-Memory- und digitale systolische Arrays kombiniert, sondern auch den KI-Algorithmus nahtlos auf diese heterogenen Ressourcen aufteilen kann, um eine optimale Energieleistung, Genauigkeit und Latenzzeit zu erreichen.

Der DIANA (DIgital and ANAlog) genannte Chip wurde auf der 22FDX-Plattform von GF entwickelt und wird in einem Vortrag vorgestellt, der noch in diesem Monat auf der renommierten International Solid State Circuits Conference (ISSCC) 2022 präsentiert wird.

"Maschinelles Lernen boomt, und jeder hat einen Prozessor, der für maschinelles Lernen optimiert ist, aber meist sind sie rein digital konzipiert und rechnen mit Nullen und Einsen, was nicht immer die effizienteste Methode ist", so Verhelst. "Daher untersuchen viele Forscher jetzt die Berechnung im analogen Bereich, sogar innerhalb von SRAM-Speichern, und arbeiten mit Stromakkumulation über SRAM-Zellen statt mit Nullen und Einsen. Das kann sowohl aus energetischer Sicht als auch im Hinblick auf die Chipdichte sehr viel effizienter sein, da man so mehr Rechenleistung pro Quadratmillimeter erbringen kann.

"Es gibt bisher einige hervorragende Ergebnisse, aber nur für bestimmte maschinelle Lernnetzwerke, die zufällig gut zur Form der Erinnerungen passen. Bei anderen laufen die Algorithmen nicht unbedingt effizient", sagte sie. "Der DIANA-Chip enthält einen Host-Prozessor sowie einen digitalen und einen Analog-in-Memory-Coprozessor. Für jede Schicht eines neuronalen Netzes kann er eine bestimmte Schicht an den Inferenzbeschleuniger oder Coprozessor schicken, der am effizientesten arbeitet. Alles läuft parallel und die Zwischendaten werden effizient zwischen den Schichten geteilt.

Um dies zu erreichen, hat Verhelsts Team fortschrittliche Scheduler und Mapper entwickelt, die die Hardwareeigenschaften eines Chips analysieren, um entweder die energie- oder latenzoptimale "Rechenreihenfolge" zu ermitteln oder zu bestimmen, wie ein bestimmter Algorithmus auf dem Chip ausgeführt werden soll.

"Es gibt viele Möglichkeiten, einen Algorithmus auszuführen, je nachdem, wie viel Arbeitsspeicher zur Verfügung steht, welche Eigenschaften der Algorithmus hat, wie viele Rechenelemente in der Recheneinheit vorhanden sind und so weiter", sagte sie. "Deshalb haben wir Tools entwickelt, in die man die Hardwareeigenschaften eingeben kann und die helfen, die optimale Lösung für die Arbeitslast zu finden."

Eine kontinuierliche Zusammenarbeit

Chips

Der DIANA-Chip ist das jüngste Ergebnis von Verhelsts Zusammenarbeit mit GF, die vor etwa fünf Jahren begann, als GF einem ihrer Doktoranden die Möglichkeit bot, einen Videoverarbeitungschip auf Basis der 22FDX-Technologie zu entwickeln, der Hunderte von Operationen effizient parallel ausführen kann.

Anschließend arbeitete Verhelst mit der 12 LP+ Technologie von GF an der Entwicklung eines Deep-Learning-Chips für eine sehr dichte Compute Fabric mit mehr als 2.000 Multiplikatoren auf dem Chip und einem großen SRAM-Inhalt. Ein weiteres Projekt, das sich in der Anfangsphase befindet, nutzt die 22FDX-Plattform von GF, um einen Chip für maschinelles Lernen mit hohem Leistungsbedarf zu entwickeln, der sich auf einen extrem stromsparenden Betrieb für das Internet der Dinge (IoT), die Maschinenüberwachung oder andere Sensorknoten konzentriert, die mit nur wenigen Milliwatt Leistung auskommen müssen.

Der Zugang zu Silizium und die technische Partnerschaft, die GF bietet, seien von unschätzbarem Wert, sagt sie. "Die Herstellung von funktionsfähigem Silizium kann sehr kostspielig sein, vor allem bei digitalen Prozessoren, die physisch sehr groß sind. Die Zusammenarbeit mit GF bietet uns sowohl eine niedrigere Hürde für den Zugang zu Silizium als auch Zugang zu den neuesten relevanten IPs", sagte sie.

"GF steht uns auch mit Rat und Tat zur Seite, wenn es darum geht, das manchmal schwierige physikalische Design zu schließen, was bei diesen fortschrittlichen Technologien nicht mehr unbedingt trivial ist. Es gibt so viele Dinge, die man im Backend berücksichtigen muss, dass die Erfahrung von GF in der Fertigung uns wirklich hilft, wenn wir versuchen, Dinge wie schnelle IOs, gute Oszillatoren, optimales Power Gating und so weiter sicherzustellen.

Blick in die Zukunft

Auf die Frage, was GF als Nächstes im Hinblick auf energieeffizientere KI vorhat, erwähnte Letavic die Arbeit des Unternehmens an der integrierten Spannungsregelung für den Compute-Die selbst sowie die Silizium-Photonik für noch höhere Transport- und Recheneffizienz.

"Eine verbesserte Stromversorgung ist eine Möglichkeit, die fehlende Leistungsskalierung bei kleineren Knoten zu kompensieren, die zu einer echten Einschränkung auf Systemebene geworden ist", sagte er. "Eine der wichtigsten Möglichkeiten, die Gesamtleistung der Anwendung zu senken, besteht darin, die Strom- und Spannungsversorgung des Prozessorkerns effizienter zu gestalten. Wir untersuchen verschiedene Optionen, und angesichts unserer langjährigen Erfahrung mit bipolaren CMOS- und DMOS-Leistungsbauelementen könnte dies für GF eine sehr große Chance sein."

Letavic erwähnte auch, dass die photonische Beschleunigung, d. h. die Verwendung von Licht (Photonen) anstelle von Elektrizität (Elektronen) nicht nur zur Übertragung von Signalen über Glasfaserkabel, sondern auch für die Datenverarbeitung selbst, in der KI eine wichtige Rolle spielen könnte. "Ich würde sagen, dass sich dies viel schneller entwickelt, als ich erwartet hatte. Und es ist ein weiterer Bereich, in dem wir einige wirklich solide Universitätsengagements haben."

Informieren Sie sich über weitere Forschungsarbeiten, die im Rahmen des Partnerschaftsprogramms von GF mit Universitäten durchgeführt werden: