Die Herausforderung und Chance der Leistungsreduzierung bei KI-Prozessoren

Von David Lammers

"Beim Edge geht es darum, möglichst wenig Strom zu verbrauchen und gleichzeitig die erforderliche Leistung zu optimieren."

Angesichts der neuen Realität, dass Branchenveranstaltungen während der Pandemie virtuell stattfinden, konnte ich mich in diesem Jahr bei einem halben Dutzend Halbleiterkonferenzen anmelden. Ein immer wiederkehrendes Thema war Silizium für künstliche Intelligenz (KI) und Deep Learning (DL), ein sich entwickelnder Bereich, der sich über ein breites Spektrum von Technologien und Gerätetypen erstreckt. Eine gemeinsame Ader, die sich durch alle Konferenzen zog, war der Schwerpunkt auf der Speicheroptimierung und der Lösung des Engpasses zwischen Leistung und Speicher.

KI ist ein heißer Markt. ABI Research schätzt, dass der Gesamtmarkt für KI-Silizium bis 2024 ein Volumen von 21 Milliarden US-Dollar erreichen wird. Ein überraschend großer Teil davon entfällt auf ASIC-basierte KI-Beschleuniger, deren Wert sich bis 2024 mit einer jährlichen Wachstumsrate von 30 Prozent auf 9 Milliarden US-Dollar verdreifachen soll.

Sowohl für das Training als auch für die Inferenzverarbeitung suchen die Unternehmen nach stromsparenden Lösungen. Obwohl das maschinelle Lernen nur einen Teil des Gesamtstromverbrauchs von Rechenzentren ausmacht, nimmt es rasch zu. Rechenzentren verbrauchten 2017 etwa 3 Prozent des gesamten Stroms in den Vereinigten Staaten, und dieser Anteil wird sich bis 2020 auf 6 Prozent verdoppeln. Die Verbreitung von intelligenten Edge-Geräten nimmt ebenfalls zu. Nach Angaben des Marktforschungsunternehmens IDC werden in den nächsten zehn Jahren 125 Milliarden "Dinge" mit dem Internet verbunden sein, und bis dahin werden jährlich fast 60 Zettabyte an Daten erstellt, erfasst, kopiert und verbraucht werden.

Es ist klar, dass unsere Branche vor einer großen Herausforderung steht: Wie kann man viele intelligente Geräte am Rande des Netzes implementieren, alle Daten am Rande des Netzes mit sehr geringem Stromverbrauch ableiten und exponentiell wachsende Daten in der Cloud verwalten, verarbeiten und trainieren und dabei den Energieverbrauch unter Kontrolle halten?

AI-Referenzpaket entwickelt sich weiter

Hiren Majmudar, Vice President der Computing Business Unit bei GLOBALFOUNDRIES, sagte: "Es gibt einen Leistungsengpass sowohl bei der Inferenz als auch beim Training", der sich gut in das Technologieangebot von GF einfügt, sowohl in die FinFET-basierte 12LP-Plattform (12nm FinFET) und die 12LP+-Lösungen als auch in die vollständig verarmte SOI-basierte planare 22FDXTM-Plattform(22nm FD-SOI).

Die FinFET-basierte Technologie bietet Leistungs- und Kostenvorteile für KI-Prozessoren, entweder in der Cloud oder am Edge. Die 12LP+-Lösung ist in der Lage, KI-Kerne mit mehr als 1 GHz zu betreiben, und verfügt über einen neuen Low-Voltage-SRAM und eine Standardzellenbibliothek, die mit 0,55 V betrieben werden kann. 12LP+, die fortschrittlichste FinFET-Lösung von GF, ging dieses Jahr in Produktion und verfügt über einen Dual-Work-FET, der im Vergleich zur 12LP-Basisplattform eine bis zu 20 Prozent schnellere Logikleistung oder einen bis zu 40 Prozent niedrigeren Stromverbrauch bietet. 

Hiren Majmudar

"Unsere Kunden haben einzigartige Architekturen, die oft von einer begrenzten Anzahl von Standardzellen abhängen", sagte er. "Wir haben hart an unserer DTCO (Design Technology Co-Optimization) gearbeitet und ein AI-Referenzpaket mit einem vorgefertigten Satz von Komponenten entwickelt, um das Potenzial zu demonstrieren. Durch ein gemeinsames DTCO-Modell können unsere Kunden ihre SoC-Ziele schnell auf den Markt bringen. Der DTCO-Aufwand kann Design-Analysen umfassen, die auf der eigenen Architektur des Kunden basieren, um Leistung, Stromverbrauch und Fläche zu optimieren."

Die optimale PPA hängt von der jeweiligen Anwendung ab, so Majmudar. 

"Alle Segmente sind kostenbewusst. Für die Cloud geht es um TOPS pro Watt, um die beste Leistung bei geringstem Stromverbrauch. Für den Edge-Bereich geht es um die niedrigsten Kosten und den geringsten Stromverbrauch bei gleichzeitiger Optimierung für die erforderliche Leistung am Edge", sagte er.

Das eMRAM-Angebot für 22FDX bietet Vorteile für Kunden, die KI-Anwendungen entwickeln, "die sofort oder immer einsatzbereit sein sollen", so Majmudar. "Es gibt viele Anwendungen für eMRAM, wobei die Kunden es für eine bessere Dichte und Nicht-Flüchtigkeit nutzen. Eine andere ist die analoge Berechnung im Speicher", fügte er hinzu.

KI-Workloads sind breit gefächert und umfassen neben den Anforderungen für Training und Inferenz auch Sprache, Bildverarbeitung und Bildgebung. "Wir sind ein sehr spezialisiertes Unternehmen foundry, das sein IP-Angebot ständig erneuert. Wir investieren weiterhin in IP, Die-to-Die-Interconnect, Speicher und Schnittstellen-IP. Wir haben eine klar definierte Roadmap, die wir mit Hilfe der Anregungen unserer Kunden ständig verbessern", sagte er.

Innovative Startups

In zukünftigen Blogs werde ich detailliert darauf eingehen, wie GF mit Start-ups in diesem Bereich zusammenarbeitet, aber eines von ihnen verdient es, hier kurz erwähnt zu werden, um einen Eindruck davon zu vermitteln, wie viel Innovation bei den Kunden von GF im Bereich KI-Silizium im Gange ist.

Vollständig verarmte Silizium-auf-Isolator-Plattformen sind gut geeignet, um dynamische Spannungs- und Frequenzskalierung sowie automatische Taktsteuerung zu unterstützen. Das Ergebnis ist ein extrem niedriger Stromverbrauch für Signalverarbeitungs- und neuronale Netzwerkalgorithmen, die in batteriebetriebenen IoT-Geräten laufen können.

Perceive, eine Tochtergesellschaft der Xperi Corp. mit Mehrheitsbeteiligung, zielt auf die KI-Inferenz für Sensordaten in Verbrauchergeräten mit extrem niedrigem Stromverbrauch ab. Der "Ergo"-Prozessor von Perceive ist in der Lage, große neuronale Netze auf dem Gerät mit einer Effizienz zu verarbeiten, die 20 bis 100 Mal höher ist als bei den heutigen inferenzfähigen Prozessoren.

Das Unternehmen konzentriert sich auf Sicherheitskameras, intelligente Geräte und mobile Geräte mit integrierter neuronaler Netzwerkverarbeitung, wodurch die Notwendigkeit entfällt, Daten zur Inferenzverarbeitung in die Cloud zu senden.

Sehen Sie sich das kurze Video unten an, in dem Steve Teig, CEO von Perceive, mit Mike Hogan, SVP von GF, über den Ansatz von Perceive im Bereich KI und maschinelles Lernen spricht: