AMD EHP: Exascale-APU mit 24.576 Shadern als Vorbote des Vega-Nachfolgers Navi?
AMD hat eine wissenschaftliche Arbeit veröffentlicht, in der ein APU-Konzept für Exascale-Computing vorgestellt wird. Eingesetzte Technologien erinnern stark an Zen, Vega und Navi. Ein sogenannter Exascale Heterogeneous Processor (EHP) besteht aus mehreren Chiplets mit insgesamt 32 CPU-Kernen, bis zu 24.576 Shader-Einheiten und 256 GiByte High-Bandwidth Memory.
Aktuell backt AMD noch mit recht kleinen Brötchen, was High-Performance-APUs angeht. Die Gerüchteküche spricht schon seit einiger Zeit von einem HPC-Modell, das ein Zeppelin-Die (acht Zen-Kerne) mit einer Greenland- beziehungsweise Vega-10-GPU (vermutlich 64 Compute Units mit 4.096 Shadern) und zwei HBM-Stacks vereint. Größer geht es bei einem Konzept eines Exascale Heterogeneous Processors, kurz EHP, zu, das AMD selbst in einer wissenschaftlichen Arbeit behandelt. Entsprechende HSA-Designs werden bereits simuliert und könnten (!) in einigen Jahren als Grundlage für tatsächliche Produkte dienen.
Quelle: computermachines.org
Verschiedene Konfigurationen für unterschiedliche Anwendungsgebiete
Ein EHP besteht aus mehreren "Chiplets" - quasi Chips, bei denen bestimmte Teile fehlen, ohne die ein einzelnes Chiplet nicht lauffähig wäre. Ein CPU-Chiplet kommt beispielsweise ohne Speicher-Interfaces und I/O-Schnittstellen aus. Ein EHP soll aus insgesamt 16 Chiplets bestehen. Acht mittig platzierte CPU-Chiplets teilen sich auf zwei aktive Interposer auf und stellen je vier Rechenkerne bereit - wahrscheinlich handelt es sich um Zen-CCX (CPU Complexes) mit ingesamt 32 Kernen und 64 Threads. Links und rechts sitzen je vier GPU-Chiplets, von denen sich je zwei einen aktiven Interposer teilen. Ein GPU-Chiplet sollte ursprünglich aus 32 Compute Units bestehen, was bei aktueller Rechnung 16.384 Shader ergäbe. Spätere Simulationen kamen auf 48 CUs pro GPU-Chiplet, was insgesamt 384 CUs und 24.576 Shader ergäbe. Um Strom zu sparen, werden die Taktraten mit 700 MHz niedrig angesetzt. DiAuf den GPUs sitzt 3D-gestapelt je ein HBM-Stack "einer nächsten Generation" mit acht Speicherlagen zu je 32 Gigabit Kapazität - macht pro EPU 256 GiByte High-Bandwidth Memory. Da der Speicher direkt auf den GPU-Chiplets sitzt, sollen Übertragungsraten von bis zu 5 TB/s erreicht werden (625 GB/s pro Stack). Aktiv genutzte CUs und Taktraten sollen sich aber dynamisch konfigurieren lassen, um die anwendungsspezifisch bestmöglichen Spezifikationen innerhalb eines Watt-Budgets zu erreichen.
Quelle: computermachines.org
Simulierte Hitzeentwicklung verschiedener Konfigurationen
Die insgesamt sechs aktiven Silizium-Interposer kommunizieren über "moderne Package-Technologien" miteinander. Während AMD im GPU-Bereich auf passive Silizium-Interposer setzt, erlauben aktive zum Beispiel die Integration von Speicher-Controllern (hier sollen acht pro EHP eingesetzt werden). Die Aufteilung von Prozessoren und GPUs in viele kleine Chips gilt als heiliger Gral im Halbleiterbereich. Die Idee bietet viele Vorteile: Yield-Raten mit funktionierenden Chips werden erhöht, das Produkt kann breiter gebaut werden, die einzelnen Teile können in optimierten Prozessen gefertigt werden (CPUs mit Auslegung auf hohe Taktraten, GPUs mit Fokus auf Packdichte). Problematisch ist jedoch vor allem die Kommunikation zwischen mehreren Chips. Laut AMD soll die hiesige simulierte Umsetzung durch die Kommunikation über Interposer und Package im Worst-Case nur 13 Prozent an Performance gegenüber einer Einzel-Chip-Lösung verlieren. 3D-Stacking mit HBM auf einer GPU gibt es noch nicht wegen Hitzeproblemen - hier ist das Design so breit und niedrig taktend ausgelegt, dass keine Probleme entstehen sollen. Um die Design-Ziele zu erreichen, soll ein EHP 10 TFLOPS bei 200 Watt Verlustleistung erreichen. Zu beachten gilt, dass CPUs deutlich weniger FLOPS pro Watt erreichen und in der Prognose schon 1 TiByte Off-Package-DDR-RAM enthalten sind.
Klar ist, dass AMD seine GPU-Architekturen explizit auf solche Designs auslegt: Die 256 GiByte HBM sollen als Cache genutzt werden können, was der High-Bandwidth Cache Controller von Vega ermöglicht. Modularität und Skalierbarkeit sind Kernpunkte des Vega-Nachfolgers Navi, der zugleich auch mit "Next-Gen-Speicher" erscheinen soll. Bei den CPUs hätten sich Vier-Kern-Chiplets als Optimum für Performance und Flächenbedarf erwiesen - Stichwort Zen-CCX.
Ach die Idee den HBM Speicher auf die GPU zu bauen auch geil.
Wenn die GPU so weit optimiert wird, wird diese bei niedrigem Takt kaum wärmer als der HBM Speicher.
Optimal für die übernächsten Spielekonsolen im Handyformat. XD
Außerdem wird der Vega10 Chip auch wohl 4096 Shadereinheiten besitzen
Was mich etwas verwundert, das man die HBM-Stacks auf die GPU packt und nicht anders herum. Denn irgendwie muss die GPU ja gekühlt werden und würde in dem Fall erst den Speicher erhitzen.
Schau dir mal die Zeichnung genau an: Das sind acht GPU-Chiplets a 3072 Shader, wenn ich das richtig sehe.
[Ins Forum, um diesen Inhalt zu sehen]
Zum HBM:
/Edith
Beim Supercomputing ist oft der Stromverbrauch relevant, und da GPUs Zahlenfresser sind und der Datentransport vom/zum Speicher über Busse einen ganz erheblichen Anteil am Energieverbrauch des Gesamtsystems erreichen kann, könnte es die günstigere Lösung sein, den Speicher unter diesem Gesichtspunkt zu positionieren.
Was mich etwas verwundert, das man die HBM-Stacks auf die GPU packt und nicht anders herum. Denn irgendwie muss die GPU ja gekühlt werden und würde in dem Fall erst den Speicher erhitzen.