AMD EHP: Exascale-APU mit 24.576 Shadern als Vorbote des Vega-Nachfolgers Navi?

10
News Mark Mantel Als bevorzugte Quelle auf Google hinzufügen
AMDs Konzept einer Exascale-APU
Quelle: computermachines.org

AMD hat eine wissenschaftliche Arbeit veröffentlicht, in der ein APU-Konzept für Exascale-Computing vorgestellt wird. Eingesetzte Technologien erinnern stark an Zen, Vega und Navi. Ein sogenannter Exascale Heterogeneous Processor (EHP) besteht aus mehreren Chiplets mit insgesamt 32 CPU-Kernen, bis zu 24.576 Shader-Einheiten und 256 GiByte High-Bandwidth Memory.

Aktuell backt AMD noch mit recht kleinen Brötchen, was High-Performance-APUs angeht. Die Gerüchteküche spricht schon seit einiger Zeit von einem HPC-Modell, das ein Zeppelin-Die (acht Zen-Kerne) mit einer Greenland- beziehungsweise Vega-10-GPU (vermutlich 64 Compute Units mit 4.096 Shadern) und zwei HBM-Stacks vereint. Größer geht es bei einem Konzept eines Exascale Heterogeneous Processors, kurz EHP, zu, das AMD selbst in einer wissenschaftlichen Arbeit behandelt. Entsprechende HSA-Designs werden bereits simuliert und könnten (!) in einigen Jahren als Grundlage für tatsächliche Produkte dienen.

Verschiedene Konfigurationen für unterschiedliche Anwendungsgebiete Quelle: computermachines.org Verschiedene Konfigurationen für unterschiedliche Anwendungsgebiete Ein EHP besteht aus mehreren "Chiplets" - quasi Chips, bei denen bestimmte Teile fehlen, ohne die ein einzelnes Chiplet nicht lauffähig wäre. Ein CPU-Chiplet kommt beispielsweise ohne Speicher-Interfaces und I/O-Schnittstellen aus. Ein EHP soll aus insgesamt 16 Chiplets bestehen. Acht mittig platzierte CPU-Chiplets teilen sich auf zwei aktive Interposer auf und stellen je vier Rechenkerne bereit - wahrscheinlich handelt es sich um Zen-CCX (CPU Complexes) mit ingesamt 32 Kernen und 64 Threads. Links und rechts sitzen je vier GPU-Chiplets, von denen sich je zwei einen aktiven Interposer teilen. Ein GPU-Chiplet sollte ursprünglich aus 32 Compute Units bestehen, was bei aktueller Rechnung 16.384 Shader ergäbe. Spätere Simulationen kamen auf 48 CUs pro GPU-Chiplet, was insgesamt 384 CUs und 24.576 Shader ergäbe. Um Strom zu sparen, werden die Taktraten mit 700 MHz niedrig angesetzt. DiAuf den GPUs sitzt 3D-gestapelt je ein HBM-Stack "einer nächsten Generation" mit acht Speicherlagen zu je 32 Gigabit Kapazität - macht pro EPU 256 GiByte High-Bandwidth Memory. Da der Speicher direkt auf den GPU-Chiplets sitzt, sollen Übertragungsraten von bis zu 5 TB/s erreicht werden (625 GB/s pro Stack). Aktiv genutzte CUs und Taktraten sollen sich aber dynamisch konfigurieren lassen, um die anwendungsspezifisch bestmöglichen Spezifikationen innerhalb eines Watt-Budgets zu erreichen.
Simulierte Hitzeentwicklung verschiedener Konfigurationen Quelle: computermachines.org Simulierte Hitzeentwicklung verschiedener Konfigurationen Die insgesamt sechs aktiven Silizium-Interposer kommunizieren über "moderne Package-Technologien" miteinander. Während AMD im GPU-Bereich auf passive Silizium-Interposer setzt, erlauben aktive zum Beispiel die Integration von Speicher-Controllern (hier sollen acht pro EHP eingesetzt werden). Die Aufteilung von Prozessoren und GPUs in viele kleine Chips gilt als heiliger Gral im Halbleiterbereich. Die Idee bietet viele Vorteile: Yield-Raten mit funktionierenden Chips werden erhöht, das Produkt kann breiter gebaut werden, die einzelnen Teile können in optimierten Prozessen gefertigt werden (CPUs mit Auslegung auf hohe Taktraten, GPUs mit Fokus auf Packdichte). Problematisch ist jedoch vor allem die Kommunikation zwischen mehreren Chips. Laut AMD soll die hiesige simulierte Umsetzung durch die Kommunikation über Interposer und Package im Worst-Case nur 13 Prozent an Performance gegenüber einer Einzel-Chip-Lösung verlieren. 3D-Stacking mit HBM auf einer GPU gibt es noch nicht wegen Hitzeproblemen - hier ist das Design so breit und niedrig taktend ausgelegt, dass keine Probleme entstehen sollen. Um die Design-Ziele zu erreichen, soll ein EHP 10 TFLOPS bei 200 Watt Verlustleistung erreichen. Zu beachten gilt, dass CPUs deutlich weniger FLOPS pro Watt erreichen und in der Prognose schon 1 TiByte Off-Package-DDR-RAM enthalten sind.

Klar ist, dass AMD seine GPU-Architekturen explizit auf solche Designs auslegt: Die 256 GiByte HBM sollen als Cache genutzt werden können, was der High-Bandwidth Cache Controller von Vega ermöglicht. Modularität und Skalierbarkeit sind Kernpunkte des Vega-Nachfolgers Navi, der zugleich auch mit "Next-Gen-Speicher" erscheinen soll. Bei den CPUs hätten sich Vier-Kern-Chiplets als Optimum für Performance und Flächenbedarf erwiesen - Stichwort Zen-CCX.

10
    • Kommentare (10)

      Zur Diskussion im Forum
      • Von MaW85 Software-Overclocker(in)
        Einfach nur Geil, mal sehn ob es mal so etwas kommt.

        Ach die Idee den HBM Speicher auf die GPU zu bauen auch geil.
        Wenn die GPU so weit optimiert wird, wird diese bei niedrigem Takt kaum wärmer als der HBM Speicher.
        Optimal für die übernächsten Spielekonsolen im Handyformat. XD
      • Von MaW85 Software-Overclocker(in)
        Einfach nur Geil, mal sehn ob es mal so etwas kommt.

        Ach die Idee den HBM Speicher auf die GPU zu bauen auch geil.
        Wenn die GPU so weit optimiert wird, wird diese bei niedrigem Takt kaum wärmer als der HBM Speicher.
        Optimal für die übernächsten Spielekonsolen im Handyformat. XD
      • Von DKK007 Trockeneisprofi (m/w)
        Zitat von cesimbra
        Beim Supercomputing ist oft der Stromverbrauch relevant, und da GPUs Zahlenfresser sind und der Datentransport vom/zum Speicher über Busse einen ganz erheblichen Anteil am Energieverbrauch des Gesamtsystems erreichen kann, könnte es die günstigere Lösung sein, den Speicher unter diesem Gesichtspunkt zu positionieren.
        Ging ja eher um die Kühlung und die GPUs sollten deutlich heißer werden, als der Speicher.
      • Von IngenieursLP PC-Selbstbauer(in)
        Zitat von DKK007
        Fiji hat 4069.
        Ich glaube da hat sich jemand vertippt
        Außerdem wird der Vega10 Chip auch wohl 4096 Shadereinheiten besitzen
      • Von cesimbra Freizeitschrauber(in)
        Zitat von DKK007
        Sicher, das man sich bei den Shadern nicht in ner Kommastelle vertan hat? Aktuelle APUs haben ja nur knapp 800 Shader und Fiji hat 4069.

        Was mich etwas verwundert, das man die HBM-Stacks auf die GPU packt und nicht anders herum. Denn irgendwie muss die GPU ja gekühlt werden und würde in dem Fall erst den Speicher erhitzen.
        Edith:
        Schau dir mal die Zeichnung genau an: Das sind acht GPU-Chiplets a 3072 Shader, wenn ich das richtig sehe.

        [Ins Forum, um diesen Inhalt zu sehen]

        Zum HBM:
        /Edith

        Beim Supercomputing ist oft der Stromverbrauch relevant, und da GPUs Zahlenfresser sind und der Datentransport vom/zum Speicher über Busse einen ganz erheblichen Anteil am Energieverbrauch des Gesamtsystems erreichen kann, könnte es die günstigere Lösung sein, den Speicher unter diesem Gesichtspunkt zu positionieren.
      • Von DKK007 Trockeneisprofi (m/w)
        Sicher, das man sich bei den Shadern nicht in ner Kommastelle vertan hat? Aktuelle APUs haben ja nur knapp 800 Shader und Fiji hat 4096.

        Was mich etwas verwundert, das man die HBM-Stacks auf die GPU packt und nicht anders herum. Denn irgendwie muss die GPU ja gekühlt werden und würde in dem Fall erst den Speicher erhitzen.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 07/2026 play5 07/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk