Nvidia GA100 (Ampere): Die Spezifikationen des Next-Gen-Rechenmonsters [Update]

Jetzt aktualisiert: Nvidia hat seine nächste GPU-Generation Ampere in Form des A100 mit technischen Details vorgestellt. Wie erwartet ist der Volta-Nachfolger in fast jeder Disziplin ein Gigant. PCGH fasst zusammen, welche Eckdaten bisher bekannt sind. Und ob man darauf Rückschlüsse ziehen kann, wie die Geforce-Varianten von Ampere aussehen könnten.

154
Special Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen
Nvidia GA100 (Ampere): Die Spezifikationen des Next-Gen-Rechenmonsters
Quelle: Nvidia

Aktualisierung vom 15. Mai

Mittlerweile ist nicht nur das Blockdiagramm des Ampere GA100 verfügbar, sondern auch das Innenleben des Shader-Multiprozessors. Nvidia erläutert die Architektur in seinem Developer Blog. Wir haben diesen Artikel entsprechend aktualisiert. Die interessanteste Information betrifft das Raytracing: GA100 beherbergt keinerlei RT-Cores. Diese fehlen folglich bewusst im schematischen SM-Aufbau. Realtime-Raytracing ist - wie beim Volta GV100 - zwar dennoch möglich, allerdings nicht mit maximaler Leistung. Diesen Missstand aus Spielersicht werden die Gaming-Amperes richten, welche zu einem späteren Zeitpunkt präsentiert werden.

Falls es weitere Neuigkeiten gibt, erfahren Sie es selbstverständlich zeitnah bei uns. Man munkelt, dass es in Kürze weitere Informationen seitens Nvidia im Rahmen eines Technik-Tauchgangs (Deep Dive) geben wird.


Original-Artikel vom 14. Mai

Die Gerüchteküche sollte Recht behalten: Nvidias neueste GPU-Generation hört auf den Codenamen Ampere und wird in 7 Nanometer Strukturbreite bei der Foundry TSMC gefertigt. Der neue Chip ist erwartungsgemäß ein wahres Rechenmonster und bringt stattliche 54 Milliarden Schaltungen auf 826 mm² Kernfläche unter. PCGH fasst die bisher bekannten Informationen zusammen.

Der GA100 für HPC-Systeme ist abgespeckt

Wie bereits der Volta GV100 startet auch Ampere als Produkt für Datenzentren, welche traditionell schier unendliche Mengen an Rechenleistung benötigen. Hier muss direkt zwischen Prozessor und Produkt unterschieden werden: Die GPU hört auf den Namen GA100, die HPC-Lösung jedoch auf die Bezeichnung A100. Egal, welches Datenformat, der Ampere GA100 bringt eine Reihe an Neuerungen mit, um seinen Vorgänger teilweise um den Faktor 20 zu schlagen. Erreicht wird dies vor allem durch die Verbesserung der spezialisierten Tensorkerne, welche bei entsprechender Programmierung um Größenordnungen schneller arbeiten als die auch bei Spielen herangezogenen FP-ALUs (Stream-Prozessoren). Wir haben die bisher bekannten Informationen zum A100 für HPC-Systeme zusammengefasst und den Vorgängern sowie Gaming-Geforces gegenübergestellt.

Modell Tesla A100 (SXM) Tesla V100 (SXM) Tesla P100 (SXM) Titan RTX (PCIe) Titan V (PCIe) Titan Xp (PCIe)
GPU Ampere GA100 Volta GV100 Pascal GP100 Turing TU102-400 Volta GV100 Pascal GP102-400
Fertigung 7 nm TSMC (N7) 12 nm TSMC 16 nm TSMC 12 nm TSMC 12 nm TSMC 16 nm TSMC
Chipgröße (reiner Die) 826 mm² 815 mm² 610 mm² 754 mm² 815 mm² 471 mm²
Transistoren Grafikchip (Mio.) 54.200 21.100 15.300 18.600 21.100 12.000
FP32-ALUs-/SIMDs/TMUs 6.912/108/432 5.120/80/320 3.584/56/224 4.608/72/288 5.120/80/320 3.840/30/240
Dedizierte INT32-Einheiten 6.912 5.120 - 4.608 5.120 -
Tensor Cores (TC) 432 640 - 576 640 -
Raytracing Cores (RT) - - - 72 - -
Raster-Endstufen (ROPs) Unbekannt Unbekannt 96 96 96 96
GPU-Basistakt (MHz) Unbekannt Unbekannt 1.328 1.350 1.200 1.480
GPU-Boost-Takt (MHz) 1.410 1.530 1.480 1.770 1.455 1.582
Rechenleistung INT8 (TOPS)* 624 125 21,2 261 119 12,2
Rechenleistung FP16 (TFLOPS)* 312 170 21,2 32,6 161 12,2
Rechenleistung FP32 (TFLOPS) 19,5 15,7 10,6 16,3 14,9 12,2
Rechenleistung FP64 (TFLOPS)* 19,5 7,45 5,30 0,51 7,45 0,38
Speicheranbindung (Bit) 5.120 4.096 4.096 384 3.072 384
Speicherstandard HBM gen2 HBM gen2 HBM gen2 GDDR6 HBM gen2 GDDR5X
Geschw. Grafikspeicher (GT/s) 2,45 1,75 1,45 14,0 1,70 11,4
Übliche Speichermenge (GiB) 40 32 16 24 12 12
Speicherübertragung (GB/s) 1.550 900 732 672 653 548
TDP (Watt) 400 300 300 280 250 250
PCI-Express-Standard 4.0 3.0 3.0 3.0 3.0 3.0
Stromanschlüsse - - - 2 × 8-polig je 1 × 6-/8-polig je 1 × 6-/8-polig

*Durchsatzwerte bei Berechnung über die Tensorkerne, welche um Faktoren schneller arbeiten als die FP-ALUs. Angaben ohne "Sparsity".

GA100 beherbergt 128 SMs (Update)

Die HPC-Lösung Tesla A100, welche Nvidia explizit "Tensor Core GPU" nennt, schöpft die Möglichkeiten des GA100 nicht ansatzweise aus, vermutlich aufgrund einer noch nicht vollständig ausgereiften Fertigung. Insgesamt beherbergt der GA100 satte 128 Shader-Multiprozessoren mit insgesamt 8.192 Stream-Prozessoren (FP32-ALUs), im A100 sind folglich 20 SMs bzw. 1.280 SPs deaktiviert.

Mittlerweile hat Nvidia auch das Basismodul eines jeden Grafikchips, den Shader-Multiprocessor (SM), grafisch visualisiert. Dabei bestätigt sich eine Vermutung: GA100 beherbergt keinerlei Raytracing-Kerne, welche die Strahlenverfolgung im virtuellen Raum übernehmen. Dafür ist ein SMA (Shader Multiprocessor Ampere) vollgestopft mit Arithmetisch-Logischen Einheiten. Wie erwartet stecken 64 FP32-ALUs, 64 INT32-ALUs sowie 32 FP64-ALUs in jedem SM. Flächenmäßig, so suggeriert es die Grafik, wird jedoch alles von einem "Uber Tensor Core" überschattet - angesichts der Auslegung des A100 als HPC-Beschleuniger ist das nicht verwunderlich.

Bevor Missverständnisse aufkommen: Auch wenn der GA100 als SXM-Lösung ohne Display-Ausgänge startet, handelt es sich doch um einen vollwertigen Grafikchip. Dies ist unter anderem daran ersichtlich, dass jeder SM wie gehabt über eine Quad-TMU für Texturoperationen verfügt. Das ist ein wichtiger Punkt, denn es gibt durchaus Bestrebungen, als Platzgründen althergebrachte Einheiten wie TMUs zu Gunsten anderer Rechenwerke wegzulassen. AMDs durch das Netz geisterndem HPC-Monster "Arcturus" wird genau das nachgesagt.

GA100: Einzelner SM und komplett - per Mausklick auswählen
GA100-Blockdiagramm
GA100-Blockdiagramm GA100 SM mit "Uber Tensor Core"

40 bis 48 GiByte Speicher

Der HPC-Beschleuniger A100 verfügt laut Nvidia über 40 GiByte High Bandwidth Memory zweiter Generation (HBM gen2), angebunden an ein 5.120-Bit-Interface. Aufmerksame Beobachter stellen fest, dass das nicht zum Bild passt, das eindeutig sechs HBM-Stapel zeigt, welche 6 × 1.024 = 6.144 Bit suggerieren. Derzeit ist unbekannt, ob es sich beim sechsten Stack um einen Dummy handelt und warum Nvidia diesen Schritt geht. Aus den fünf HBM-Stapeln ergibt sich eine Transferrate von rund 1,55 Terabyte pro Sekunde - 50 Prozent mehr als beim bisherigen Spitzenreiter Vega 20. Die Taktraten werden nicht genannt, rechnerisch arbeiten die HBM-Stacks jedoch mit circa 2,45 GT/s. Theoretisch und bei zukünftigen Produkten mit vollständig aktivem GA100 stehen bei gleichem Takt 1,9 TByte/s sowie 48 GiByte Kapazität bereit.

Flexible Tensor Cores 3.0

Ampere bringt die dritte Generation der Tensor-Kerne mit, welche TF32 (Tensor Float) unterstützen. Einfach ausgedrückt soll hier ohne zu großen Performance-Verlusten bei den bevorzugten FP16-KI-Berechnungen die Genauigkeit erhöht werden. Und das auch ohne eine Änderung der gewohnten Vorgehensweise. Nvidia erreicht das mit einem 10-Bit-Mantissa (dekadischer Logarithmus) und einem 8-Bit-Exponenten. Außerdem beherrschen die Tensor-Kerne nun auch FP64-Genauigkeit, was die Leistung im HPC-Bereich verdoppeln kann. Das Thema für KI-Berechnungen wird dann wohl auch in die RTX-Karten für Spieler durchschlagen, wo die Tensor-Kerne schon bei Turing vorhanden sind und mit denen unter anderem DLSS realisiert wird. Ob die höhere Leistung bei doppelter Präzision auch für Spieler kommt und da auch was bringt, werden wir sehen. Weitere Neuerungen sind Multi-Instance GPU (MIG), das mehrere Anwendungen gleichzeitig auf einer GPU erlaubt, und Sparsity, ein Phänomen aus neuralen Netzwerken.

Gaming-Ampere: Ausblick (Update)

Falls Sie sich zu Recht fragen, wo die News für Spieler bleiben: Diesbezüglich hält sich Nvidia noch bedeckt, auch wenn es zahlreiche mehr oder minder glaubhafte Leaks gibt. Vorerst gibt es den A100-Beschleuniger nur als 400 Watt starkes SXModul ("Mezzanine"), nicht als PCI-Express-Steckkarte. Die Gaming-Chips werden mit Gewissheit andere Schwerpunkte setzen, denn unter anderem FP64 alias Double Precision ist bei Spielen kein Thema. Hier dreht sich alles um FP32-Leistung, welche beim Blick ins A100-Datenblatt etwas mager ausfällt. Hier stehen 19,5 TFLOPS bereit, denn nach aktuellem Kenntnisstand lässt sich die Arbeit in Spielen nicht auf die bei FP32 doppelt so schnellen Tensorkerne auslagern.

Wäre die A100 eine PCI-Express-Steckkarte im Stile einer "Titan A", böte sie auf dem Papier "nur" +20 Prozent Leistung gegenüber einer Titan RTX. Treibt man Letztere mithilfe sehr starker (Wasser-)Kühlung auf gut 2,1 GHz, erreicht sie diese Rechenleistung, während eine Geforce RTX 2080 Ti knapp daran scheitert. Bei Volta ließ sich Nvidia dazu hinreißen, für seine besonders gut betuchten Enthusiasten eine entsprechende Titan-Grafikkarte aufzulegen. Diese erschien viele Monate vor dem Start des RTX-Rummels, sodass das Sinn ergab. Eine Titan A auf GA100-Basis ohne dedizierte Raytracing-Kerne halten wir zwar für unwahrscheinlich, ausgeschlossen ist sie jedoch nicht. Auch wenn es nicht den Anschein macht, beim Echtzeit-Raytracing ist "traditionelle" Shader-Leistung nach wie vor der wichtigste Faktor. Ampere kann hier dank der schieren Menge an Rechenwerken punkten, wie es Volta ebenfalls tut. Rekonstruktionstechniken wie DLSS 2.0 entspannen die Lage weiter. Es bleibt spannend!

Bildergalerie

Bildergalerie

Die besten Grafikkarten finden Sie auch in unserem PCGH-Ratgeber Grafikkarten.

154
    • Kommentare (154)

      Zur Diskussion im Forum
      • Von DaHell63 Volt-Modder(in)
        Zitat von Rollora
        Lol ich glaub ich träum wohl. Niemanden interessiert der worst case? Es ist dir also egal, wenn das Bild total stottert, hauptsache im Durchschnitt kommt genug raus?
        Kann man so sehen, oder der Worst Case (deswegen muß es noch lange nicht ruckeln) ist nur eine kurze Szene während die restlichen 99% des Spiels weit besser laufen.
      • Von DaHell63 Volt-Modder(in)
        Zitat von Rollora
        Lol ich glaub ich träum wohl. Niemanden interessiert der worst case? Es ist dir also egal, wenn das Bild total stottert, hauptsache im Durchschnitt kommt genug raus?
        Kann man so sehen, oder der Worst Case (deswegen muß es noch lange nicht ruckeln) ist nur eine kurze Szene während die restlichen 99% des Spiels weit besser laufen.
      • Von Rollora Kokü-Junkie (m/w)
        Zitat von blutegel1
        niemanden interessieren wors case benches kuck auf average fps da ist die 2060 super 3-6 fps vor der 1080 wenn die 1080 50 fps liefert. xD = deutlich schneller merjst nicht mal....lmfao

        pcgh benches eignen sich nicht für ob spiele spielbar sind nur um die relative hardware performance zu ermitteln. kuck youtube einfach gameplays die 2060 s ist kaum schneller als eine 1080
        Lol ich glaub ich träum wohl. Niemanden interessiert der worst case? Es ist dir also egal, wenn das Bild total stottert, hauptsache im Durchschnitt kommt genug raus?
      • Von JoM79 Trockeneisprofi (m/w)
        Er spricht von 10%, Herr Multiaccount.
      • Von Gurdi Kokü-Junkie (m/w)
        Normalerweise diskutiere ich nicht mir Doppelaccounts aber eine 2060 ohne S ist bereits 10% schneller als die 1080 in dem Spiel. Von den Navis wollen wir da gar nicht erst anfangen.
        https://www.pcgameshardwa...
      • Von Gurdi Kokü-Junkie (m/w)
        Zitat von blutegel1
        Ende des Jahres erst, brauch 3080. Rdr 2 frisst meine 1080.
        RDR2 frisst jede Pascal, die Karten laufen da einfach bescheiden.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 06/2026 play5 07/2026 N-Zone 06/2026 Linux Magazin 06/2026 LinuxUser 06/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk