Nvidia GA100 (Ampere): Die Spezifikationen des Next-Gen-Rechenmonsters [Update]

Jetzt aktualisiert: Nvidia hat seine nächste GPU-Generation Ampere in Form des A100 mit technischen Details vorgestellt. Wie erwartet ist der Volta-Nachfolger in fast jeder Disziplin ein Gigant. PCGH fasst zusammen, welche Eckdaten bisher bekannt sind. Und ob man darauf Rückschlüsse ziehen kann, wie die Geforce-Varianten von Ampere aussehen könnten.

154

Special 15.05.2020 um 11:22 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

Quelle: Nvidia

Aktualisierung vom 15. Mai

Mittlerweile ist nicht nur das Blockdiagramm des Ampere GA100 verfügbar, sondern auch das Innenleben des Shader-Multiprozessors. Nvidia erläutert die Architektur in seinem Developer Blog. Wir haben diesen Artikel entsprechend aktualisiert. Die interessanteste Information betrifft das Raytracing: GA100 beherbergt keinerlei RT-Cores. Diese fehlen folglich bewusst im schematischen SM-Aufbau. Realtime-Raytracing ist - wie beim Volta GV100 - zwar dennoch möglich, allerdings nicht mit maximaler Leistung. Diesen Missstand aus Spielersicht werden die Gaming-Amperes richten, welche zu einem späteren Zeitpunkt präsentiert werden.

Falls es weitere Neuigkeiten gibt, erfahren Sie es selbstverständlich zeitnah bei uns. Man munkelt, dass es in Kürze weitere Informationen seitens Nvidia im Rahmen eines Technik-Tauchgangs (Deep Dive) geben wird.

Original-Artikel vom 14. Mai

Die Gerüchteküche sollte Recht behalten: Nvidias neueste GPU-Generation hört auf den Codenamen Ampere und wird in 7 Nanometer Strukturbreite bei der Foundry TSMC gefertigt. Der neue Chip ist erwartungsgemäß ein wahres Rechenmonster und bringt stattliche 54 Milliarden Schaltungen auf 826 mm² Kernfläche unter. PCGH fasst die bisher bekannten Informationen zusammen.

Der GA100 für HPC-Systeme ist abgespeckt

Wie bereits der Volta GV100 startet auch Ampere als Produkt für Datenzentren, welche traditionell schier unendliche Mengen an Rechenleistung benötigen. Hier muss direkt zwischen Prozessor und Produkt unterschieden werden: Die GPU hört auf den Namen GA100, die HPC-Lösung jedoch auf die Bezeichnung A100. Egal, welches Datenformat, der Ampere GA100 bringt eine Reihe an Neuerungen mit, um seinen Vorgänger teilweise um den Faktor 20 zu schlagen. Erreicht wird dies vor allem durch die Verbesserung der spezialisierten Tensorkerne, welche bei entsprechender Programmierung um Größenordnungen schneller arbeiten als die auch bei Spielen herangezogenen FP-ALUs (Stream-Prozessoren). Wir haben die bisher bekannten Informationen zum A100 für HPC-Systeme zusammengefasst und den Vorgängern sowie Gaming-Geforces gegenübergestellt.

Modell	Tesla A100 (SXM)	Tesla V100 (SXM)	Tesla P100 (SXM)	Titan RTX (PCIe)	Titan V (PCIe)	Titan Xp (PCIe)
GPU	Ampere GA100	Volta GV100	Pascal GP100	Turing TU102-400	Volta GV100	Pascal GP102-400
Fertigung	7 nm TSMC (N7)	12 nm TSMC	16 nm TSMC	12 nm TSMC	12 nm TSMC	16 nm TSMC
Chipgröße (reiner Die)	826 mm²	815 mm²	610 mm²	754 mm²	815 mm²	471 mm²
Transistoren Grafikchip (Mio.)	54.200	21.100	15.300	18.600	21.100	12.000
FP32-ALUs-/SIMDs/TMUs	6.912/108/432	5.120/80/320	3.584/56/224	4.608/72/288	5.120/80/320	3.840/30/240
Dedizierte INT32-Einheiten	6.912	5.120	-	4.608	5.120	-
Tensor Cores (TC)	432	640	-	576	640	-
Raytracing Cores (RT)	-	-	-	72	-	-
Raster-Endstufen (ROPs)	Unbekannt	Unbekannt	96	96	96	96
GPU-Basistakt (MHz)	Unbekannt	Unbekannt	1.328	1.350	1.200	1.480
GPU-Boost-Takt (MHz)	1.410	1.530	1.480	1.770	1.455	1.582
Rechenleistung INT8 (TOPS)*	624	125	21,2	261	119	12,2
Rechenleistung FP16 (TFLOPS)*	312	170	21,2	32,6	161	12,2
Rechenleistung FP32 (TFLOPS)	19,5	15,7	10,6	16,3	14,9	12,2
Rechenleistung FP64 (TFLOPS)*	19,5	7,45	5,30	0,51	7,45	0,38
Speicheranbindung (Bit)	5.120	4.096	4.096	384	3.072	384
Speicherstandard	HBM gen2	HBM gen2	HBM gen2	GDDR6	HBM gen2	GDDR5X
Geschw. Grafikspeicher (GT/s)	2,45	1,75	1,45	14,0	1,70	11,4
Übliche Speichermenge (GiB)	40	32	16	24	12	12
Speicherübertragung (GB/s)	1.550	900	732	672	653	548
TDP (Watt)	400	300	300	280	250	250
PCI-Express-Standard	4.0	3.0	3.0	3.0	3.0	3.0
Stromanschlüsse	-	-	-	2 × 8-polig	je 1 × 6-/8-polig	je 1 × 6-/8-polig

*Durchsatzwerte bei Berechnung über die Tensorkerne, welche um Faktoren schneller arbeiten als die FP-ALUs. Angaben ohne "Sparsity".

GA100 beherbergt 128 SMs (Update)

Die HPC-Lösung Tesla A100, welche Nvidia explizit "Tensor Core GPU" nennt, schöpft die Möglichkeiten des GA100 nicht ansatzweise aus, vermutlich aufgrund einer noch nicht vollständig ausgereiften Fertigung. Insgesamt beherbergt der GA100 satte 128 Shader-Multiprozessoren mit insgesamt 8.192 Stream-Prozessoren (FP32-ALUs), im A100 sind folglich 20 SMs bzw. 1.280 SPs deaktiviert.

Mittlerweile hat Nvidia auch das Basismodul eines jeden Grafikchips, den Shader-Multiprocessor (SM), grafisch visualisiert. Dabei bestätigt sich eine Vermutung: GA100 beherbergt keinerlei Raytracing-Kerne, welche die Strahlenverfolgung im virtuellen Raum übernehmen. Dafür ist ein SMA (Shader Multiprocessor Ampere) vollgestopft mit Arithmetisch-Logischen Einheiten. Wie erwartet stecken 64 FP32-ALUs, 64 INT32-ALUs sowie 32 FP64-ALUs in jedem SM. Flächenmäßig, so suggeriert es die Grafik, wird jedoch alles von einem "Uber Tensor Core" überschattet - angesichts der Auslegung des A100 als HPC-Beschleuniger ist das nicht verwunderlich.

Bevor Missverständnisse aufkommen: Auch wenn der GA100 als SXM-Lösung ohne Display-Ausgänge startet, handelt es sich doch um einen vollwertigen Grafikchip. Dies ist unter anderem daran ersichtlich, dass jeder SM wie gehabt über eine Quad-TMU für Texturoperationen verfügt. Das ist ein wichtiger Punkt, denn es gibt durchaus Bestrebungen, als Platzgründen althergebrachte Einheiten wie TMUs zu Gunsten anderer Rechenwerke wegzulassen. AMDs durch das Netz geisterndem HPC-Monster "Arcturus" wird genau das nachgesagt.

GA100: Einzelner SM und komplett - per Mausklick auswählen

GA100-Blockdiagramm Einzelner SMA (Shader Multiprocessor Ampere)

Vollbild-Vergleich

40 bis 48 GiByte Speicher

Der HPC-Beschleuniger A100 verfügt laut Nvidia über 40 GiByte High Bandwidth Memory zweiter Generation (HBM gen2), angebunden an ein 5.120-Bit-Interface. Aufmerksame Beobachter stellen fest, dass das nicht zum Bild passt, das eindeutig sechs HBM-Stapel zeigt, welche 6 × 1.024 = 6.144 Bit suggerieren. Derzeit ist unbekannt, ob es sich beim sechsten Stack um einen Dummy handelt und warum Nvidia diesen Schritt geht. Aus den fünf HBM-Stapeln ergibt sich eine Transferrate von rund 1,55 Terabyte pro Sekunde - 50 Prozent mehr als beim bisherigen Spitzenreiter Vega 20. Die Taktraten werden nicht genannt, rechnerisch arbeiten die HBM-Stacks jedoch mit circa 2,45 GT/s. Theoretisch und bei zukünftigen Produkten mit vollständig aktivem GA100 stehen bei gleichem Takt 1,9 TByte/s sowie 48 GiByte Kapazität bereit.

Flexible Tensor Cores 3.0

Ampere bringt die dritte Generation der Tensor-Kerne mit, welche TF32 (Tensor Float) unterstützen. Einfach ausgedrückt soll hier ohne zu großen Performance-Verlusten bei den bevorzugten FP16-KI-Berechnungen die Genauigkeit erhöht werden. Und das auch ohne eine Änderung der gewohnten Vorgehensweise. Nvidia erreicht das mit einem 10-Bit-Mantissa (dekadischer Logarithmus) und einem 8-Bit-Exponenten. Außerdem beherrschen die Tensor-Kerne nun auch FP64-Genauigkeit, was die Leistung im HPC-Bereich verdoppeln kann. Das Thema für KI-Berechnungen wird dann wohl auch in die RTX-Karten für Spieler durchschlagen, wo die Tensor-Kerne schon bei Turing vorhanden sind und mit denen unter anderem DLSS realisiert wird. Ob die höhere Leistung bei doppelter Präzision auch für Spieler kommt und da auch was bringt, werden wir sehen. Weitere Neuerungen sind Multi-Instance GPU (MIG), das mehrere Anwendungen gleichzeitig auf einer GPU erlaubt, und Sparsity, ein Phänomen aus neuralen Netzwerken.

Gaming-Ampere: Ausblick (Update)

Falls Sie sich zu Recht fragen, wo die News für Spieler bleiben: Diesbezüglich hält sich Nvidia noch bedeckt, auch wenn es zahlreiche mehr oder minder glaubhafte Leaks gibt. Vorerst gibt es den A100-Beschleuniger nur als 400 Watt starkes SXModul ("Mezzanine"), nicht als PCI-Express-Steckkarte. Die Gaming-Chips werden mit Gewissheit andere Schwerpunkte setzen, denn unter anderem FP64 alias Double Precision ist bei Spielen kein Thema. Hier dreht sich alles um FP32-Leistung, welche beim Blick ins A100-Datenblatt etwas mager ausfällt. Hier stehen 19,5 TFLOPS bereit, denn nach aktuellem Kenntnisstand lässt sich die Arbeit in Spielen nicht auf die bei FP32 doppelt so schnellen Tensorkerne auslagern.

Wäre die A100 eine PCI-Express-Steckkarte im Stile einer "Titan A", böte sie auf dem Papier "nur" +20 Prozent Leistung gegenüber einer Titan RTX. Treibt man Letztere mithilfe sehr starker (Wasser-)Kühlung auf gut 2,1 GHz, erreicht sie diese Rechenleistung, während eine Geforce RTX 2080 Ti knapp daran scheitert. Bei Volta ließ sich Nvidia dazu hinreißen, für seine besonders gut betuchten Enthusiasten eine entsprechende Titan-Grafikkarte aufzulegen. Diese erschien viele Monate vor dem Start des RTX-Rummels, sodass das Sinn ergab. Eine Titan A auf GA100-Basis ohne dedizierte Raytracing-Kerne halten wir zwar für unwahrscheinlich, ausgeschlossen ist sie jedoch nicht. Auch wenn es nicht den Anschein macht, beim Echtzeit-Raytracing ist "traditionelle" Shader-Leistung nach wie vor der wichtigste Faktor. Ampere kann hier dank der schieren Menge an Rechenwerken punkten, wie es Volta ebenfalls tut. Rekonstruktionstechniken wie DLSS 2.0 entspannen die Lage weiter. Es bleibt spannend!