Nvidia Geforce RTX 3090 alias "BFGPU" im Test: Titanischer Alleskönner für 1.500 Euro

10.496 Shader-ALUs mit rund 35 TFLOPS Rechenleistung sowie 24 GiByte GDDR6X-Speicher mit beinahe 1 TByte/s Datendurchsatz: Die Geforce RTX 3090 ist nicht nur technisch ein dicker Fisch, sondern auch in allen anderen Belangen. Was die 350-Watt-Grafikkarte mit einem Kampfgewicht von satten 2,16 Kilogramm in Spielen und beim Rendering leistet, erfahren Sie im Test der Geforce RTX 3090 Founders Edition.

240

Test 24.09.2020 um 15:00 Uhr Raffael Vötter David Krausbauer Als bevorzugte Quelle auf Google hinzufügen

Quelle: PC Games Hardware

Auf dieser Seite

1 Spezifikationen der RTX 3090, RTX 3080 und RTX 3070
1. 1.1 RTX 3090: Mehr Ampere geht (noch) nicht
2. 1.2 Speicherdurchsatz nahe der Terabyte-Marke

Am heutigen 24. September hat Nvidias neues Schlachtschiff seine Jungfernfahrt, die Geforce RTX 3090 Founders Edition. Eines können Sie uns glauben: Von dem Moment an, in dem Sie die Packung öffnen und dieses Monstrum von Grafikkarte erblicken, verfliegt jeder Zweifel, ob sich die gerade versenkten 1.500 Euro (wenn die Karten denn verfügbar sind, siehe Alternate) amortisieren. Die RTX 3090 FE ist zweifellos die größte und schwerste Single-GPU-Grafikkarte, welche PCGH je im Testlabor hatte - und sie ist außerdem die schnellste. Zeit, der "Big Ferocious GPU" (BFGPU) genauer auf den Zahn zu fühlen und nach der Achillesferse zu suchen.

Nvidia platziert die Geforce RTX 3090 in Sachen Preis und Leistung ungefähr dort, wo seit Jahren Modelle der "Titan"-Reihe auf anspruchsvolle Kundschaft warten. Alleinstellungsmerkmale der Titan-Grafikkarten sind ihre exorbitante Speicherkapazität sowie spezielle Software-Features, um eine höhere Leistung in (semi-)professionellen Anwendungen wie CAD und Rendering zu erzielen. Mit der Geforce RTX 3090 vollzieht Nvidia eine kleine Änderung in diesem Bereich: Die GA102-Speerspitze muss ohne CAD-Beschleunigung auskommen, kostet im Vergleich mit der dazu fähigen Titan RTX jedoch knapp die Hälfte. Die Kernklientel, so Nvidia, seien Kreativschaffende, bei denen die enorme Speicherkapazität und Rechenleistung fühlbare Erleichterungen ihrer Arbeit bringe. Hochkomplexe Modelle, riesige Texturen, Raytracing-Beleuchtung, all das stemmt die Geforce RTX 3090 schneller als jede andere Grafikkarte. Selbstverständlich prüfen wir diese Versprechen anhand einiger Vergleichskarten, doch auch das Gaming kommt nicht zu kurz. Wie von PCGH gewohnt, haben wir abseits der Standardtests auch einige Extrem-Benchmarks vorbereitet, um die RTX 3090 angemessen zu fordern.

Spezifikationen der RTX 3090, RTX 3080 und RTX 3070

Zur Erinnerung: Die RTX-30-Reihe mit dem Architekturnamen Ampere besteht anfangs aus drei Grafikkarten: der Geforce RTX 3090, der Geforce RTX 3080 und der Geforce RTX 3070. Den Anfang machte am 17. September das offizielle Geforce-Gaming-Flaggschiff RTX 3080 - und war binnen Minuten ausverkauft. Nun ist die Geforce RTX 3090 an der Reihe, welche im neuen Nvidia-Portfolio die Position der "Titan" einnimmt. Das vorläufige Finale startet am 15. Oktober mit der Geforce RTX 3070.

Bei Ampere handelt es sich um Nvidias zweite RTX-Generation. Die erste erschien vor genau zwei Jahren als Geforce RTX 20 (Codename Turing) mit dem Versprechen, "Grafik neu erfunden" zu haben. Im Fokus der Architektur stand nicht mehr bloß eine Leistungssteigerung - wie noch beim Vorgänger Pascal -, sondern ein Quantensprung auf dem Weg zum Fotorealismus: Hybrides Raytracing statt Rasterisierung. Zu diesem Zweck implementierte Nvidia als erster GPU-Hersteller spezialisierte Hardware-Einheiten, welche die hochkomplexen Berechnungen bei echtzeittauglichen Bildraten stemmen können. Die Basis dafür schafften die Kalifornier mit vielen anderen Unternehmen, darunter AMD und Intel, im Rahmen von DirectX: Die Microsoft-Schnittstellensammlung beinhaltet seit zwei Jahren den Unterpunkt DXR - DirectX Raytracing - und schafft somit die nötige Software-Umgebung, um standardisiert mit der Hardware zu sprechen. Wie Letztere mit den Befehlen umgeht, ist hingegen nicht vorgeschrieben. Grafikchips können Raytracing-Renderanforderungen auf ihre generalisierten Rechenwerke abwälzen, diese mit entsprechenden Spezialfunktionen ausstatten oder eigenständige Fixed-Function-Kerne aus der Taufe heben. Letzteres tat Nvidia bei Turing - alle Informationen finden Sie im ausführlichen Technik-Dossier.

RTX 3090: Mehr Ampere geht (noch) nicht

Die Geforce RTX 3090 und RTX 3080 basieren beide auf dem neuen GA102, Nvidias bislang fortschrittlichstem Gaming-Prozessor. Der Chip beherbergt im "Full-Fat"-Vollausbau 10.752 Shader-ALUs - ein Wert, den man erst einmal sacken lassen muss. Möglich wird dies durch eine gegenüber Turing verfeinerte Fertigung, welche im Gegensatz zu den vorherigen Top-Chips nicht aus dem Hause TSMC stammt. Stattdessen einigte sich Nvidia mit Samsung, deren 8LPP-Verfahren zwar ohne neuartige EUV-Belichtung auskommt, dafür aber mutmaßlich eine gute Ausbeute und vor allem ein gutes Preisleistungsverhältnis aufweist. Nvidia verwendet einen angepassten Prozess mit der Bezeichnung 8N.
Quelle: PC Games Hardware Nvidia Geforce RTX 3090 alias "BFGPU" im Test: Titanischer Alleskönner für 1.500 Euro: Nvidia Inspector Overview
Weder die RTX 3090 noch die RTX 3080 arbeiten mit dem Vollausbau des GA102 - die RTX 3090 ist jedoch nahe dran. Wie die erste Titan-Grafikkarte von 2013 darf sie mit fast allen physisch vorhandenen Shader-Multiprozessoren an den Start gehen, 82 von 84 Clustern sind aktiv. Wie es sich für eine Grafikkarte der Titan-Gewichtsklasse gehört, kann die Geforce RTX 3090 über eine volle 384-Bit-Schnittstelle nebst 24.576 MiByte Speicher gebieten. Die Geforce RTX 3080 ist hingegen vergleichsweise stark kastriert und muss mit 68 Shader-Multiprozessoren auskommen (8.704 ALUs). Der Einschnitt hat vor allem produktionstechnische Gründe, denn auf diese Weise lassen sich teildefekte Chips sinnvoll verwenden. Wie bei der RTX 2080 Ti, GTX 1080 Ti und vielen anderen Nvidia-Grafikkarten beinhaltet dies auch den Verzicht auf Teile der Speicherschnittstelle: 320 von 384 Datenbahnen sind auf der RTX 3080 aktiv.

Die wichtigste Änderung innerhalb des Shader Core betrifft die Anzahl der FP32-ALUs. Diese arithmetisch-logischen Einheiten sind für die zahlreichen Gleitkomma-Operationen verantwortlich, die in modernen Spielen weitestgehend anfallen, und somit maßgeblich für die Leistung. Der GA102 ist neuerdings in der Lage, 128 FP32-Kalkulationen pro Shader-Multiprozessor parallel abzuarbeiten - bei Turing sind es nur 64, also die Hälfte. Lastszenarien, welche aus reinen Gleitkommaberechnungen bestehen, legen folglich um Faktor 2 zu - die Zahl ist, wie man zunächst annehmen könnte, keine Marketing-Erfindung, sondern real. Allerdings gibt es einen Haken. Turing ist in der Lage, neben 64 FP32-Ops parallel 64 INT32-Aufgaben zu lösen. Jene Integer-Berechnungen laufen mit Ganz- statt Kommazahlen zahlen ab, sind folglich weniger aufwendig, und außerdem seltener in Spielen. Tritt ein solcher Fall ein, muss Ampere einen Modus für die zweite ALU-Phalanx wählen, sodass der Abstand zu Turing schrumpft. Letzterer ist in jeder Anwendung anders, wie wir in den Benchmarks sehen.

Speicherdurchsatz nahe der Terabyte-Marke

Um die gestiegenen Bandbreitenanforderungen zu erfüllen, taten sich Nvidia und Speicherspezialist Micron zusammen. Herausgekommen ist GDDR6X-DRAM, eine Weiterentwicklung von GDDR6, welche bis zu 21 Gigatransfers pro Sekunde (GT/s) erreichen soll. Zum Vergleich: GDDR6 endet offiziell bei 16 GT/s. Möglich wird dies durch einen grundsätzlich alten, aber verfeinerten Eingriff bei der Signalübertragung, welche nun vier statt nur zwei Zustände kennt ("PAM4"). Somit wird pro Takt die doppelte Menge an Information übertragen, wodurch sich der interne Takt senken und Energie sparen lässt, ohne dass die effektive Leistung sinkt.

Im Falle der Geforce RTX 3090 beträgt der Speichertakt "nur" 19,5 GT/s, übersetzbar mit 9.750 MHz im Vergleich zu den bisher üblichen 14 GT/s respektive 7.000 MHz. Was am Ende zählt, ist das Produkt aus Interface-Breite und Takt. Hier schleust die RTX 3090 stolze 936 GByte/s umher und scheitert damit knapp an der magischen Grenze von 1 TByte/s - das schafft im Endkundenbereich nur AMDs Radeon VII. Wie Nvidia auf Nachfrage bestätigt, verfügt der GA102 über keine weiter verbesserte Speicherkompression, sondern zieht diesbezüglich mit Turing gleich. Vorherige Generationen wiesen hier stets neue Kniffe auf, um Daten verlustfrei zu packen und somit den Datenverkehr auf dem Speicherbus zu reduzieren. Hier dürfte einer der Gründe liegen, weshalb die rohe Transferrate gegenüber Turing (max. 672 GByte/s) so deutlich angehoben wurde - beim Wechsel vom Pascal- auf das Turing-Topmodell (Titan gegen Titan) waren es nur rund 23 Prozent.

In den folgenden Benchmarks richten sich alle Augen auf den Vergleich zwischen RTX 3080 und RTX 3090. Dabei wissenswert ist, dass die RTX 3090 bei nur 30 Watt höherem Energiebudget 14 zusätzliche Speicherbausteine sowie 14 Shader-Multiprozessoren mit Energie versorgen muss. Mit den von Nvidia angegebenen Taktraten weist die RTX 3090 knapp 20 Prozent mehr GPU-Leistung und eine um 23 Prozent höhere Speichertransferrate (bei +140 Prozent Kapazität) auf. Was davon in der Praxis in Leistung umgesetzt wird, sehen wir in den Benchmarks. In der folgenden Tabelle, welche von uns mehrfach geprüft und durchgerechnet wurde, fassen wir alle relevanten Leistungsdaten zusammen. Enthalten ist nicht nur die Geforce RTX 3090, sondern auch ihre beiden Geschwister mit den finalen Spezifikationen, sowie diverse ältere Modelle.

Modell	Geforce RTX 3090	Geforce RTX 3080	Geforce RTX 3070	Titan RTX	Geforce RTX 2080 Ti	Titan Xp	Radeon VII
Codename/Konfektion	GA102-300	GA102-200-KD	GA104-300	TU102-400	TU102-300A-Kx	GP102-450	Vega 20 XT
Chipgröße (reiner Die)	628,4 mm²	628,4 mm²	392,5 mm²	754 mm²	754 mm²	471 mm²	331 mm²
Transistoren Grafikchip (Mio.)	28.300	28.300	17.400	18.600	18.600	12.000	13.200
Fertigungsverfahren	8N (Samsung)	8N (Samsung)	8N (Samsung)	12FFN (TSMC)	12FFN (TSMC)	16FF+ (TSMC)	7FF (TSMC)
DirectX 12 Feature Level	12_2	12_2	12_2	12_2	12_2	12_1	12_1
Graphics Processing Clusters (GPCs)	7	6	6	6	6	6	-
SIMDs (NV-SMs/AMD-CUs)	82	68	46	72	68	30	60
FP32-ALUs/TMUs/ROPs	10.496/328/112	8.704/272/96	5.888/184/96	4.608/288/96	4.352/272/88	3.840/240/96	3.840/240/64
Parallel nutzbare INT32-ALUs	5.248*	4.352*	2.944*	4.608	4.352	-	-
Raytracing-Kerne (RT Cores)	82 (2. Gen.)	68 (2. Gen.)	46 (2. Gen.)	72 (1. Gen.)	68 (1. Gen.)	-	-
Tensor-Kerne (TCs)	328 (3. Gen.)	272 (3. Gen.)	184 (3. Gen.)	576 (2. Gen.)	544 (2. Gen.)	-	-
Leistung RT-Cores (TFLOPS)	69,50	58,14	39,68	50,98	44,47	-	-
FP16-Leistung TCs (TFLOPS)	284,65	238,14	162,51	130,50	113,85	-	-
FP16-Leistung ALUs (TFLOPS)	35,58	29,77	20,31	32,62	28,46	0,19	26,88
FP32/FP64-Leistung (TFLOPS)	35,58/1,11	29,77/0,93	20,31/0,63	16,31/0,51	14,23/0,45	12,15/0,38	13,44/3,36
GPU-Basistakt (MHz)	1.410	1.440	1.500	1.350	1.350	1.480	1.400
GPU-Boost-Takt in Spielen (MHz)	1.695	1.710	1.725	1.770	1.635	1.582	1.750
Größe des Level-2-Cache (KiB)	6.144	5.120	4.096	6.144	5.632	3.072	4.096
Speicheranbindung (Bit)	384	320	256	384	352	384	4.096
Geschwindigkeit RAM (GTs/MHz)	19,5/9.750	19,0/9.502	14,0/7.000	14,0/7.001	14,0/7.001	11,4/5.702	2,0/1.000
Speichertyp	GDDR6X	GDDR6X	GDDR6	GDDR6	GDDR6	GDDR5X	HBM gen2
Speicherübertragung (GB/s)	936,0	760,2	448,0	672,1	616,1	547,4	1024,0
Speicherkapazität (MiB)	24.576	10.240	8.192	24.576	11.264	12.288	16.384
PCI-Express-Standard	4.0	4.0	4.0	3.0	3.0	3.0	3.0
PCI-Express-Stromanschlüsse	1× 12-Pol/2× 8-Pol	1× 12-Pol/2× 8-Pol	1 × 8-Pol	2× 8-Pol	2× 8-Pol	1 × 8-/6-Pol	2× 8-Pol
Typische Leistungsaufnahme	350 Watt	320 Watt	220 Watt	280 Watt	260 Watt	250 Watt	300 Watt
Launch-Preis (UVP)	1.499 Euro	699 Euro	499 Euro	2.699 Euro	1.259 Euro	1.359 Euro	729 Euro

Angaben der Leistung jeweils mit typischem Boost laut Hersteller. In der Praxis schwankt die Frequenz und somit auch der Durchsatz.
*INT32-Cores bei Ampere nur bei halbierter FP32-Rate nutzbar (entweder 128x FP32 oder 64x FP32 + 64x INT32 pro SM).
Der FP64-Durchsatz des Ampere GA102 entspricht 1/64 gegenüber FP32 (zwei FP64-ALU pro SM). Hier punktet Vega 20.
Fun fact: Der 2017 erschienene Volta GV100 verfügt als Titan V bereits über 5.120 FP32-ALUs und ebenso viele INT32-Kerne.