Nvidia Geforce RTX 3090 alias "BFGPU" im Test: Titanischer Alleskönner für 1.500 Euro
10.496 Shader-ALUs mit rund 35 TFLOPS Rechenleistung sowie 24 GiByte GDDR6X-Speicher mit beinahe 1 TByte/s Datendurchsatz: Die Geforce RTX 3090 ist nicht nur technisch ein dicker Fisch, sondern auch in allen anderen Belangen. Was die 350-Watt-Grafikkarte mit einem Kampfgewicht von satten 2,16 Kilogramm in Spielen und beim Rendering leistet, erfahren Sie im Test der Geforce RTX 3090 Founders Edition.
Auf dieser Seite
Am heutigen 24. September hat Nvidias neues Schlachtschiff seine Jungfernfahrt, die Geforce RTX 3090 Founders Edition. Eines können Sie uns glauben: Von dem Moment an, in dem Sie die Packung öffnen und dieses Monstrum von Grafikkarte erblicken, verfliegt jeder Zweifel, ob sich die gerade versenkten 1.500 Euro (wenn die Karten denn verfügbar sind, siehe Alternate) amortisieren. Die RTX 3090 FE ist zweifellos die größte und schwerste Single-GPU-Grafikkarte, welche PCGH je im Testlabor hatte - und sie ist außerdem die schnellste. Zeit, der "Big Ferocious GPU" (BFGPU) genauer auf den Zahn zu fühlen und nach der Achillesferse zu suchen.
Nvidia platziert die Geforce RTX 3090 in Sachen Preis und Leistung ungefähr dort, wo seit Jahren Modelle der "Titan"-Reihe auf anspruchsvolle Kundschaft warten. Alleinstellungsmerkmale der Titan-Grafikkarten sind ihre exorbitante Speicherkapazität sowie spezielle Software-Features, um eine höhere Leistung in (semi-)professionellen Anwendungen wie CAD und Rendering zu erzielen. Mit der Geforce RTX 3090 vollzieht Nvidia eine kleine Änderung in diesem Bereich: Die GA102-Speerspitze muss ohne CAD-Beschleunigung auskommen, kostet im Vergleich mit der dazu fähigen Titan RTX jedoch knapp die Hälfte. Die Kernklientel, so Nvidia, seien Kreativschaffende, bei denen die enorme Speicherkapazität und Rechenleistung fühlbare Erleichterungen ihrer Arbeit bringe. Hochkomplexe Modelle, riesige Texturen, Raytracing-Beleuchtung, all das stemmt die Geforce RTX 3090 schneller als jede andere Grafikkarte. Selbstverständlich prüfen wir diese Versprechen anhand einiger Vergleichskarten, doch auch das Gaming kommt nicht zu kurz. Wie von PCGH gewohnt, haben wir abseits der Standardtests auch einige Extrem-Benchmarks vorbereitet, um die RTX 3090 angemessen zu fordern.
Spezifikationen der RTX 3090, RTX 3080 und RTX 3070
Zur Erinnerung: Die RTX-30-Reihe mit dem Architekturnamen Ampere besteht anfangs aus drei Grafikkarten: der Geforce RTX 3090, der Geforce RTX 3080 und der Geforce RTX 3070. Den Anfang machte am 17. September das offizielle Geforce-Gaming-Flaggschiff RTX 3080 - und war binnen Minuten ausverkauft. Nun ist die Geforce RTX 3090 an der Reihe, welche im neuen Nvidia-Portfolio die Position der "Titan" einnimmt. Das vorläufige Finale startet am 15. Oktober mit der Geforce RTX 3070.
Bei Ampere handelt es sich um Nvidias zweite RTX-Generation. Die erste erschien vor genau zwei Jahren als Geforce RTX 20 (Codename Turing) mit dem Versprechen, "Grafik neu erfunden" zu haben. Im Fokus der Architektur stand nicht mehr bloß eine Leistungssteigerung - wie noch beim Vorgänger Pascal -, sondern ein Quantensprung auf dem Weg zum Fotorealismus: Hybrides Raytracing statt Rasterisierung. Zu diesem Zweck implementierte Nvidia als erster GPU-Hersteller spezialisierte Hardware-Einheiten, welche die hochkomplexen Berechnungen bei echtzeittauglichen Bildraten stemmen können. Die Basis dafür schafften die Kalifornier mit vielen anderen Unternehmen, darunter AMD und Intel, im Rahmen von DirectX: Die Microsoft-Schnittstellensammlung beinhaltet seit zwei Jahren den Unterpunkt DXR - DirectX Raytracing - und schafft somit die nötige Software-Umgebung, um standardisiert mit der Hardware zu sprechen. Wie Letztere mit den Befehlen umgeht, ist hingegen nicht vorgeschrieben. Grafikchips können Raytracing-Renderanforderungen auf ihre generalisierten Rechenwerke abwälzen, diese mit entsprechenden Spezialfunktionen ausstatten oder eigenständige Fixed-Function-Kerne aus der Taufe heben. Letzteres tat Nvidia bei Turing - alle Informationen finden Sie im ausführlichen Technik-Dossier.
RTX 3090: Mehr Ampere geht (noch) nicht
Die Geforce RTX 3090 und RTX 3080 basieren beide auf dem neuen GA102, Nvidias bislang fortschrittlichstem Gaming-Prozessor. Der Chip beherbergt im "Full-Fat"-Vollausbau 10.752 Shader-ALUs - ein Wert, den man erst einmal sacken lassen muss. Möglich wird dies durch eine gegenüber Turing verfeinerte Fertigung, welche im Gegensatz zu den vorherigen Top-Chips nicht aus dem Hause TSMC stammt. Stattdessen einigte sich Nvidia mit Samsung, deren 8LPP-Verfahren zwar ohne neuartige EUV-Belichtung auskommt, dafür aber mutmaßlich eine gute Ausbeute und vor allem ein gutes Preisleistungsverhältnis aufweist. Nvidia verwendet einen angepassten Prozess mit der Bezeichnung 8N.
Quelle: PC Games Hardware
Nvidia Geforce RTX 3090 alias "BFGPU" im Test: Titanischer Alleskönner für 1.500 Euro: Nvidia Inspector Overview
Weder die RTX 3090 noch die RTX 3080 arbeiten mit dem Vollausbau des GA102 - die RTX 3090 ist jedoch nahe dran. Wie die erste Titan-Grafikkarte von 2013 darf sie mit fast allen physisch vorhandenen Shader-Multiprozessoren an den Start gehen, 82 von 84 Clustern sind aktiv. Wie es sich für eine Grafikkarte der Titan-Gewichtsklasse gehört, kann die Geforce RTX 3090 über eine volle 384-Bit-Schnittstelle nebst 24.576 MiByte Speicher gebieten. Die Geforce RTX 3080 ist hingegen vergleichsweise stark kastriert und muss mit 68 Shader-Multiprozessoren auskommen (8.704 ALUs). Der Einschnitt hat vor allem produktionstechnische Gründe, denn auf diese Weise lassen sich teildefekte Chips sinnvoll verwenden. Wie bei der RTX 2080 Ti, GTX 1080 Ti und vielen anderen Nvidia-Grafikkarten beinhaltet dies auch den Verzicht auf Teile der Speicherschnittstelle: 320 von 384 Datenbahnen sind auf der RTX 3080 aktiv.
Die wichtigste Änderung innerhalb des Shader Core betrifft die Anzahl der FP32-ALUs. Diese arithmetisch-logischen Einheiten sind für die zahlreichen Gleitkomma-Operationen verantwortlich, die in modernen Spielen weitestgehend anfallen, und somit maßgeblich für die Leistung. Der GA102 ist neuerdings in der Lage, 128 FP32-Kalkulationen pro Shader-Multiprozessor parallel abzuarbeiten - bei Turing sind es nur 64, also die Hälfte. Lastszenarien, welche aus reinen Gleitkommaberechnungen bestehen, legen folglich um Faktor 2 zu - die Zahl ist, wie man zunächst annehmen könnte, keine Marketing-Erfindung, sondern real. Allerdings gibt es einen Haken. Turing ist in der Lage, neben 64 FP32-Ops parallel 64 INT32-Aufgaben zu lösen. Jene Integer-Berechnungen laufen mit Ganz- statt Kommazahlen zahlen ab, sind folglich weniger aufwendig, und außerdem seltener in Spielen. Tritt ein solcher Fall ein, muss Ampere einen Modus für die zweite ALU-Phalanx wählen, sodass der Abstand zu Turing schrumpft. Letzterer ist in jeder Anwendung anders, wie wir in den Benchmarks sehen.
Speicherdurchsatz nahe der Terabyte-Marke
Um die gestiegenen Bandbreitenanforderungen zu erfüllen, taten sich Nvidia und Speicherspezialist Micron zusammen. Herausgekommen ist GDDR6X-DRAM, eine Weiterentwicklung von GDDR6, welche bis zu 21 Gigatransfers pro Sekunde (GT/s) erreichen soll. Zum Vergleich: GDDR6 endet offiziell bei 16 GT/s. Möglich wird dies durch einen grundsätzlich alten, aber verfeinerten Eingriff bei der Signalübertragung, welche nun vier statt nur zwei Zustände kennt ("PAM4"). Somit wird pro Takt die doppelte Menge an Information übertragen, wodurch sich der interne Takt senken und Energie sparen lässt, ohne dass die effektive Leistung sinkt.
Im Falle der Geforce RTX 3090 beträgt der Speichertakt "nur" 19,5 GT/s, übersetzbar mit 9.750 MHz im Vergleich zu den bisher üblichen 14 GT/s respektive 7.000 MHz. Was am Ende zählt, ist das Produkt aus Interface-Breite und Takt. Hier schleust die RTX 3090 stolze 936 GByte/s umher und scheitert damit knapp an der magischen Grenze von 1 TByte/s - das schafft im Endkundenbereich nur AMDs Radeon VII. Wie Nvidia auf Nachfrage bestätigt, verfügt der GA102 über keine weiter verbesserte Speicherkompression, sondern zieht diesbezüglich mit Turing gleich. Vorherige Generationen wiesen hier stets neue Kniffe auf, um Daten verlustfrei zu packen und somit den Datenverkehr auf dem Speicherbus zu reduzieren. Hier dürfte einer der Gründe liegen, weshalb die rohe Transferrate gegenüber Turing (max. 672 GByte/s) so deutlich angehoben wurde - beim Wechsel vom Pascal- auf das Turing-Topmodell (Titan gegen Titan) waren es nur rund 23 Prozent.
In den folgenden Benchmarks richten sich alle Augen auf den Vergleich zwischen RTX 3080 und RTX 3090. Dabei wissenswert ist, dass die RTX 3090 bei nur 30 Watt höherem Energiebudget 14 zusätzliche Speicherbausteine sowie 14 Shader-Multiprozessoren mit Energie versorgen muss. Mit den von Nvidia angegebenen Taktraten weist die RTX 3090 knapp 20 Prozent mehr GPU-Leistung und eine um 23 Prozent höhere Speichertransferrate (bei +140 Prozent Kapazität) auf. Was davon in der Praxis in Leistung umgesetzt wird, sehen wir in den Benchmarks. In der folgenden Tabelle, welche von uns mehrfach geprüft und durchgerechnet wurde, fassen wir alle relevanten Leistungsdaten zusammen. Enthalten ist nicht nur die Geforce RTX 3090, sondern auch ihre beiden Geschwister mit den finalen Spezifikationen, sowie diverse ältere Modelle.
| Modell | Geforce RTX 3090 | Geforce RTX 3080 | Geforce RTX 3070 | Titan RTX | Geforce RTX 2080 Ti | Titan Xp | Radeon VII |
|---|---|---|---|---|---|---|---|
| Codename/Konfektion | GA102-300 | GA102-200-KD | GA104-300 | TU102-400 | TU102-300A-Kx | GP102-450 | Vega 20 XT |
| Chipgröße (reiner Die) | 628,4 mm² | 628,4 mm² | 392,5 mm² | 754 mm² | 754 mm² | 471 mm² | 331 mm² |
| Transistoren Grafikchip (Mio.) | 28.300 | 28.300 | 17.400 | 18.600 | 18.600 | 12.000 | 13.200 |
| Fertigungsverfahren | 8N (Samsung) | 8N (Samsung) | 8N (Samsung) | 12FFN (TSMC) | 12FFN (TSMC) | 16FF+ (TSMC) | 7FF (TSMC) |
| DirectX 12 Feature Level | 12_2 | 12_2 | 12_2 | 12_2 | 12_2 | 12_1 | 12_1 |
| Graphics Processing Clusters (GPCs) | 7 | 6 | 6 | 6 | 6 | 6 | - |
| SIMDs (NV-SMs/AMD-CUs) | 82 | 68 | 46 | 72 | 68 | 30 | 60 |
| FP32-ALUs/TMUs/ROPs | 10.496/328/112 | 8.704/272/96 | 5.888/184/96 | 4.608/288/96 | 4.352/272/88 | 3.840/240/96 | 3.840/240/64 |
| Parallel nutzbare INT32-ALUs | 5.248* | 4.352* | 2.944* | 4.608 | 4.352 | - | - |
| Raytracing-Kerne (RT Cores) | 82 (2. Gen.) | 68 (2. Gen.) | 46 (2. Gen.) | 72 (1. Gen.) | 68 (1. Gen.) | - | - |
| Tensor-Kerne (TCs) | 328 (3. Gen.) | 272 (3. Gen.) | 184 (3. Gen.) | 576 (2. Gen.) | 544 (2. Gen.) | - | - |
| Leistung RT-Cores (TFLOPS) | 69,50 | 58,14 | 39,68 | 50,98 | 44,47 | - | - |
| FP16-Leistung TCs (TFLOPS) | 284,65 | 238,14 | 162,51 | 130,50 | 113,85 | - | - |
| FP16-Leistung ALUs (TFLOPS) | 35,58 | 29,77 | 20,31 | 32,62 | 28,46 | 0,19 | 26,88 |
| FP32/FP64-Leistung (TFLOPS) | 35,58/1,11 | 29,77/0,93 | 20,31/0,63 | 16,31/0,51 | 14,23/0,45 | 12,15/0,38 | 13,44/3,36 |
| GPU-Basistakt (MHz) | 1.410 | 1.440 | 1.500 | 1.350 | 1.350 | 1.480 | 1.400 |
| GPU-Boost-Takt in Spielen (MHz) | 1.695 | 1.710 | 1.725 | 1.770 | 1.635 | 1.582 | 1.750 |
| Größe des Level-2-Cache (KiB) | 6.144 | 5.120 | 4.096 | 6.144 | 5.632 | 3.072 | 4.096 |
| Speicheranbindung (Bit) | 384 | 320 | 256 | 384 | 352 | 384 | 4.096 |
| Geschwindigkeit RAM (GTs/MHz) | 19,5/9.750 | 19,0/9.502 | 14,0/7.000 | 14,0/7.001 | 14,0/7.001 | 11,4/5.702 | 2,0/1.000 |
| Speichertyp | GDDR6X | GDDR6X | GDDR6 | GDDR6 | GDDR6 | GDDR5X | HBM gen2 |
| Speicherübertragung (GB/s) | 936,0 | 760,2 | 448,0 | 672,1 | 616,1 | 547,4 | 1024,0 |
| Speicherkapazität (MiB) | 24.576 | 10.240 | 8.192 | 24.576 | 11.264 | 12.288 | 16.384 |
| PCI-Express-Standard | 4.0 | 4.0 | 4.0 | 3.0 | 3.0 | 3.0 | 3.0 |
| PCI-Express-Stromanschlüsse | 1× 12-Pol/2× 8-Pol | 1× 12-Pol/2× 8-Pol | 1 × 8-Pol | 2× 8-Pol | 2× 8-Pol | 1 × 8-/6-Pol | 2× 8-Pol |
| Typische Leistungsaufnahme | 350 Watt | 320 Watt | 220 Watt | 280 Watt | 260 Watt | 250 Watt | 300 Watt |
| Launch-Preis (UVP) | 1.499 Euro | 699 Euro | 499 Euro | 2.699 Euro | 1.259 Euro | 1.359 Euro | 729 Euro |
Angaben der Leistung jeweils mit typischem Boost laut Hersteller. In der Praxis schwankt die Frequenz und somit auch der Durchsatz.
*INT32-Cores bei Ampere nur bei halbierter FP32-Rate nutzbar (entweder 128x FP32 oder 64x FP32 + 64x INT32 pro SM).
Der FP64-Durchsatz des Ampere GA102 entspricht 1/64 gegenüber FP32 (zwei FP64-ALU pro SM). Hier punktet Vega 20.
Fun fact: Der 2017 erschienene Volta GV100 verfügt als Titan V bereits über 5.120 FP32-ALUs und ebenso viele INT32-Kerne.
- Seite 1 RTX 3090 im Test: Spezifikationen, Preispunkt und mehr
- Seite 2 RTX 3090 im Test: Spiele-Benchmarks in WQHD, UWQHD und Ultra HD
- Seite 3 RTX 3090 im Test: Produktiv-Benchmarks mit Praxisbezug
- Seite 4 RTX 3090 im Test: Kühlung, Emissionen, Effizienz
- Seite 5 RTX 3090 im Test: Zusammenfassung mit Fazit


MfG
Raff
MfG
Raff
Gleiches Ergebnis hier.
Control auch.
Aber Star Wars. Da wird gut was liegen gelassen :-O
[Ins Forum, um diesen Inhalt zu sehen]
avg 24 FPS mehr.
P1 21 FPS mehr.
Nun wirds Zeit für Community Benchmarks
VG und einen schönen Abend.