Spezialtests zur Geforce RTX 3080: Durchsatz und Effizienz

Test 16.09.2020 um 15:00 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

Auf dieser Seite

1 Geforce RTX 3080 im Test: Durchsatz & Effizienz
2 Geforce RTX 3080 im Test: Pro-Takt-Duell

In diesem Artikel

Geforce RTX 3080 im Test: Durchsatz & Effizienz

Compute, die Fähigkeit, den "Grafik"-Chip für allgemeine Berechnungen einzuspannen, ist seit mehr als einer Dekade möglich. Um die Rechenleistung abzurufen, sind verschiedene Schnittstellen verfügbar, wobei die verbreitetsten Nvidias CUDA und der Industriestandard OpenCL sind. Einige Programme unterstützen beides, andere nur eine der Schnittstellen. AMD bietet aus naheliegenden Gründen keinen Support für das proprietäre CUDA, sondern macht sich für OpenCL stark. Dementsprechend gut schneiden Radeon-GPUs in dafür optimierter Software ab.

Wie wir in den zahlreichen Spiele-Benchmarks und der Theorie zum Shader-Multiprozessor ausführen, verfügt Ampere über eine signifikant erhöhte Leistung bei 32-bit-genauen Gleitkommaberechnungen. Diese lässt sich mit entsprechendem Workload tatsächlich abrufen, wie der AIDA64 GPGPU-Benchmark aufzeigt. Dabei handelt es sich um einen synthetischen Bestwert, der zumindest in Spielen so nie erreicht wird - bei Anwendungen wie Rendering ist das jedoch möglich. Beachten Sie bei den folgenden Zahlen auch die Integer-Werte (Ganzzahlenformat), welche bei allen Turing-GPUs erwartungsgemäß sehr hoch ausfallen. Ampere kann sich hier - ebenfalls erwartungsgemäß - nicht absetzen, da Anzahl der dazu fähigen Einheiten nicht gestiegen ist. RTX 3080 und RTX 2080 Ti rechnen hier beide mit ihren 4.352 Zusatz-ALUs.

AIDA64 GPGPU Benchmark

RTX 3080 RTX 2080 'Ultra' (sim.) RTX 2080 Ti GTX 1080 Ti RTX 2080 Super RTX 2070 Super Radeon VII RX 5700 XT RX Vega 56 GTX 1070 GTX 980 Ti

Vollbild-Vergleich

Immer wieder einen Blick wert ist auch "Memory Copy", der Test der effektiven Speichertransferrate. In einer perfekten Welt schlügen die 760 GByte/s der Geforce RTX 3080 linear durch, in der Praxis ist dies trotz diverser Effizienzkniffe jedoch kaum zu erreichen. Die Differenz zwischen theoretischer und praktisch erreichter Transferrate kann sich bei der RTX 3080 durchaus sehen lassen.

Die beiden Tests Read & Write testen hingegen den PCI-Express-Durchsatz - ein gutes Stichwort. Nachdem AMD seit über einem Jahr Prozessoren und Grafikkarten anbietet, welche das PCI-E-4.0-Protokoll beherrschen, zieht Nvidia mit Ampere nach. Die Geforce RTX 3080 ist die erste Gaming-Geforce mit verdoppelter Transferrate "untenrum". Wir haben neben AIDA64 auch den aktuellen 3DMark damit konfrontiert. Die Daten zeigen deutlich, dass PCI-Express 4.0 einen knapp verdoppelten Durchsatz bringt. Dieser hilft in der Praxis vor allem dann, wenn der Grafikspeicher ausgeht, da dann viele Transfers in und aus den Hauptspeicher stattfinden.
Quelle: PC Games Hardware PCI-Express-Durchsatz

Interessanterweise erreichen Radeon-Grafikkarten gemäß der beiden Synthies stets einen höheren Durchsatz am Slot als Geforce-Grafikkarten. Das betrifft 3.0-Modelle wie Vega im Vergleich mit Turing und Pascal, aber auch Ampere gegen Navi. So schleust eine RX 5700 (XT) mehr als 26 GByte/s von A nach B, im Mittel fünf Prozent mehr als die RTX 3080 (24,9 GByte/s). Letztere zeigt dabei eine nahezu perfekte Skalierung ausgehend von einer RTX 2080 Ti/Super von +99 Prozent. Praktische Leistungsunterschiede sind durch die Differenz zwischen AMD und Nvidia nicht zu erwarten, hier zählt vor allem das absolute Niveau gegenüber PCI-Express 3.0 - Faktor 2. Wir arbeiten an weiteren Tests, welche sich dem Thema PCI-Express-Leistung annehmen, flankiert von Szenarien mit Speichermangel.

Geforce RTX 3080 im Test: Pro-Takt-Duell

Ampere verfügt bekanntlich über doppelt so viele FP32-Rechenwerke wie Turing - doch schlägt das überhaupt durch? Während Sie die Theorie dazu in der ausführlichen Technik-Abhandlung nachlesen können, leiten wir hier zur Praxis über. Wir haben mithilfe einer bunten Spezial-Benchmarkmischung überprüft, wie stark sich eine Geforce RTX 3080 von einer RTX 2080 Ti absetzen kann. Die Verbesserungen des GA102-Chips lassen sich relativ komfortabel mit TU102 vergleichen, wenn beide Grafikkarten mit gleichem Takt getestet werden.

Wir entscheiden uns für ein Duell mit erhöhten Taktraten, wobei Turing in Gestalt der mächtigsten Herstellerkarte die Basislinie einzeichnet. Wir stellen eine MSI Geforce RTX 2080 Ti Gaming Z derart ein, dass sie (bei effektiv 340 Watt) mit rund 2.000 MHz arbeitet, während der 11 GiByte große GDDR6-Speicher mit stolzen 9.000 MHz respektive 18 GT/s arbeitet. Somit bietet die Turing-Karte 792 GByte/s Speicherdurchsatz sowie 17,4 TFLOPS an FP32-Leistung. Ampere testen wir in Gestalt der Nvidia Geforce RTX 3080 Founders Edition, welche wir (bei effektiv 380 Watt) ebenfalls auf rund 2.000 MHz hieven. Hier übertakten wir den Speicher ebenfalls, allerdings verhältnismäßig gering: Mit effektiv +900 MHz (19,8 GT/s) erreicht auch diese Grafikkarte 792 GByte/s Speichertransferrate, sodass sich beide GPUs relativ frei entfalten können. Die Zahl der ALUs beträgt 4.352+4.352 im Falle beider Grafikkarten. Der Unterschied zwischen den nominell gleich schnellen Grafikkarten liegt im Detail: Turing bietet neben den FP32-ALUs ebenso viele INT32-ALUs, welche je nach Code-Mix die Leistung erhöhen können, während Amperes Doppel-ALUs allesamt Floating-Point-Berechnungen durchführen und somit fast 35 TFLOPS leisten können. Es ist davon auszugehen, dass moderne Spiele immer von höherer Gleitkommaleistung profitieren.

Ein Großteil der Benchmarks findet in WQHD und Ultra HD statt, allerdings gehen wir in einigen Fällen hinauf bis 8K. Das volle Benchmark-Brett finden Sie in der kommenden PCGH 11/2020, an dieser Stelle springen wir direkt zur (nicht minder spannenden) Auswertung. Zur Erinnerung: PCGH testet auf einer potenten PCI-Express-4.0-fähigen Infrastruktur, was Ampere und anderen modernen GPUs die bestmögliche Entfaltung ermöglicht.
Quelle: PC Games Hardware Ampere vs. Turing bei gleichem Kerntakt und Speicherdurchsatz: Die spannenden Ergebnisse Oha - hier zeigen sich spannende Dinge. Werfen wir zunächst einen Blick auf den WQHD-Datensatz, bei dem Ampere ein Durchmarsch gelingt: GA102 ist pro Takt immer schneller als TU102, mit Abständen von 3 bis 34 Prozent. Zugegeben, wir legen Nvidias neuem Sprinter ein paar Steine in den Weg, indem wir einige sehr speicherlastige Titel mittesten. Den meisten weicht die Geforce RTX 3080 souverän aus - sogar dem 2016er-Speichertöter Rise of the Tomb Raider. Doch der Reihe nach: Wolfenstein Youngblood ist unter WQHD tatsächlich prozessorlimitiert, da wir nicht nur mit Raytracing, sondern auch DLSS (Qualität) testen. Daher rührt das geringe Performance-Plus gegenüber der RTX 2080 Ti. Also auf zur nächsten Auflösung - und plötzlich kommt Ampere heftig ins Straucheln. Wie bereits erwähnt, wollten wir es nicht zu einfach machen, daher haben wir zwar DLSS aktiviert, allerdings auch die maximale Textur-Pool-Größe. Letztere bringt die 10 GiByte der RTX 3080 zum Bersten, wenngleich noch fast 54 (zu 92) Fps herauskommen. Der Wechsel auf 5K lässt Ampere schließlich (ab)stürzen, hier ist nichts zu machen. Die Geforce RTX 2080 Ti schultert den 5K-Test nur unter großem Schmerz und lagert Gigabytes an Daten aus, hier sind noch 24 Fps möglich. So ähnlich sieht es auch in Resident Evil 3 in 5K Zielauflösung aus.

Klammert man die Fälle aus, bei denen der Speicher limitiert, verhilft Ultra HD dem GA102 zu besseren Ergebnissen als unter WQHD, der Abstand wächst in den allermeisten Fällen um wenige Prozente an. Dabei müssen wir den fluktuierenden GPU-Boost kurz vergessen, wirklich felsenfeste 2 GHz sind mit modernen GPUs nicht einstellbar, sodass die Leistung stets leicht in Abhängigkeit zur Auflösung, Temperatur und Auslastung schwankt. Insgesamt scheint jedoch das Erwartete einzutreten: Ampere benötigt viele Pixel, um seine zahlreichen FP32-Einheiten auszulasten. Denn viele Pixel bedeuten viel Shading-Arbeit bei gleicher Last auf den Geometrie-Einheiten. Alte Hasen fühlen sich an frühere AMD-Chips erinnert, beispielsweise Fiji alias Radeon R9 Fury X: Je mehr Pixel, desto besser konnte sich der Kern in Szene setzen - prozentual!

Jenseits von Ultra HD passiert dann noch etwas Bemerkenswertes. In zwei von drei Spielen, welche wir bis hinauf zu 8K (7.680 × 4.320 Pixel) getestet haben, kann die RTX 3080 prozentual weiter zulegen. Ausgerechnet Doom Eternal, das auf dem GA102 hervorragend läuft, skaliert negativ. Dafür gibt es eine gute, bereits bekannte Erklärung: Der Speicher genügt für die gigantischen Framebuffer nicht mehr vollends, sodass Daten ausgelagert werden müssen. Faktisch müssen wir für 8K den Textur-Pool von "Ultra Albtraum" auf "Albtraum" reduzieren, ansonsten verwehrt das Spiel diese Einstellung - mit der RTX 2080 Ti geht's, allerdings testen wir der Fairness halber beide Grafikkarten unter 8K mit "Albtraum". Damit sind wir wieder bei Fiji: Wie die Fury X hat auch die RTX 3080 das Problem, dass ihr hohe Auflösungen zwar helfen, dabei jedoch früher als gewollt der Punkt kommt, an dem die Speicherkapazität bremst.

Apropos: Genügt der Grafikspeicher nicht, kommt es zu verstärktem Verkehr auf dem PCI-Express. Das Ausmaß lässt sich neuerdings mithilfe des Tools CapFrameX anzeigen. Wir bereiten momentan weitere PCI-Express-Messungen vor, welche die Unterschiede zwischen den Standards 4.0 und 3.0 in Spielen beleuchten.