Radeon RX 6700 XT im Test: Technik-Details

184

Test 18.03.2021 um 14:13 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

In diesem Artikelabschnitt werfen wir einen erneuten Blick unter die Haube von RDNA 2 (Radeon RX 6000).

In diesem Artikel

Seite 1 Radeon RX 6700 XT im Test: Hallo, Navi 22!
1. 1.1 Radeon RX 6700 XT im Test: Positionierung
2. 1.2 Radeon RX 6700 XT im Test: Navi 22 sagt hallo
  1. 1.2.1 Unterschiede und Gemeinsamkeiten
  2. 1.2.2 Custom-Designs vorgestellt
Seite 2 Radeon RX 6700 XT im Test: Technik-Details
Seite 3 Radeon RX 6700 XT im Test: Benchmarks & Index
Seite 4 Radeon RX 6700 XT im Test: Kühlung, Lautheit, Verbrauch, Effizienz
Seite 5 Radeon RX 6700 XT im Test: Fazit und Empfehlungen
1. 5.1 Radeon RX 6700 XT im Test: tl;dr
Seite 6 Bildergalerie

Technisch entspricht Navi 22 seinem großen Bruder Navi 21 - allerdings in herunterskalierter Form. Beide basieren auf der RDNA-2-Architektur, welche Ende 2020 ihr Debüt am PC und in Konsolen feierte. Die Radeon RX 6900 XT stellt das Beste dar, was RDNA 2 zu bieten hat, die Radeon RX 6700 XT bringt all das in die Mittelklasse. Im Folgenden vergleichen wir nicht nur Navi 21 mit Navi 22, sondern beide auch mit Navi 10.

Sieht man sich die Blockdiagramme von Navi 10 (RX 5700) und Navi 21 (RX 6800/6900) an, entspricht Letzterer zu weiten Teilen einem verdoppelten Navi 10. Die Shader Engine (SE), die größten Funktionsblöcke innerhalb eines AMD-Grafikchips, sind nun vier- anstatt zweimal vorhanden. Damit einher geht die Verdopplung der Compute Units mit allen darin enthaltenen Rechenwerken: 80 CUs, 5.120 FP32-Shader-ALUs und 320 Textureinheiten sind im Navi-21-Vollausbau vorhanden. Doch nicht alles wurde verdoppelt. Da wäre die bei vielen vorherigen AMD-Generationen stiefmütterlich behandelte Geometrieleistung, deren Pro-Takt-Output nicht angefasst wurde. Hier verlässt sich AMD offenbar rein auf die neue Mesh-Shader-Funktion, welche jedoch eine explizite Implementierung durch Spielentwickler benötigt, um ihre wundersame Wirkung zu entfalten - im Gegensatz zu Vega und dessen Primitive Shaders jedoch mit deutlich besseren Zukunftsaussichten. Außerdem beläuft sich die Anzahl der Asynchronous Compute Engines nach wie vor auf vier, welche nun doppelt so viele Compute Units unter ihren Fittichen haben. Bei der Anzahl der Raster-Endstufen, von AMD Render Backends oder allgemein ROPs genannt, sieht es wieder besser aus. Ihre Anzahl wurde nicht nur auf 128 verdoppelt, sondern auch einige Formate beschleunigt.

Quelle: AMD (Screenshot: PCGH) Radeon RX 6700 XT: Navi 21 vs. Navi 22 Verdopplungen der Einheiten führen bestenfalls zu verdoppeltem Durchsatz, sofern die Auslastung gewährleistet ist. Was der Leistung immer hilft und eines der Designziele für RDNA 2 war, ist Takt. AMD verkündet nicht ohne Stolz, dass eine RDNA-2-CU pro Watt entweder um 30 Prozent schneller takten kann, oder bei RDNA-1-Taktraten nur die Hälfte der Energie braucht. Das sind beeindruckende Zahlen angesichts des weitgehend gleichen Fertigungsprozesses; die kommen jedoch nicht ohne Opfer. AMD gibt auf PCGH-Nachfrage zu Protokoll, dass die Pipeline an einigen Stellen verlängert wurde, um die hochgesteckten Taktziele zu erreichen. Wundern Sie sich jedenfalls nicht, wenn Sie in den folgenden Benchmarks keine einzige Taktrate unter 2 GHz erblicken - Navi 21 boostet phasenweise auf mehr als 2,5 GHz. Der hohe Takt führt zu rascher Abarbeitung aller Aufgaben und steigert auch die Leistung jener Komponenten, die gegenüber Navi 10 nicht verdoppelt wurden.

Quelle: AMD (Screenshot: PCGH) Radeon RX 6700 XT vs. Radeon RX 5700 XT

Cache talks, DRAM walks

Die schnellsten Rechenwerke sind nutzlos, wenn sie nicht zeitnah mit Daten gefüttert werden können und daher ständig warten müssen. Hier kommen die rasanten Zwischenspeicher, Caches genannt, zum Zuge. Die meisten Grafikchips, darunter die älteren AMD-GPUs Vega und Polaris, verfügen pro Shader-Cluster über einen 16 KiByte fassenden Level-1-Cache, zusätzlich teilen sich alle Compute Units einen 4 MiByte großen L2-Cache. Hierarchisch betrachtet fungiert der bei diesen Grafikkarten als letztes angeschlossene Grafikspeicher als "off-chip L3-Cache" - die Daten verlassen den Kern, was energie- und zeitaufwendige Anfragen zur Folge hat.

RDNA-Chips verfügen über eine weitere Cache-Stufe dazwischen: Was bei Vega und Polaris der L1-Cache ist, entspricht bei Navi dem "L0". Hier teilen sich stets zwei Compute Units eine Cache-Partition, welche mit doppelter Transferrate angebunden ist. Den anschließenden L1-Cache teilen sich jeweils fünf Dual Compute Units. Diese Zwischenablage dient dazu, die Daten möglichst nah bei den Rechenwerken zu halten, anstatt in den langsameren L2-Cache auszulagern. Letzterer ist seit mehreren AMD-Generationen 4 MiByte groß, Navi 21 bricht nicht mit dieser Tradition (und auch Nvidias GA104 verfügt über diese Menge). Dadurch, dass Navi 21 nun doppelt so viele Shader-ALUs beherbergt wie Navi 10, steht pro Einheit weniger L2-Cache zur Verfügung - die Lösung dieses Problems finden Sie im folgenden Absatz. Unterstützung beim Vorhaben, die Daten schnell intern zu bearbeiten, kommt durch die erneut verbesserte Delta Color Compression. Diese verlustfreie Kompression funktioniert nun innerhalb der kompletten Grafik-Pipeline und reduziert den Bandbreitenbedarf - nicht aber die Belegung. Bedauerlicherweise ging AMD auf Nachfrage nicht ins Detail, wo sich RDNA 1 und RDNA 2 unterscheiden, offiziell gab es jedoch minimale Verbesserungen, sodass die Kompression nun tatsächlich überall aufrechterhalten wird.

Die wahre Innovation wurde laut AMD vor etwa drei Jahren erdacht: Navi 21 verfügt über einen 128 MiByte großen SRAM mit der Bezeichnung "Infinity Cache", welcher direkt im Kern - zwischen L2-Cache und den DRAM-Controllern - platziert wird. Dieser adaptiert das Wissen aus der Zen-Prozessor-Entwicklung, welche sich bereits seit Jahren mit großen und möglichst dicht gepackten Level-3-Caches auseinandersetzt. Ein Core Complex in Zen 2 (Ryzen 3000) bringt, so AMD, 32 MiByte L3-Cache auf lediglich 27 mm² unter - und Navi 21 folgt diesem Pfad. Zwar verschweigt AMD die Größe des nunmehr 128 MiByte großen SRAM-Bereichs und die genutzten Bibliotheken, milchmädchenhaft hochgerechnet nimmt der Infinity Cache in Navi 21 jedoch 102 mm² ein. Das entspricht, ausgehend von den offiziellen (rund) 520 mm², immerhin fast einem Viertel des gesamten Kerns. AMD hätte dieses Unterfangen kaum gewagt, wenn es sich nicht lohnen würde.

Egal ob Radeon RX 6900 XT, RX 6800 XT oder RX 6800, sie alle verfügen über die vollen 128 MiByte Infinity Cache. Eine Radeon RX 6900 XT mit ihren vollständig aktiven 80 Compute Units verfügt somit Chip-weit über ~143 MiByte Zwischenspeicher direkt neben den Ausführungseinheiten. Zum Vergleich: Eine Geforce RTX 3090 bringt es auf gerade einmal ~20 MiByte. Die große Datenablage direkt neben den Rechenwerken resultiert in kurzen Signalwegen und somit geringer Latenz. Die Kommunikation erfolgt über das ebenfalls aus dem CPU-Bereich adaptierte Infinity Fabric (wie schon bei Navi 1x) - in Navi 21 neuerdings mit dynamischer, lastabhängiger Frequenz. Mit anderen Worten: Cache und Datenbahn arbeiten mit einer eigenen, vom Rest des Kerns entkoppelten Taktdomäne (SoC Clock). 16 jeweils 64 Byte breite Interfaces, ergo 1.024 Byte insgesamt, takten in bandbreitenlastigen Szenarien mit maximal 1,94 GHz. Dies resultiert in einer Chip-internen Maximaltransferrate von beinahe 2 TByte/s - viermal so viel wie der am Ende angebundene GDDR6-Grafikspeicher. Da Spiele, so AMD, zur Laufzeit sehr unterschiedliche Anforderungen an die Bandbreite stellen, erfolge die Taktung des Infinity Fabric kontextabhängig. Ist auf dem Datenpfad wenig los, taktet das Gebilde aus energetischen Gründen mit rund 1,4 GHz (-> 1,44 TByte/s), bei vielen Anfragen hingegen mit besagten 1,94 GHz (-> 1,99 TByte/s). Diese spezielle Taktdomäne lässt sich nicht durch GPU-Overclocking anheben.
Quelle: AMD (Screenshot: PCGH) Radeon RX 6700 XT: Infinity Cache
Der große On-Chip-Cache ist nicht bloß schnell, sondern hat die zweite wichtige Aufgabe, energieaufwendige Transfers in den GDDR6-Grafikspeicher abzufangen. Somit schlägt die Idee zwei Fliegen mit einer Klappe: Die Abhängigkeit zum klassischen Grafikspeicher nimmt drastisch ab (wenngleich das Gros der Daten immer noch dort vorliegt) und die Effizienz steigt. Laut AMD erreiche man in der Praxis mit dem Infinity Cache Hitraten zwischen 58 und 80 Prozent. Das bedeutet vereinfacht ausgedrückt, dass viele Daten, die bereits aus dem knappen L2-Cache geschmissen wurden, im Infinity (L3-)Cache landen und die nächsten Berechnungen somit kaum verzögert werden. Dies helfe laut AMD vor allem modernen Spielen, welche viele Daten unmittelbar spatial und temporal wiederverwenden. Man spricht dabei auch von einem Victim Cache, da dieser alle "Opfer"-Daten auffängt, die zu lange nicht abgefragt wurden und daher nicht mehr in der ersten Reihe sitzen (Eviction). Dabei gilt es zu beachten, dass jede Cache-Abfrage ein paar Zyklen Zeit kostet. Kommt es zu einem Fehlschlag (Miss), etwa weil die Daten nicht mehr im L3-Cache, sondern bereits im Grafikspeicher vorliegen, war die Aktion für die Katz und die Pipeline stockt kurz. Laut AMD habe man in Simulationen festgestellt, dass 128 MiByte den besten Kompromiss aus Machbarkeit und Nutzwert darstellen. Mehr Cache ist natürlich aus Leistungssicht immer besser, allerdings erhöhen die SRAM-Zellen die Fertigungskosten und bergen ein Risiko: GPUs, die einen Defekt in Cache-Transistoren haben, können nicht als Radeon RX 6900 XT, RX 6800 XT oder Radeon RX 6800 verwendet werden. Angemessene Redundanzen sichern laut AMD die Ausbeute an nutzbaren Chips.

Die Alternative zum Infinity Cache war laut AMD unter anderem ein hochtaktender GDDR6-PHY mit 512 Bit Breite, um vergleichbare Transferraten zu erreichen. Ein solcher Aufbau sei jedoch sehr komplex zu routen und signifikant energiehungriger. AMD spricht vom Faktor 6 bis 8 pro Bit gegenüber der Navi-21-Lösung und nickt damit subtil seinem 512-bittigen Hawaii-Chip zu, welcher auch wegen seiner Heißblütigkeit zu Ruhm gelangte. Am Rande ließ man fallen, dass High Bandwidth Memory noch besser gewesen wäre als GDDR6. Da Letzterer jedoch die größtmögliche Flexibilität hinsichtlich Anbietern und Verdrahtung biete, habe man sich dafür entschieden. Möglicherweise sehen wir ja in naher Zukunft RDNA-3-Grafikkarten mit 256 MiByte L3-Cache und 16 GiByte HBM gen2?

Raytracing-Rechenkerne

Mit RDNA 2 alias Navi 2x implementiert AMD erstmals dedizierte Rechenwerke zur Raytracing-Beschleunigung in seine GPU-Hardware und schließt damit zu Nvidia auf. Raytracing, die virtuelle Nachbildung von Lichtstrahlen, ist der "Heilige Gral" des Renderings. Wie das Trinkgefäß aus der Artus-Sage soll Raytracing die Gemeinschaft von Problemen befreien und stattdessen Glückseligkeit bringen. Rasterisierung, wie sie 99,99 Prozent der Spiele verwendet, erzielt nur mithilfe von Tricks und guten Künstlern ein realistisches Bild. Der damit erzielten Präzision sind Grenzen gesetzt - bei genauem Blick fallen die Tricks auf und das Kartenhaus zusammen. Die Idee des Raytracings wurde bereits Ende der 1960er-Jahre im Kontext der Computergrafik diskutiert. In den Folgejahren fanden immer wieder dedizierte Raytracing-Beschleuniger den Weg auf den Markt. Beim Offline-Rendering, etwa für Animationsfilme, ist Raytracing seit Jahren der Goldstandard und auch beim professionellen Design wird die Technologie genutzt, um möglichst nah an der Realität zu modellieren. Bei Spielen, in denen es auf Interaktion und somit hohe Bildraten und niedrige Latenz ankommt, scheiterte es bislang an der Leistung beziehungsweise den richtigen Ideen, wie man Raytracing mit Rasterisierung kombiniert.

Aus einer High-Level-Perspektive betrachtet, erinnern AMDs "Ray Accelerators" (RA) frappierend an Nvidias "RT Cores". Bei beiden handelt es sich um Fixed-Function-Units, spezialisierte Einheiten, die sich primär um die Nachverfolgung der Strahlen kümmern. Ihre Aufgabe ist es, festzustellen, welche Strahlen wo auf Objekte und somit Polygone stoßen - es gilt sprichwörtlich, eine Nadel im Heuhaufen zu finden. Dabei kommt eine wegweisende Vereinfachung zum Einsatz: Anstatt einer pixelweisen, sehr zeitaufwendigen Suche des Polygons wird der Raum zunächst in größere Würfel aufgeteilt, die mithilfe effizienter Algorithmen schneller Aufschluss über darin enthaltene Polygone geben. Vereinfacht gesagt schaut man zunächst in eine große Kiste, die vom Strahl im ersten Schritt getroffen wurde. In dieser Kiste befinden sich weitere, immer kleinere Kisten. Nach einigen Schritten hat man das entsprechende Polygon relativ schnell gefunden und kann mit dem Shading beginnen, während eine pixelweise Suche womöglich immer noch keine Referenz zu diesem Polygon ergab. Wer's genauer wissen will, füttert eine Suchmaschine mit dem Begriff "Bounding volume hierarchy" (BVH).

Die beiden Grafikspezialisten sind sich auch über die für gute Ergebnisse nötige Anzahl an RT-Einheiten einig: eine pro Compute Unit (AMD) respektive Shader Multiprocessor (Nvidia). Angeführt wird stets der Vergleich mit einer Berechnung "in Software", also ohne spezialisierte Hardware-Einheiten, sondern mithilfe der Shader-ALUs. Bei durchschnittlich mehreren Tausend Instruktionen pro Strahl benötigen konventionelle Rechenwerke verhältnismäßig lange für das BVH Traversal, da sich diese Aufgabe nicht parallelisieren lässt. Ray Accelerators und RT Cores beschleunigen diese Arbeit um den Faktor 10 - auch hier sind sich AMD und Nvidia einig - und arbeiten parallel zu den Shader-ALUs. Ist also alles gleich zwischen AMD und Nvidia? Nein, wenngleich die grundlegende Idee von der Berechnungsweise vorgegeben wird. Nach wie vor lautet das Ziel, klassische Rastergrafik mithilfe von gezielt aufgetragenen Raytracing-Effekten realistischer umzusetzen, weshalb man von Hybrid-Raytracing spricht. "Volles" Raytracing würde beim Detailreichtum aktueller Spiele um Faktoren zu lange dauern und bleibt daher weiter Zukunftsmusik. Mehr dazu im Benchmark-Teil dieses Artikels.

Navi 21 verfügt im Vollausbau über 80 Ray Accelerators, Ampere im GA102-Silizium über 84 RT Cores. Das wirkt auf den ersten Blick besser vergleichbar als es ist, denn die Schlagkraft pro Einheit unterscheidet sich zwischen den Architekturen. Maßgeblich ist die sogenannte Triangle Intersection Rate, also das Aufspüren von Polygonen im Raum. Die Radeon-Macher geben an, dass die Leistung pro Ray Accelerator entweder 4 Box-Intersections oder eine Triangle Intersection pro Takt erreicht und ebenfalls vom Infinity Cache profitiert, da dieser viele der unmittelbar wichtigen Daten parat halten kann. Ferner gibt man zu Protokoll, dass es sich beim Raytracing um reine Compute Shader Launches handelt, was Aufschluss über einen wichtigen Unterschied zu Nvidia gibt: Während die RT-Cores auch die BVH-Struktur beschleunigen können, wird diese Aufgabe bei AMD von den Shader-ALUs erledigt. Immerhin: Shading, Texture Fetching und BVH Traversal (die mit Abstand teuerste Komponente) laufen in Navi 21 stets parallel.

Und die Radeon RX 6700 XT?

Navi 22 hat das Ziel, all diese schönen Dinge in die Grafikkarten-Mittelklasse zu bringen. Dazu muss der Kern kleiner werden, was bei gleicher Fertigung nur durch eine reduzierte Menge an Einheiten funktioniert. Hier wird es interessant, denn obwohl Navi 22 über 40 Compute Units und somit genau die Hälfte von Navi 21 verfügt, ist der Chip nicht ansatzweise halb so groß: Es steht 336 zu 520 mm². Das liegt zum einen daran, dass einige Bauteile (wie die Display-Engine) immer vorhanden sein müssen, und zum anderen, dass zusätzliche FP32-ALUs weniger Platz benötigen, als man angesichts der schieren Menge annehmen könnte.

Hauptverantwortlich für die Größe des Kerns ist AMDs Entscheidung, zwei Drittel des soeben erläuterten Cache- und Speicher-Subsystems in Navi 22 aktiv zu lassen: Die Radeon RX 6700 XT kann auf eine 192-Bit-Schnittstelle zum Speicher sowie 96 MiByte Level-3-Cache zurückgreifen. Pro Takt sinkt der Durchsatz um 25 Prozent, womit die Radeon RX 6700 XT pro Rechenoperation über mehr Transferrate verfügt als ihre großen Geschwister. Auch bei Navi 22 hängt die Zahl der Cache-Partitionen mit dem Speicher-Interface zusammen: 12 jeweils 64 Byte breite Interfaces, ergo 768 Byte insgesamt, takten in bandbreitenlastigen Szenarien mit maximal 1,94 GHz. Dies resultiert in einer Chip-internen Maximaltransferrate von 1,49 TByte/s - fast viermal so viel wie der am Ende angebundene GDDR6-Grafikspeicher mit 16 GT/s (384 GByte/s).

Eine Disziplin, bei der sich die halbierte Rechenleistung zweifellos niederschlägt, ist Raytracing. Mit 40 Ray Accelerators (RAs) und anschließender Shading-Leistung steht die RX 6700 XT bereits der RX 6800 (60 RAs) deutlich nach, obwohl Navi 22 einen vergleichsweise hohen Takt auffährt. Da bei der neuartigen Berechnung vieles von den RA-Cores abhängt, lässt sich nicht mehr so viel über weitere Chip-Teile kaschieren wie beim Rasterizing. Wir untersuchen in einer speziellen Raytracing-Messreihe die Auswirkungen.

Am Rande bemerkt: Wir haben mithilfe spezieller Testprogramme ein paar der Kerndisziplinen (im wahrsten Sinne des Wortes) abgeklopft und können unter anderem die Pixel-Füllrate bestätigen: Die Radeon RX 6700 XT stemmt gut die Hälfte einer Radeon RX 6800, was für 64 anstelle von 128 Render-Backends (ROPs) spricht. Die taktnormierte ALU-Latenz ist bei Navi 21 und Navi 22 unterdessen identisch.

Quelle: AMD (Screenshot: PCGH) Navi 21 (RX 6800/6900) neben Navi 22 (RX 6700)