Radeon RX 6900 XT im Test: Technik-Zusammenfassung

507

Test 09.12.2020 um 11:21 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

In diesem Artikelabschnitt werfen wir einen erneuten Blick unter die Haube von RDNA 2 respektive Big Navi.

Auf dieser Seite

1 Cache talks, DRAM walks
2 Strahlenbeschleuniger

Wie eingangs erläutert, stellt die Radeon RX 6900 XT das Beste dar, was AMDs neue RDNA-2-Architektur zu bieten hat. Auf Einheiten-Ebene bringt diese in erster Linie mehr Quantität und auch etwas mehr Qualität gegenüber RDNA 1.

Sieht man sich die Blockdiagramme von Navi 10 (RX 5700) und Navi 21 (RX 6800/6900) an, entspricht Letzterer zu weiten Teilen einem verdoppelten Navi 10. Die Shader Engine (SE), die größten Funktionsblöcke innerhalb eines AMD-Grafikchips, sind nun vier- anstatt zweimal vorhanden. Damit einher geht die Verdopplung der Compute Units mit allen darin enthaltenen Rechenwerken: 80 CUs, 5.120 FP32-Shader-ALUs und 320 Textureinheiten sind im "Full Fat"-Vollausbau von Navi 21 vorhanden. Doch nicht alles wurde verdoppelt. Da wäre die bei vielen vorherigen AMD-Generationen stiefmütterlich behandelte Geometrieleistung, deren Pro-Takt-Output nicht angefasst wurde. Hier verlässt sich AMD offenbar rein auf die neue Mesh-Shader-Funktion, welche jedoch eine explizite Implementierung durch Spieleprogrammierer benötigt, um ihre wundersame Wirkung zu entfalten - im Gegensatz zu Vega und dessen Primitive Shaders jedoch mit deutlich besseren Zukunftsaussichten. Außerdem beläuft sich die Anzahl der Asynchronous Compute Engines nach wie vor auf vier, welche nun doppelt so viele Compute Units unter ihren Fittichen haben. Bei der Anzahl der Raster-Endstufen, von AMD Render Backends oder allgemein ROPs genannt, sieht es wieder besser aus. Ihre Anzahl wurde nicht nur auf 128 verdoppelt, sondern auch einige Formate beschleunigt.

Verdopplungen der Einheiten führen bestenfalls zu verdoppeltem Durchsatz, sofern die Auslastung gewährleistet ist. Was der Leistung immer hilft und eines der Designziele für RDNA 2 war, ist Takt. AMD verkündet nicht ohne Stolz, dass eine RDNA-2-CU pro Watt entweder um 30 Prozent schneller takten kann, oder bei RDNA-1-Taktraten nur die Hälfte der Energie brauche. Das sind beeindruckende Zahlen angesichts des weitgehend gleichen Fertigungsprozesses, kommen jedoch nicht ohne Opfer. AMD gibt auf PCGH-Nachfrage zu Protokoll, dass die Pipeline an einigen Stellen verlängert wurde, um die hochgesteckten Taktziele zu erreichen. Wundern Sie sich jedenfalls nicht, wenn Sie in den folgenden Benchmarks keine einzige Taktrate unter 2 GHz erblicken - Navi 21 boostet als Radeon RX 6800 XT in unseren Tests phasenweise auf mehr als 2,5 GHz. Der hohe Takt führt zu rascher Abarbeitung aller Aufgaben und steigert auch die Leistung jener Komponenten, die gegenüber Navi 10 nicht verdoppelt wurden.

Blockdiagramme RX 6000 (Quelle: Locuza @ Twitter)

RX 6900 XT: 80 CUs RX 6800 XT: 72 CUs RX 6800: 60 CUs

Vollbild-Vergleich

Cache talks, DRAM walks

Die schnellsten Rechenwerke sind nutzlos, wenn sie nicht zeitnah mit Daten gefüttert werden können und daher ständig warten müssen. Hier kommen die rasanten Zwischenspeicher, Caches genannt, zum Zuge. Die meisten Grafikchips, darunter die älteren AMD-GPUs Vega und Polaris, verfügen pro Shader-Cluster über einen 16 KiByte fassenden Level-1-Cache, zusätzlich teilen sich alle Compute Units einen 4 MiByte großen L2-Cache. Hierarchisch betrachtet fungiert der bei diesen Grafikkarten als letztes angeschlossene Grafikspeicher als "off-chip L3-Cache" - die Daten verlassen den Kern, was energie- und zeitaufwendige Anfragen zur Folge hat.

RDNA-Chips verfügen über eine weitere Cache-Stufe dazwischen: Was bei Vega und Polaris der L1-Cache ist, entspricht bei Navi dem "L0". Hier teilen sich stets zwei Compute Units eine Cache-Partition, welche mit doppelter Transferrate angebunden ist. Den anschließenden L1-Cache teilen sich jeweils fünf Dual Compute Units. Diese Zwischenablage dient dazu, die Daten möglichst nah bei den Rechenwerken zu halten, anstatt in den langsameren L2-Cache auszulagern. Letzterer ist seit mehreren AMD-Generationen 4 MiByte groß, Navi 21 bricht nicht mit dieser Tradition (und auch Nvidias GA104 verfügt über diese Menge). Dadurch, dass Navi 21 nun doppelt so viele Shader-ALUs beherbergt wie Navi 10, steht pro Einheit weniger L2-Cache zur Verfügung - die Lösung dieses Problems finden Sie im folgenden Absatz. Unterstützung beim Vorhaben, die Daten schnell intern zu bearbeiten, kommt durch die erneut verbesserte Delta Color Compression. Diese verlustfreie Kompression funktioniert nun innerhalb der kompletten Grafik-Pipeline und reduziert den Bandbreitenbedarf - nicht aber die Belegung. Bedauerlicherweise ging AMD auf Nachfrage nicht ins Detail, wo sich RDNA 1 und RDNA 2 unterscheiden, offiziell gab es jedoch minimale Verbesserungen, sodass die Kompression nun tatsächlich überall aufrechterhalten wird.

Die wahre Innovation mit "Game Changer"-Potenzial wurde laut AMD vor etwa drei Jahren erdacht: Navi 21 verfügt über einen 128 MiByte großen SRAM mit der Bezeichnung "Infinity Cache", welcher direkt im Kern - zwischen L2-Cache und den DRAM-Controllern - platziert wird. Dieser adaptiert das Wissen aus der Zen-Prozessor-Entwicklung, welche sich bereits seit Jahren mit großen und möglichst dicht gepackten Level-3-Caches auseinandersetzt. Ein Core Complex in Zen 2 (Ryzen 3000) bringt, so AMD, 32 MiByte L3-Cache auf lediglich 27 mm² unter - und Navi 21 folgt diesem Pfad. Zwar verschweigt AMD die Größe des nunmehr 128 MiByte großen SRAM-Bereichs und die genutzten Bibliotheken, milchmädchenhaft hochgerechnet nimmt der Infinity Cache in Navi 21 jedoch 102 mm² ein. Das entspricht, ausgehend von den offiziellen (rund) 520 mm², immerhin fast einem Viertel des gesamten Kerns. AMD hätte dieses Unterfangen kaum gewagt, wenn es sich nicht lohnen würde.

Egal ob Radeon RX 6900 XT, RX 6800 XT oder RX 6800, sie alle verfügen über die vollen 128 MiByte Infinity Cache. Eine Radeon RX 6900 XT mit ihren vollständig aktiven 80 Compute Units verfügt somit Chip-weit über ~143 MiByte Zwischenspeicher direkt neben den Ausführungseinheiten. Zum Vergleich: Eine Geforce RTX 3090 bringt es auf gerade einmal ~20 MiByte. Die große Datenablage direkt neben den Rechenwerken resultiert in kurzen Signalwegen und somit geringer Latenz. Die Kommunikation erfolgt über das ebenfalls aus dem CPU-Bereich adaptierte Infinity Fabric (wie schon bei Navi 1x) - in Navi 21 neuerdings mit dynamischer, lastabhängiger Frequenz. Mit anderen Worten: Cache und Datenbahn arbeiten mit einer eigenen, vom Rest des Kerns entkoppelten Taktdomäne (SoC Clock). 16 jeweils 64 Bit breite Interfaces, ergo 1.024 Bit insgesamt, takten in bandbreitenlastigen Szenarien mit maximal 1,94 GHz. Dies resultiert in einer Chip-internen Maximaltransferrate von beinahe 2 TByte/s - viermal so viel wie der am Ende angebundene GDDR6-Grafikspeicher. Da Spiele, so AMD, zur Laufzeit sehr unterschiedliche Anforderungen an die Bandbreite stellen, erfolge die Taktung des Infinity Fabric kontextabhängig. Ist auf dem Datenpfad wenig los, taktet das Gebilde aus energetischen Gründen mit rund 1,4 GHz (-> 1,44 TByte/s), bei vielen Anfragen hingegen mit besagten 1,94 GHz (-> 1,99 TByte/s). Diese spezielle Taktdomäne lässt sich nicht durch GPU-Overclocking anheben.
Quelle: AMD Der Takt des Infinity Caches beträgt maximal 1,94 GHz und ist entkoppelt vom übrigen Kern. Der große On-Chip-Cache ist nicht bloß schnell, sondern hat die zweite wichtige Aufgabe, energieaufwendige Transfers in den GDDR6-Grafikspeicher abzufangen. Somit schlägt die Idee zwei Fliegen mit einer Klappe: Die Abhängigkeit zum klassischen Grafikspeicher nimmt drastisch ab (wenngleich das Gros der Daten immer noch dort vorliegt) und die Effizienz steigt. Laut AMD erreiche man in der Praxis mit dem Infinity Cache Hitraten zwischen 58 und 80 Prozent. Das bedeutet vereinfacht ausgedrückt, dass viele Daten, die bereits aus dem knappen L2-Cache geschmissen wurden, im Infinity (L3-)Cache landen und die nächsten Berechnungen somit kaum verzögert werden. Dies helfe laut AMD vor allem modernen Spielen, welche viele Daten unmittelbar spatial und temporal wiederverwenden. Man spricht dabei auch von einem Victim Cache, da dieser alle "Opfer"-Daten auffängt, die zu lange nicht abgefragt wurden und daher nicht mehr in der ersten Reihe sitzen (Eviction). Dabei gilt es zu beachten, dass jede Cache-Abfrage ein paar Zyklen Zeit kostet. Kommt es zu einem Fehlschlag (Miss), etwa weil die Daten nicht mehr im L3-Cache, sondern bereits im Grafikspeicher vorliegen, war die Aktion für die Katz und die Pipeline stallt kurz. Laut AMD habe man in Simulationen festgestellt, dass 128 MiByte den besten Kompromiss aus Machbarkeit und Nutzwert darstellen. Mehr Cache ist natürlich aus Leistungssicht immer besser, allerdings erhöhen die SRAM-Zellen die Fertigungskosten und bergen ein Risiko: GPUs, die einen Defekt in Cache-Transistoren haben, können nicht als Radeon RX 6900 XT, RX 6800 XT oder Radeon RX 6800 verwendet werden. Angemessene Redundanzen sichern laut AMD die Ausbeute an nutzbaren Chips.

Die Alternative zum Infinity Cache war laut AMD unter anderem ein hochtaktender GDDR6-PHY mit 512 Bit Breite, um vergleichbare Transferraten zu erreichen. Ein solcher Aufbau sei jedoch sehr komplex zu routen und signifikant energiehungriger. AMD spricht vom Faktor 6 bis 8 pro Bit gegenüber der Navi-21-Lösung und nickt damit subtil seinem 512-bittigen Hawaii-Chip zu, welcher auch wegen seiner Heißblütigkeit zu Ruhm gelangte. Am Rande ließ man fallen, dass High Bandwidth Memory noch besser gewesen wäre als GDDR6. Da Letzterer jedoch die größtmögliche Flexibilität hinsichtlich Anbietern und Verdrahtung biete, habe man sich dafür entschieden. Möglicherweise sehen wir ja in naher Zukunft RDNA-3-Grafikkarten mit 256 MiByte L3-Cache und 16 GiByte HBM gen2?

Strahlenbeschleuniger

Mit RDNA 2 alias Navi 2x implementiert auch AMD endlich dedizierte Rechenwerke zur Raytracing-Beschleunigung in seine GPU-Hardware. Raytracing, die virtuelle Nachbildung von Lichtstrahlen, ist der "Heilige Gral" des Renderings. Wie das Trinkgefäß aus der Artus-Sage soll Raytracing die Gemeinschaft von Problemen befreien und stattdessen Glückseligkeit bringen. Rasterisierung, wie sie 99,99 Prozent der Spiele verwendet, erzielt nur mithilfe von Tricks und guten Künstlern ein realistisches Bild. Der damit erzielten Präzision sind Grenzen gesetzt - bei genauem Blick fallen die Tricks auf und das Kartenhaus zusammen. Die Idee des Raytracings wurde bereits Ende der 1960er-Jahre im Kontext der Computergrafik diskutiert. In den Folgejahren fanden immer wieder dedizierte Raytracing-Beschleuniger den Weg auf den Markt. Beim Offline-Rendering, etwa für Animationsfilme, ist Raytracing seit Jahren der Goldstandard und auch beim professionellen Design wird die Technologie genutzt, um möglichst nah an der Realität zu modellieren. Bei Spielen, in denen es auf Interaktion und somit hohe Bildraten und niedrige Latenz ankommt, scheiterte es bislang an der Leistung beziehungsweise den richtigen Ideen, wie man Raytracing mit Rasterisierung kombiniert.

Mit RDNA 2 schließt AMD folglich zu Nvidia auf, welche bereits Mitte 2018 entsprechende Schaltungen in ihre Grafikkarten implementierten. Dies beinhaltet eine wichtige Software-Komponente, deren Grundstein längst gelegt ist: Der AMD-Treiber bietet erstmals Kompatibilität zum Industriestandard DXR, kurz für DirectX Raytracing. Dabei handelt es sich um eine Windows-10-exklusive Schnittstelle und einen Bestandteil von DirectX 12, welchen AMD zusammen mit Nvidia, Intel, Microsoft und weiteren Gremiumsmitgliedern definiert und verabschiedet hat. Während der Kontakt zur Software standardisiert ist, bleibt die Implementierung auf Transistorebene die Sache der Hersteller.

Aus einer High-Level-Perspektive betrachtet, erinnern AMDs neue "Ray Accelerators" (RA) frappierend an Nvidias "RT Cores". Bei beiden handelt es sich um Fixed-Function-Units, spezialisierte Einheiten, die sich primär um die Nachverfolgung der Strahlen kümmern. Ihre Aufgabe ist es, festzustellen, welche Strahlen wo auf Objekte und somit Polygone stoßen - es gilt sprichwörtlich, eine Nadel im Heuhaufen zu finden. Dabei kommt eine wegweisende Vereinfachung zum Einsatz: Anstatt einer pixelweisen, sehr zeitaufwendigen Suche des Polygons wird der Raum zunächst in größere Würfel aufgeteilt, die mithilfe effizienter Algorithmen schneller Aufschluss über darin enthaltene Polygone geben. Vereinfacht gesagt schaut man zunächst in eine große Kiste, die vom Strahl im ersten Schritt getroffen wurde. In dieser Kiste befinden sich weitere, immer kleinere Kisten. Nach einigen Schritten hat man das entsprechende Polygon relativ schnell gefunden und kann mit dem Shading beginnen, während eine pixelweise Suche womöglich immer noch keine Referenz zu diesem Polygon ergab. Wer's genauer wissen will, füttert eine Suchmaschine mit dem Begriff "Bounding volume hierarchy" (BVH).
Quelle: AMD 80 CUs bei der Radeon RX 6900 XT ergeben 80 Ray Accelerators. Die beiden Grafikspezialisten sind sich auch über die für gute Ergebnisse nötige Anzahl an RT-Einheiten einig: eine pro Compute Unit (AMD) respektive Shader Multiprocessor (Nvidia). Angeführt wird stets der Vergleich mit einer Berechnung "in Software", also ohne spezialisierte Hardware-Einheiten, sondern mithilfe der Shader-ALUs. Bei durchschnittlich mehreren Tausend Instruktionen pro Strahl benötigen konventionelle Rechenwerke verhältnismäßig lange für das BVH Traversal, da sich diese Aufgabe nicht parallelisieren lässt. Ray Accelerators und RT Cores beschleunigen diese Arbeit um den Faktor 10 - auch hier sind sich AMD und Nvidia einig - und arbeiten parallel zu den Shader-ALUs. Ist also alles gleich zwischen AMD und Nvidia? Nein, wenngleich die grundlegende Idee von der Berechnungsweise vorgegeben wird. Nach wie vor lautet das Ziel, klassische Rastergrafik mithilfe von gezielt aufgetragenen Raytracing-Effekten realistischer umzusetzen, weshalb man von Hybrid-Raytracing spricht. "Volles" Raytracing würde beim Detailreichtum aktueller Spiele um Faktoren zu lange dauern und bleibt daher weiter Zukunftsmusik. Mehr dazu im Benchmark-Teil dieses Artikels.

Navi 21 verfügt im Vollausbau - als Radeon RX 6900 XT - über 80 Ray Accelerators, Ampere im GA102-Silizium über 84 RT Cores. Das wirkt auf den ersten Blick besser vergleichbar als es ist, denn die Schlagkraft pro Einheit unterscheidet sich zwischen den Architekturen. Maßgeblich ist die sogenannte Triangle Intersection Rate, also das Aufspüren von Polygonen im Raum. Die Radeon-Macher geben an, dass die Leistung pro Ray Accelerator entweder 4 Box-Intersections oder eine Triangle Intersection pro Takt erreicht und ebenfalls vom Infinity Cache profitiert, da dieser viele der unmittelbar wichtigen Daten parat halten kann. Ferner gibt man zu Protokoll, dass es sich beim Raytracing um reine Compute Shader Launches handelt, was Aufschluss über einen wichtigen Unterschied zu Nvidia gibt: Während die RT-Cores auch die BVH-Struktur beschleunigen können, wird diese Aufgabe bei AMD von den Shader-ALUs erledigt. Immerhin: Shading, Texture Fetching und BVH Traversal (die mit Abstand teuerste Komponente) laufen in Navi 21 stets parallel.

Radeon RX 6900 XT im Test: Technik-Zusammenfassung

Auf dieser Seite

Cache talks, DRAM walks

Strahlenbeschleuniger

Artikel teilen

Kommentare (507)