Technik: RDNA 4 vs. RDNA 3 inkl. Pro-Takt-Test
In diesem Artikel
- Seite 1 Übersicht und Daten
- Seite 2 Technik: RDNA 4 vs. RDNA 3 inkl. Pro-Takt-Test
- Seite 3 Spiele-Benchmarks und Leistungsindex
- Seite 4 Raytracing-Benchmarks und Leistungsindex
- Seite 5 Pathtracing-Benchmarks und Leistungsindex
- Seite 6 Leistungsaufnahme und Energie-Effizienz
- Seite 7 Preis-Leistung (Raster und Raytracing) und Fazit
- Seite 8 Bildergalerie
Die Radeon RX 9070 und RX 9070 XT waren die ersten Produkte auf Basis der RDNA-4-Generation, es folgten die RX 9070 GRE (bisher nur in China) und nun die RX 9060 XT. AMD geht mit dieser Generation alle bekannten Flaschenhälse von RDNA 3 (Radeon RX 7000) an. Auf dieser Seite sehen wir unter den Heatspreader - was macht RDNA 4 so schnell und was leistet Navi 44 gegenüber Navi 33?
Quelle: AMD (Screenshot: PCGH)
AMDs Vision = Pflichtenheft für RDNA 4
RDNA 4 hat bei der Leistung pro Recheneinheit gegenüber RDNA 3 sowohl beim Rasterizing als auch Raytracing und Machine Learning deutlich zugelegt. AMD attestiert RDNA 4 in etwa 40 Prozent mehr Rasterleistung, wobei diese sich zu gleichen Teilen aus einer höheren Taktfrequenz und einer höheren Leistung pro Taktzyklus, der sogenannten IPC-Rate ("Instructions per Cycle"), zusammensetzt. Die Raytracing-Performance soll indes um etwa 70 Prozent ansteigen, während der Leistungszuwachs im Hinblick auf KI alias Machine Learning sogar 100 Prozent betragen soll.
Quelle: AMD (Screenshot: PCGH)
RDNA 4 CU
Aufgemotzte Raytracing-Rechenwerke
Was die Raytracing-Beschleunigung angeht, bleibt der Hersteller bei seinem bislang genutzten Konzept und ändert den Aufbau nicht grundlegend. So gibt es nach wie vor keine separaten Raytracing-Beschleuniger. AMDs Weg ist dabei ausdrücklich ein transistorsparender: Anstelle von dedizierten RT-Cores werden die Textureinheiten dazu befähigt, Ray-Intersection-Tests "in Teilzeit" durchzuführen. Bereits RDNA 3 weist zusätzliche Instruktionen gegenüber RDNA 2 auf, um diese Arbeit zu beschleunigen. Nvidia geht seit deren erster Raytracing-Generation (Turing) einen anderen Weg, bei dem separate, mächtige Fixed-Function-Einheiten diese und weitere Arbeiten übernehmen. Intel beschreitet bei Arc Alchemist seit 2022 den Weg Nvidias. Dennoch: Wie PCGH-Praxistests zeigen, hat AMD mit RDNA 4 erstmals eine Raytracing-Leistung, die der Konkurrenz pro Rechenwerk das Wasser reichen kann.
Quelle: AMD (Screenshot: PCGH)
Architektur
Im Vergleich zu RDNA 3 verfügt RDNA 4 über eine doppelt so hohe Intersection Rate. Damit ist es möglich, doppelt so schnell zu prüfen, ob einer der geschickten Strahlen auf etwas trifft. Auch das Ray Taversal arbeitet durch BVH8, welches BVH4 ablöst, doppelt so schnell, sodass Strahlen pro Taktzyklus nun doppelt so tief in die BVH-Struktur eindringen können, als das noch bei RDNA 3 der Fall war. Unter dem Strich verspricht der Hersteller, dadurch 70 Prozent mehr Raytracing-Performance zu liefern. Allein bis zu 10 Prozent mehr Raytracing-Performance sollen sich durch die sogenannten Oriented Bounding Boxes erzielen lassen, welche es ermöglichen, die BVH-Struktur an schräg im Raum platzierte Objekte anzupassen. Durch den Out of Order Memory soll sich zudem die Speicherlatenz reduzieren und die Renderpipeline effektiver auslasten lassen. Gleiches gilt ebenso für die KI-Beschleunigung, die sowohl Spieler als auch Creator adressieren soll.
KI-Unterstützung
Während RDNA 4 im Vergleich zu RDNA 3 und RDNA 3.5 (Mobile/APU) bei der KI-Beschleunigung von Gleitkommazahlen mit halber Genauigkeit (FP16) sowie Ganzzahlen (INT8) um den Faktor 2 respektive den Faktor 4 zulegt, wird unter Verwendung des Features "Sparsity", welches auf dünnbesetzte Matrizen, die sogenannten "Sparse Matrices", zurückgreifen kann, sogar die bis zu achtfache Rechenleistung für die Beschleunigung von Künstlicher Intelligenz bereitgestellt. Von diesem Leistungsplus im Hinblick auf die KI-Beschleunigung profitieren dank FSR 4 auch Spieler.
Quelle: AMD (Screenshot: PCGH)
KI
FSR 4 als Gamechanger
AMDs neueste Upscaling-Technologie FSR 4 macht dank der Unterstützung von Künstlicher Intelligenz ("KI") und Maschinellem Lernen ("ML") einen großen Schritt nach vorn und wird dadurch konkurrenzfähiger zum Klassenprimus DLSS von Nvidia. AMD verspricht für die Kombination aus dem neuen FidelityFX Super Resolution 4 und Frame Generation eine nochmals deutlich bessere Bildqualität bei gleichzeitig niedrigerer Latenz. Trainiert wird der FSR-4-Algorithmus dafür auf AMD Instinct-GPUs. In Kombination mit Frame Generation sollen sich die Frameraten in 4K/UHD ("2160p") im Performance-Mode um das bis zu 3,7-fache steigern lassen. Doch auch ganz ohne Zwischenbildberechnung soll FSR 4 einen großen Leistungssprung erzielen. FSR 4 ist RDNA-4-GPUs vorbehalten, RDNA 3 und älter wird, Stand jetzt, nicht mit dem Verfahren bedacht, da die älteren Rechenwerke nicht die notwendige Leistung für das aufwendige Verfahren bereitstellen.
PCI-Express 5.0 ×16 - oder doch nicht?
Weitere Neuerungen betreffen unter anderem die Media Engine sowie PCI-Express-Anbindung. AMD bewirbt die Radeon RX 9060 XT ausdrücklich mit vollwertigem PCI-Express 5.0 ×16. Dieses Merkmal haben wir selbstverständlich ebenfalls getestet - und sind dabei auf ein interessantes Verhalten gestoßen:
Quelle: PCGH
PCI Express Transfer Rate: Radeon RX 9060 XT 16GB
Überraschung: Die uns vorliegenden 9060-XT-Grafikkarten erreichen laut AIDA64 General Purpose Benchmark nur die halbe Leseleistung, vergleichbar mit PCI-Express 5.0 ×8. Nachdem wir diese Beobachtung an AMD übermittelt hatten, forschten wir weiter, unter anderem am sekundären GPU-Testsystem. Das Ergebnis: Auf einem Z790 mit Core i7-14900K werden ~35/46 GByte/s erreicht, während alle 9070er-Modelle stets auf rund 48 GB/s kommen. Der Unterschied zwischen Navi 44 und Navi 48 zieht sich somit wie ein roter Faden durch unsere Tests. Am Morgen des 4. Juni erhielten wir von AMD die folgende Rückmeldung:
Es gibt keinen Hardware-Grund, warum Navi44 eine geringere PCIE5-Bandbreite als Navi48 haben sollte. In Übereinstimmung mit PCGHs Daten sehen wir, dass der AIDA64-Lesewert je nach verwendeter Testplattform variiert (von 16GB/s bis zu fast 50GB/s). Wir sind dabei, die Ursache dafür zu erforschen.
Dabei handelt es sich um eine Entwarnung. Unser Verdacht, dass im Navi-44-Chip möglicherweise eine Copy-Engine eingespart wurde, oder ähnliche Maßnahmen, um Transistoren einzusparen, wird zerstreut. Die Hardware ist demnach vollständig ×16-5.0-fähig, derzeit läuft aber noch nicht alles reibungslos. Dieser Makel ist verschmerzbar, denn die Radeon RX 9060 XT erreicht einen höheren Durchsatz als die Geforce RTX 5060 (Ti), welche konsequent acht Lanes nutzt. In beiden Fällen lohnt sich der Kauf des 16-GiByte-Modells, um exzessive Transfers via PCI-Express zu vermeiden - diese treten erst bei Speichermangel auf.
Praxistest: RDNA 4 vs. RDNA 3
Butter bei die Fische: Wie viel stärker ist RDNA 4 gegenüber RDNA 3? Das ist abseits von Simulationen nicht leicht zu bestimmen. Mit der Radeon RX 9060 XT ist aber ein beinahe perfektes Versuchskaninchen erschienen, um Direktvergleiche mit der Radeon RX 7600 XT anzustellen. Bei beiden GPUs - Navi 44 und Navi 33 - handelt es sich um Monolithen mit je zwei Raster-Engines, 2.048 Dual-Issue-fähigen FP32-Einheiten und einer 128-Bit-Verbindung zum Speicher. Neben dem Aufbau der Rechenwerke trennt die beiden nur Takt - und ein weiteres Detail, das wir mithilfe von synthetischen Tests verifizieren konnten: Navi 44 verfügt über 4 MiByte Level-2-Zwischenspeicher, Navi 33 nur über 2 MiByte. Dieses Detail verhilft Navi 44 zu einer deutlich höheren effektiven Speichertransferrate. Danach kommen, mit absteigender Hierarchie, in beiden Fällen 32 MiByte L3-Cache sowie 16 GiByte GDDR6-Speicher.
Für den folgenden Vergleich haben wir je eine Radeon RX 9060 XT 16GB und eine Radeon RX 7600 XT 16GB auf 3 GHz Chiptakt gesetzt (das neue Modell folglich untertaket, das alte Modell übertaktet). Beim Speicher gelang uns bedauerlicherweise keine Takt-Parität, da sich der VRAM einer 9060 XT nicht untertakten lässt und wir bei der 7600 XT knapp an den notwendigen 2.500 MHz Command Clock scheitern. Da der L2-Cache ohnehin massive Auswirkungen hat, verbuchen wir die minimale Abweichung als nicht relevant und kommen direkt zu den Ergebnissen (allesamt Full HD/1080p):
Wichtig: Dank 16 GiByte liegt zu keiner Zeit ein Limit durch die Speicherkapazität vor, wir sehen hier die reine Grafikkarten-Leistung! Spätestens an dieser Stelle wird deutlich, welch großer Wurf RDNA 4 ist. Die Vorgänger-Architektur rechnet in ihrer besten Form - schmal, hochtaktend und nicht durch Chiplets ausgebremst - und ist dennoch massiv unterlegen. Dabei beherzigt die Benchmarkauswahl das sehr unterschiedliche Abschneiden von RDNA 4 gegenüber RDNA 3. So zeigen etwa Baldur's Gate 3, Outcast: A New Beginning und Hunt: Showdown 1896 den Worst-Case für die neue Architektur, während die anderen Tests besonders hohe Gewinne bescheinigen. Besonders eindrücklich ist das Geschehen in Cyberpunk 2077: Mit Raytracing wird ein Leistungsplus von 78 Prozent erreicht, mit Pathtracing sogar 130 Prozent. Damit ist erneut bewiesen, dass AMDs frühere Raytracing-Schwäche nicht auf Nvidia-affinen Code, sondern tatsächlich auf die bislang schwachen Rechenwerke zurückzuführen ist. Mit dieser Vorschau auf die zu erwartende Gaming-Leistung leiten wir über zu den "normalen" Benchmarks.
- Seite 1 Übersicht und Daten
- Seite 2 Technik: RDNA 4 vs. RDNA 3 inkl. Pro-Takt-Test
- Seite 3 Spiele-Benchmarks und Leistungsindex
- Seite 4 Raytracing-Benchmarks und Leistungsindex
- Seite 5 Pathtracing-Benchmarks und Leistungsindex
- Seite 6 Leistungsaufnahme und Energie-Effizienz
- Seite 7 Preis-Leistung (Raster und Raytracing) und Fazit

Dabei machten die Helden hier schon vor einem Vierteljahrhundert die 16 proppenvoll!
#BuyDifferent
#HögschdeSnelheid
#3dfxOderNix
[Ins Forum, um diesen Inhalt zu sehen]
[Ins Forum, um diesen Inhalt zu sehen]
Mehr dazu soon(tm).
MfG
Raff