RDNA 5 alias UDNA: Erste handfeste Informationen zu Navi 5X
Aus verlässlicher Quelle kommen die ersten handfesten Informationen zu den Next-Gen-Radeon auf Basis der RDNA-5-Architektur alias UDNA ("GFX13") und den Navi-5x-Grafikprozessoren.
Aus sehr verlässlicher Quelle, nämlich von @Kepler_L2, kommen jetzt die ersten handfesten Informationen zu den Next-Gen-Radeon auf Basis der RDNA-5-Architektur alias UDNA ("GFX13") und den Navi-5X-Grafikprozessoren. Im Forum von AnandTech hat sich der für seine akkuraten sowie in der Vergangenheit zumeist zutreffenden Vorhersagen bekannte Insider zur nächsten Radeon-Generation eingelassen.
Demnach besitzt größer UDNA-Grafikprozessor insgesamt 96 Compute Units ("CUs"), was bei einer Konfiguration mit 64 FP32-Shadereinheiten pro Compute Unit in insgesamt 6.144 FP32-Shadereinheiten resultieren würde. Auch zum Speicherinterface äußerte sich der sehr treffsichere Insider.
- Navi 5X mit 96 CUs: 6.144 FP32-Shadereinheiten + 384-Bit Speicher-IF
- Navi 5X mit 64 CUs: 4.096 FP32-Shadereinheiten + 256-Bit Speicher-IF
- Navi 5X mit 32 CUs: 2.048 FP32-Shadereinheiten + 128-Bit Speicher-IF
Damit würden die Ausführungseinheiten im direkten Vergleich zu RDNA 4 ("GFX12") um 50 Prozent ausgebaut werden und sich schlussendlich wieder auf demselben Niveau von RDNA 3 ("GFX11") bewegen. Auch der Navi-31-Grafikprozessor im Vollausbau ("Navi 31 XTX") verfügt über 96 CUs sowie 6.144 FP32-ALUs.
Quelle: Kepler_L2
Die Mittel-/Oberklasse wiederum, welche demzufolge die Radeon RX 9070 XT ablösen würde, soll demnach bei 64 Compute Units respektive 4.096 FP32-ALUs verharren und weiterhin mit einem 256-Bit breiten Speicherinterface ausgestattet werden. Gleiches würde für einen potenziellen Nachfolger der Radeon RX 9060 XT gelten, der 32 Compute Units und 2.048 FP32-Shadereinheiten bieten könnte.
Quelle: Kepler_L2
Auch zur spekulierten APU für die Playstation 6, welche 80 Compute Units auf Basis der UDNA-Architektur bieten soll, ließ sich Kepler_L2 im AnandTech-Forum ein. Der Insider erwartet einen Performance zwischen einer Geforce RTX 5080 und einer Geforce RTX 4090. Über die Custom-APU ("Magnus") hatte PCGH berichtet.
Quelle: Kepler_L2
Wenngleich @Kepler_L2 für seine exzellenten Kontakt und zumeist zutreffende Vorhersagen bekannt ist, werden bis zum Release der Next-Gen-Radeon auf Basis der UDNA-Architektur noch einige Monate vergehen, sodass sich auch hier noch einiges verschieben kann. Noch mehr gilt das für die Playstation 6, welche nicht vor 2028 erwartet wird. Sämtliche Informationen sind demnach mit Vorsicht zu genießen.
Wie stehen Sie zu diesem Thema? Die PCGH-Redaktion freut sich über Ihre fundierte Meinung in den Kommentaren zu dieser Meldung. Um zu kommentieren, müssen Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie bisher noch keinen Account haben, könnten Sie sich hier unverbindlich registrieren. Beachten Sie beim Kommentieren dieser Meldung aber bitte auch die geltenden Forenregeln.
Quelle: Kepler_L2 via AnandTech-Forum via Wccftech

RTX 4090 war ja wie Dr.Brown (dein Vorposter) bereits sagte nur 27% schneller im Raster als RX7900XTX.
Verbrauch der RTX 4090 war mit 450W aber über 27% höher als der Verbrauch der RX7900XTX mit 350W als Basiswert.
350 / 100 x 27 = 94W
Genau quasi ein Zitat später:
Navi 41 und Navi 42 sollten Multi-Chiplett-GPUs werden und hier gab es Skalierungsprobleme, so dass die Chipletts nicht so skalierten, wie sie sollten. Die Probleme wollte man per Softwarelösen, das ging aber nicht, wodurch Hardwarelösungen kommen müssen.
Navi 48 wiederum ist eine Notfalllösung und ein verdoppelter Navi 44 - was an der Stelle sogar relativ einfach ist umzusetzen. Alle andere Lösungen hätten ein umfassenders Redesign erfordert, dass wesentlich länger gedauert hätte.
Wie gut eine große GPU ausgelastet werden kann hängt von vielen Faktoren ab, darunter die Anzahl der Pixel - Auflösung - als auch die Anzahl der Shader und wie diese geclustert werden könnnen. Eine SM benötigt vier Warps, eine CU benötigt zwei Waves.
RTX 4090 hat 128 SM, die RTX 5090 170 SM, im ganzen also 512 Warps oder 680 Waprs, die zusammen kommen müssen, damit die Karte ausgelastet wird. Bei der RX 9070 XT sind es 128 Waves. Pro Wave/Warp eben bis zu 32/64 Werte. Je weniger CU/SM eine Karte hat, um so einfacher ist sie auszulasten. AD102 und GB202 benötigen also die passende Anzahl an Shader-Programme, sowie die Auflösung, damit genug Warps zusammen kommen. Vor diesem Problem stand AMD - mit GCN und Vega 64 - und hat deswegen die CU umgebaut.
Das sind allerdings allgemeine Probleme, vor denen AMD, Intel und Nvidia stehen und die man nur durch Umorganistation der Rechenwerke lösen kann. AMD ging von Vec16 auf Vec32, Nvidia hat mit Maxwell auf das heutige System mit 4 Tiles a 32 Rechenwerke umgestellt und Intel zu letzt von Vec8 auf Vec16 um die Auslastung zu verbessern.
Für AMD ist es an der Stelle nicht schwerer potenziell eine 96 CU auszulasten wie es für Nvidia mit 96 SM ist, theoretisch ist es für AMD sogar etwas einfacher, da sie weniger Waves benötigen.
AMD hat nur keine 96 CU oder 128 CU dieses mal gebracht, weil die Chips, die diese Anzahl haben sollten, auf Chipletts setzen sollten und damit andere Probleme für die Skalierung hinzu kommen, die mit der Kommunikation innerhalb der Chiplets zutun haben. Bereits bei RDNA hat sich gezeigt, dass die der "interen" Fabric bei einem GCD + MCD-Design ca. 10 % die Latenzen erhöht und dass muss entsprechend aufgefangen werden - mehr Takt im Fabric - wodruch AMD auch hier plötzlich asynchrone Taktraten hatte. Die Shader/CU takten langsamer als der Rest des Chips, damit die Daten entsprechend schnell genug ankommen.
Und genau hier hat es bei RDNA 4 gekracht. Nach den Informationen die umher schwirren, gab es bei RDNA 4 potenziell 3 mögliche aufbauten:
GCD + GCD, wobei jede GCD eine vollwerige GPU gewesen wäre. Verbindung über den L2-Cache.
GCD + GCD + MCD, Verbindung der GCDs erneut über den L2-Cache, MCD mit dem Infinty-Cache.
GCD + MCD, wie bei RDNA 3.
Die Gerüchte gehen aktuell von GCD + GCD aus und da zeigte sich eben, dass GCD + GCD eben nicht so skaliert, wie AMD es erwartet hat. Das liegt an der Stelle aber nicht an dem CU-Count, sondern der Verbindung zwischen den GCDs. Als man das feststellte, wurde versucht die Probleme im Treiber zu lösen, das brachte allerdings nicht den Erfolg, wodurch hier eine Lösung auf Hardware-Ebene her muss. Da sowas sich aber bei RDNA 4 nicht mehr hat umsetzen lassen, wurde der kleinste Navi 44 "verdoppelt" - an der Stelle die einfachste Lösung. Vollständig neue Chips mit nun 80 CU - Navi 21 - oder gar 96 CU Navi 31 - zu entwerfen, hätte deutlich mehr Arbeit gemacht, weil hier ggf. die Menge der Caches und andere Faktoren noch mal hätten angefasst werden müssen und das deutlich länger dauert.
Und dazu kommen halt wirtschaftliche Überlegungen und auch wenn die uns nicht gefallen, die Lösungen die AMD für CDNA nutzt, wären für Consumer-Grafikkarten vermutlich zu teuer, gerade auch mit dem Blick, dass man mit den Mi-Karten deutlich mehr verdient.
Blackwell brachte für RT zwar neue Funktionen, nur werden viele diese Funktionen auch bereits ab Turing unterstützt. Blackwell enthält dann spezifische Anpassungen für diese Funktionen, die es effizienter machen, doch gibt es die Funktionen auch bei Ada Lovelace.
Dazu kommt, dass Turing, Ampere und Ada Lovelace etwas konnten, was Blackwell nun nicht mehr kann: FP und INT-Berechnungen zur gleichen Zeit. Blackwell kann - wie Maxwell und Pascall davor - nur FP oder Int.
Kepler und Maxwell wurden beide in der selben Fertigung bei TSMC bezogen, dennoch ist Maxwell deutlich effizienter unter Leistungsfähiger als Kepler und hatte damals sogar Verkleinerung der Chips mit gebracht. Hier hat Nvidia die Struktur der SMX zu den SM angepasst und damit Effizienz und Leistung gewonnen.
Und auch AMD zeigt mit RDNA 2 - N7 - und ebenso nun, dass es durchaus geht.
Und wenn man dann auch noch ohne diese dlss und so zockt dann wird der Abstand noch kleiner . Dann sieht man wie gut die rohleistung wirklich ist . Ich bezeichne diese herunter gerechne als Fake frames . Auch wenn das einige nicht so sehen .für mich sind frames die mit rohleistung wirklich geschaffene sind . Herunter regeln der Auflösung das kann ich selbst auch machen . Ich bin eben der klassische Nutzer . Für mich existiert das was Nvidia Anbietet eben nicht . Das kann also so gut sein wie es will . Man sieht ja das die Latenz drunter leidet . Die Latenz ist für mich sehr wichtig . Darum bleibe ich auch der klassische Nutzer und darum sind die teuren gpus keine Option für mich und würden wohl auch nicht so gut abschneiden wie bei Nvidia sie immer angeblich machen würden .
Aber AMD wird auch noch seine Stärken zeigen . Ich bin zwar mehr ein Nvidia Nutzer aber AMD wenn die sich mehr Mühe geben ,gebe ich gerne auch eine Chance . Nur bei älteren spielen da merkt man schon das AMD hält mehr Probleme als Nvidia hat . Liegt wohl daran das es halt nur eine kleinere Entwickler Gruppe hat . Kommt drauf an wie sehr sich AMD die Mühe macht .