Geforce RTX 5000 ("Blackwell"): Gerüchte zu Nvidias Next-Gen-Grafikkarten entsprechend eingeordnet
Seit Wochen halten sich die Gerüchte über Nvidias Next-Gen-Grafikkarten der Serie Geforce RTX 5000 ("Blackwell") in den Schlagzeilen. PCGH versucht diese anhand der aktuellen Faktenlage entsprechend seriös einzuordnen. Dank einer Fertigung in 3 Nanometern und GDDR7 soll eine Geforce RTX 4090 angeblich um bis zu 250 Prozent übertroffen werden. Als Grafikprozessoren sollen der GB202, GB203, GB205, GB206 und GB207, voraussichtlich jedoch keine GB204-GPU, zum Einsatz kommen.
Seit Wochen halten sich die Gerüchte über Nvidias Next-Gen-Grafikkarten der Serie Geforce RTX 5000 ("Blackwell") in den Schlagzeilen. PCGH versucht diese anhand der aktuellen Faktenlage entsprechend seriös einzuordnen. Einmal mehr möchte jetzt der für solche Vorabveröffentlichungen bekannte Twitter-Nutzer @kopite7kimi erfahren haben, welche Grafikprozessoren auf den Geforce-Grafikkarten aus der nächsten Generation zum Einsatz kommen. Ein direkter Nachfolger des AD104 soll dementsprechend voraussichtlich nicht vorgesehen sein.
Quelle: @kopite7kimi via Twitter via Videocardz
Gerüchte zu den Blackwell-Grafikprozessoren GB202, GB203, GB205, GB206 und GB207
GB202, GB203, GB205, GB206 und GB207 für Blackwell
In der Zwischenzeit hat auch der Nutzer "Panzerlied" aus dem für solche Informationen bekannten Forum von Chiphell bestätigt, dass ihm Informationen vorliegen, welche die Grafikprozessoren GB202, GB203, GB205, GB206 und GB207 für die kommenden Grafikkarten der Serie Geforce RTX 5000 ("Blackwell"), die aktuell auch als "Ada Lovelace Next" gehandelt wird, bestätigen. Ob der so anvisierte Generationswechsel 2024 oder erst 2025 vollzogen wird, ist noch offen.
Quelle: Nvidia
Nvidias Roadmap bis 2025: Ampere Next ("Ada Lovelace") und Ampere Next Next ("Blackwell")
Geforce RTX 5090 und 5080 machen wohl den Anfang
Auf die Grafikprozessoren AD102, AD103, AD104, AD106 und AD107 ("Ada Lovelace") sollen aller Voraussicht nach die neuen GPUs GB202 und GB203 ("David Blackwell") folgen. Hier werden zudem zahlreiche weitere Ausbaustufen mit einer nochmals höheren Kennung erwartet, die für die Geforce RTX 5070 (Ti) und die kleineren Modellreihen angedacht sind. Nvidia soll seinem Schema treu bleiben.
GDDR7 mit 36 GiBit/s und PCIe 5.0 x16 gelten als gesetzt
Neben einer Anbindung über PCIe 5.0 x16 soll zumindest für die Geforce RTX 5090 und Geforce RTX 5080 der neue GDDR7-Grafikspeicher zum Einsatz kommen. Dieser soll bis zu 36 Gigabit pro Sekunde erreichen und bei der Signalübertragung auf die dreistufige Pulsamplitudenmodulation ("PAM-3") setzen. Hier darf von einer um ungefähr 25 Prozent verbesserten Energieeffizienz in diesem Teilbereich ausgegangen werden. GDDR6X nutzt hingegen bereits PAM-4.
Quelle: Panzerlied via Chiphell
Die Zahlenfolge "23567" steht für GB202, GB203, GB205, GB206 und GB207
Auch die effektive Speicherbandbreite würde von dem schnellen GDDR7-Speicher mit bis zu 36 GiBit/s deutlich profitieren:
- 128-Bit @ 36 Gbps: 576 GiByte/s
- 192-Bit @ 36 Gbps: 846 GiByte/s
- 256-Bit @ 36 Gbps: 1.152 GiByte/s
- 320-Bit @ 36 Gbps: 1.440 GiByte/s
- 384-Bit @ 36 Gbps: 1.728 GiByte/s
- 512-Bit @ 36 Gbps: 2.304 GiByte/s
Wie aus mehreren Einträgen im Chiphell-Forum hervorgeht, könnte Nvidia aber auch zweigleisig fahren:
- GB202: GDDR6X ("PAM-4") mit 512-Bit
- GB203: GDDR6X ("PAM-4") mit 384-Bit
- GB205: GDDR7 ("PAM-3") mit 256-Bit
- GB206: GDDR7 ("PAM-3") mit 192-Bit
- GB207: GDDR7 ("PAM-3") mit 128-Bit
Aber auch hierbei handelt es sich in der Regel noch um reine Spekulationen, welche zwar auf bisher durchgesickerten Informationen basieren, aber noch absolut nicht als verbindlich anzusehen sind. Nvidia selbst hat sich bislang mit keinem Wort zur nächsten Generation seiner Geforce-Grafikkarten geäußert.
Leistungsprognose sind beinahe unmöglich
Die Gerüchteküche spricht dem kommenden Spitzenmodell, der Geforce RTX 5090, die bis zu 2,5-fache Leistung einer ohnehin schon sehr schnellen Geforce RTX 4090 zu. Hier ist aber vorerst größte Vorsicht angebracht, denn ob hierbei erneut DLSS 2 oder sogar DLSS 3 mit Frame Generation in die Gleichung einbezogen werden, ist aktuell noch völlig unklar. Leistungsprognosen sind aktuell beinahe unmöglich.
Geforce RTX 5090 mit bis zu 18.432 CUDA-Cores
Ebenfalls rein spekulativ sind aktuell die der Geforce RTX 5090 zugesprochenen Spezifikationen. Demnach soll es zukünftig von 128 Streaming Multiprocessors und 16.384 Shadereinheiten auf 144 Streaming Multiprocessors und 18.432 CUDA-Cores hinauf gehen. Zudem soll der L2-Cache von 72 MiByte auf 96 MiByte angehoben werden und der GPU-Takt auf mehr als 3 GHz ansteigen. Videocardz hat die Grafikprozessoren der drei Generationen bereits gegenübergestellt.
Quelle: Videocardz
GPUs der Generation Ampere, Ada Lovelace und Blackwell im Vergleich
Die Redaktion von PCGH wird darüber berichten, sollten entsprechend valide Informationen zu Nvidia Geforce RTX 5000 vorliegen.
Ihre Meinung ist gefragt!
Was halten Sie von den aktuellen Gerüchten? Die Redaktion von PCGH freut sich über Ihre fundierte Meinung in den Kommentaren zu dieser Meldung. Zum Kommentieren müssen Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie noch keinen Account haben, könnten Sie sich hier registrieren.
Quelle: Videocardz, Chiphell, kopite7kimi via Twitter


Nur mal auszugsweise, weil mir das sonst wieder zu lang wird:
"Shader Execution Reordering": Völliger Unsinn, denn das funktioniert grundsätzlich, wenn es implementiert wird, da SER eine zusätzliche Stage in der Renderpipeline erforderlich macht, bringt dann aber bei Raytracing-lastigen Berechnungen massive Vorteile aufgrund der Sortierung ... und mit Frame Generation oder DLSS hat SER mal überhaupt nichts zu tun.
"Shaderaufteilung INT32 & FP32": Du erzählst hier Märchen, denn Integer-Operationen gehören nach wie vor zum regulären Shader-Betrieb und haben nichts mit einer Art Legacy-Funktionalität zu tun. FP-Operationen überwiegen zwar deutlich, ohne INT-Ops kommt man dennoch nicht aus. Beispielsweise The Witcher 3 hat mit einem Verhältnis von etwa 2 INT- : 10 FP-Operationen ein relativ schiefes Verhältnis, dagegen The Division hat schon im Mittel ein 4 : 10 -Verhältnis und Battlefield 1 liegt gar in der Nähe von 5 : 10 Instruktionen INT : FP auf den GPU-Shadern. Soviel zum Thema INT wird nicht benötigt. Darüber hinaus, mit Programmierung hast du offensichtlich auch nichts am Hut oder versuchst du bspw. einen Speicheroffset mit einem Fließkommawert zu erstellen. Andererseits, mit etwas wie 0xaf00bc + ∞ könntest du vielleicht auf den kleineren RTX-GPUs den knappen GPU-Speicher umgehen?
"Gpu's haben kein L3 cache da dieser Sinnlos wäre": Das ist Auslegungssache bzw. in deinem Kontext wieder eine unreflektierte Behauptung, die in die Irre führt. AMDs Infinity-Cache ist faktisch ein L3$-Cache auf der GPU. Bei beispielsweise RDNA3 verfügt ein WGP über L0$, der über den L1$ geladen wird, der wiederum vom L2$ am Speichercontroller gefüttert wird, der dem "Infinity-Cache" entspricht. Alleine das sind schon drei Hierarchien. Hinzu kommt, dass die Betrachtung hier Auslegungssache ist, weil innerhalb der WGPs noch zusätzliche 128 KB sogenannter Local Data Share-Zwischenspeicher zur Verfügung steht und dazu gibt es noch zusätzlich einen 4 KB großen Global Data Share-Zwischenspeicher der die WGPs verbindet ... aber schön, dass du beschlossen hast, dass das "keinen Sinn macht".
"HBM": Den Unsinn mit den 512 Bit hast du schon in mehreren Postings geschrieben, der wird aber auch durch mehrfaches Wiederholen nicht richtiger. Die HBM-Bausteine verwenden alle ein 1024 Bit-Interface, ausnahmslos, schlicht weil das der Standard ist und die schlussendliche Interface-Gesamtbreite hängt davon ab wie der Chipdesigner den Chip auslegt. Und nein, HBM hat nichts mit Cache zu tun, sondern ist DRAM.
"Die rtx racer demo war pathtracing und vor gerendert das war nicht live. Es gibt paar pathtracing demos und genau Zwei Spiele die pathtracing nutzen für Lighting Reflexion und GI
cyberpunk 2077 und the witcher 3 beide laufen mit ach und krach":
1. die Racer-Demo ist in Echtzeit berechnetes Pathtracing und läuft auf einer einzigen GPU mit um die 30 FPS, so mehrfach von nVidia erklärt, also voraussichtlich der RTX 4090, bestenfalls einer niedriger taktenden RTX 6000, die dann aber vermutlich keinen übermäßigen Geschwingdigkeitsvorteil bieten wird. Das war kein Pixar-Animationsfilm sondern eine Echtzeitdemo (ob die dagegen in der konkreten Präsentation nur als Video abgespielt wurde, spielt keine Rolle).
2. The Witcher 3 hat mit Pathtracing nichts am Hut. Hier hat man umfangreiches Raytracing nachimplementiert, mehr aber auch nicht. Beispielsweise Cyberpunk, Portal und schon seit langem Minecraft implementieren volles Pathtracing, so wie bspw. diverse gepimpte Legacy-Titel, so einige Quake-Derivate.
3. Nutzt man Pathtracing nicht für ausgwewählte Grafikfeatures wie "Lighting Reflexion und GI", sondern Pathtracing ist dann der komplette Renderer.
"DXR und PS6": Am Rande bemerkt, haben mal rein gar nichts miteinander zu tun, da Sony ein komplett eigenes LowLevel-Grafik-API verwendet.
- Hardwarebeschleunigung für KI-Operationen (gibt den Spieleherstellern diverse Optionen von Handlungsroutinen für NPCs bis zur dynamischen Welterstellung oder eben Frame Generation)
- Hardwarebeschleunigung für Raytracing-Operationen, massive Beschleunigung von Raytracing (auch für Produktivanwendungen)
- Schader Execution Reordering (in Hardware) gibt massive Beschleunigung bei komplexen Raytracing-Szenarien
- Verdoppelung bzw. flexible Aufteilung der Shaderkapazitäzen zwischen INT/FP32-Berechnungen
- größere "L3"-Caches (Leistungssprung für Standardgames)
- direktere Anbindung von Speicher/Cache (HBM, "stacked" Cache)
hbm ist wie gddr am Si verbunden die Leitungen sind aber kürzer bei hbm und direkt auf dem substrat der gpu rein technisch aber ist das nicht anders als mit gddr der unterschied ist nur das bei hbm problemlos das Si direkt verbunden werden kann und somit mit dem node shrink. Darum sind 512-8096bit möglich
Das andere mit cache betrifft eher amd Ansatz des inf cache das direkt an dem si hängt und somit daten vorlädt um die effektive Bandbreite zu vergrößern und nein das ist kein L3 cache
- laden von Assets ohne CPU-Overhead
- Asynchrone Shader-/Simulationsausführung (und alles, was DX12 macht um die CPU so stark zu entlasten)
Die normalen alu fp32 könne das nur entweder oder darum wird es auch nicht genutzt.
Diese Beschleunigung nennt sich Asyncron compute und muss explizit vom code des spiels angewendet werden in vulkan und dx12.
Nützlich bei spielen mit viel graden Flächen und gleicher Farbe ohne merklichen Texturen.
Der Nebeneffekt ist das dadurch Bandbreite und Vram gespart wird das reduziert allerdings die Bildqualität.
Die rtx racer demo war pathtracing und vor gerendert das war nicht live. Es gibt paar pathtracing demos und genau Zwei Spiele die pathtracing nutzen für Lighting Reflexion und GI
cyberpunk 2077 und the witcher 3 beide laufen mit ach und krach bei 9,2tf um die 15fps auf 1080p
Ohne upscaler geht da nix
in the witcher 3 nutze ich showcase Modus mit dlss perf 1080p und komme so gerade bei 45fps raus
Das entspricht 720p
Die nächsten Konsolen x series x pro und ps5 pro werden ungefähr 20tf an Leistung haben das steht sicher da ne apu existiert die das schaffen kann mit 40cu release q4 2024 und q2 2025.
Kann sein das es noch ne dedizierte gpu in Konsole einzieht aber unwahrscheinlich.
aber das wird so ausgehen neue spiele mit pro Unterstützung wird die Konsole wieder36cu mit dann 3,6ghz laufen also dann 19tf und in ps5 mode 2,3ghz mit 12,4tf
Das bringt ne leichte Beschleunigung in ps5 games da aber die Konsolen vrr unterstützen wird das die games nicht aus dem tritt bringen.
Das bedeutet im Umkehrschluss das die dxr Anforderungen nicht steigen werden bis ps6 kommt irgendwann 2027
Diese allerdings wird min 35tf an Anforderung haben und amd endlich verbesserte dedizierte rt cores haben.
Dann wird sich mit ue5 flächendeckend Pathtracing durchsetzen.
Allerdings in ue5 Technik lumen und nanite das kann man schon jetzt testen mit den mw forest ue5 demos. Und die hauen rein.
MWBurnedDeadForestBiome 10fps 1080p bei 9,2tf ohne tsr
ich weis das die Firma primär assets verkauft aber die Techniken werde für die demos genutzt
Es wäre nicht so traurig wenns nicht wirklich immer so verhersagbar wäre. Es wpürde mich wirklich ehrlich freuen wenn an irgendeiner Front mal wieder was wirklich krasses passieren würde. Irgendeine Hardwareseitige Innovation (kein Software-/KI-Zeug) die wirklich massiv Performance bringt oder wenn AMD wirklich mal nach Ewigkeiten wioeder was auflegen könnte was schneller ist als NV. Aber leider ist beides absolut nicht zu erwarten.
- Hardwarebeschleunigung für Raytracing-Operationen, massive Beschleunigung von Raytracing (auch für Produktivanwendungen)
- Schader Execution Reordering (in Hardware) gibt massive Beschleunigung bei komplexen Raytracing-Szenarien
- Verdoppelung bzw. flexible Aufteilung der Shaderkapazitäzen zwischen INT/FP32-Berechnungen
- größere "L3"-Caches (Leistungssprung für Standardgames)
- direktere Anbindung von Speicher/Cache (HBM, "stacked" Cache)
- laden von Assets ohne CPU-Overhead
- Asynchrone Shader-/Simulationsausführung (und alles, was DX12 macht um die CPU so stark zu entlasten)
Das sind einige Innovationen aus den letzten Jahren die zu massiven Performanceverbesserungen geführt haben.
Dass noch nicht alle Features in Spielen angekommen sind und nicht alle Spiele gut optimiert werden – unter optimaler Ausnutzung aller Features zur Leistungsverbesserung – liegt natürlich auch daran, dass "Innovationen" am Anfang meist nicht von jedem gekauft und angenommen werden und nicht auf jeder Plattform gleich kompatibel sind.
Die meisten Spiele sind der kleinste gemeinsame Nenner der am meisten verbreiteten Hardware/Plattformen. Machen wir uns nichts vor: Wenn die Hardwarehersteller nicht anfangs Einfluss nehmen ("Hilfestellung bei der Implementierung"), kommen neue Features nur sporadisch in Spielen vor.
Was in Richtung Pathtracing passiert ist einfach nur beeindruckend und nur durch eine Kombination aus Innovationen in Hardware und Software zu meistern.
Die RTX-Racer Demo war nach der Marbles-Demo von Ampère das erste Spiel mit viel Simulation bzw. Gameplay und komplexen Umgebungen komplett ohne Rasterisierung.
Wenn sich dieser Stand (~RTX 4090) an Hardwarebeschleunigung flächendeckend (hallo Konsolen!) durchgesetzt hat ist das schon DER Durchbruch in der Spiele-/Computergrafik!
Auch diese Twitter und YouTube heinis nerven nur noch wegen jeder Kleinigkeit wird für klicks alles 5 mal nur anders verpackt rausgepfeffert.
Lasst euch einfach überraschen macht viel mehr spaß. Ausserdem wenn interessiert was 2025 ist. Wir sind im hier und jetzt??
Und wenn es dir um "Nerds" geht, die merken was du für ein Blödsinn schreibst.
Jeder "Nerd", Redakteur etc rechnet das gleiche, nur du nicht.
Schon mal dran gedacht, daß manchmal die Mehrheit doch Recht hat?