Geforce RTX 4090: Wichtiger Technik-Tauchgang
Quelle: PC Games Hardware
Seite 2:

Geforce RTX 4090: Wichtiger Technik-Tauchgang

539
Test Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

Mit der RTX-40-Reihe bietet Nvidia nicht bloß mehr vom Alten, sondern auch neue Funktionen im Chip. Ein kleiner Technik-Tauchgang.

Mit der "Ada Lovelace"-Mikroarchitektur erfindet Nvidia das Rad zwar nicht neu, beschleunigt aber diverse Rechenwerke und führt neue Funktionen ein, welche weitere Vorteile bringen. Einige davon wirken immer, da sie durch Logik- und Takt-Verbesserungen kommen, andere benötigen eine Ansprache durch Spiele- und Programm-Entwickler. Sehen wir uns an, was Ada im Gepäck hat und wie der Vorgänger Ampere im Vergleich dasteht.

Geforce RTX 4090: Keineswegs Vollausbau

Den Anfang machen die offiziellen Blockdiagramme von Nvidia, welche zum einen den vollen AD102-Prozessor mit 12 Graphics Processing Clusters (GPCs), 72 Texture Processing Clusters (TPCs), 144 Streaming-Multiprozessoren (SMs), somit 18.432 FP32-ALUs sowie die 384-Bit-Speicherschnittstelle mit zwölf 32-Bit-Controllern zeigen. Pro SM sind außerdem zwei FP64-ALUs enthalten (aber nicht abgebildet), sodass die FP32:FP64-Rate wie bei Ampere 64:1 beträgt. Auf dem zweiten Bild ist die abgespeckte Chip-Konfektion der Geforce RTX 4090 (AD102-300) zu sehen, welche sich unter anderem mit 128 Shader-Multiprozessoren, 16.384 FP32-ALUs (je -11 %) und 72 anstelle von 96 MiB Level-2-Cache (-25 %) begnügen muss. Reserven für eine Geforce RTX 4090 Ti respektive neue Titan-Grafikkarte sind folglich geschaffen - doch das ist frühestens im Laufe des nächsten Jahres ein Thema.

Raytracing-Kerne

Nachdem Turing (Geforce RTX 20) dedizierte Hardware-Einheiten für das Raytracing einführte, verbesserte Nvidia diese Rechenwerke erstmals in Ampere (RTX 30) um Faktor 2. Für die dritte Generation Ada Lovelace (RTX 40) nennt Nvidia eine erneut verdoppelte Ray-Triangle Intersection Rate gegenüber Ampere - pro Takt. Die RT-Cores 3.0 melden folglich doppelt so schnell einen Hit oder Miss beim Durchstöbern der Raytracing-Datenstruktur (BVH) und viermal so schnell wie jene in Turing. Während diese Verbesserung automatisch in Kraft tritt, verfügt Ada außerdem über zwei Funktionen, die eine deutlich höhere Leistung erlauben, sofern ein Entwickler diese explizit anspricht. Da wäre die doppelte Alpha-Traversal-Rate, welche mithilfe der sogenannten Opacity Micromap Engine (OMM) möglich wird. Dahinter steckt eine Funktion, um die beim Raytracing grundsätzlich problematischen Objekte mit Transparenzwert (Alpha) - wie Blätter oder Zäune - effizienter abzuarbeiten. Zu guter Letzt bieten Adas RT-Kerne eine sogenannte Displaced Micro-Mesh Engine (DMM), bei der es sich um eine Art spezielle Tessellation für Raytracing-Workloads handelt. Durch die Erzeugung feiner Details innerhalb der RT-Kerne (anstelle der kompletten Pipeline) soll die Erstellung der BVH-Datenstruktur (Bounding Volume Hierarchy) satte zehnmal schneller vonstattengehen und nur noch 1/20 des Speichers benötigen. Doch das ist Zukunftsmusik, derzeit ist kein Spiel mit diesen Funktionen bestätigt.

DLSS 3 und der Optical Flow Accelerator

Das wohl spannendste Feature einer Geforce-RTX-40-Grafikkarte ist DLSS 3. Die dritte Hauptversion des KI-gestützten Upsamplings führt eine sogenannte Frame Generation ein, weshalb der Modus Nvidia-intern "DLSSG" genannt wird. Sie vermuten richtig, Nvidias Applied Deep Learning Research Team wagt sich tatsächlich an die schon lange in den Köpfen herumschwirrende Idee, die Bildrate durch clevere Frame-Interpolation zu verdoppeln. Was Fernseher und Videobearbeitungsprogramme längst beherrschen, hieven die Geforce-Macher für den Echtzeiteinsatz auf eine neue Ebene. Hier wird nicht stumpf von Frame zu Frame interpoliert, sondern mithilfe von zwei Informationsströmen gearbeitet. Da wären die vom Spiel bereitgestellten Bewegungsvektoren (Motion Vectors), welche beispielsweise angeben, in welche Richtung sich Objekte bewegen - diese Information ist bereits für erfolgreiches DLSS-2-Upsampling notwendig. Hinzu kommt die neue Optical Flow Estimation, welche unter anderem bei Objekten hilft, für die keine Bewegungsvektoren gemeldet werden, etwa Partikel. Ausgeklügelte Algorithmen sorgen dafür, dass nach jedem echten Frame jeweils ein künstliches auf der GPU erzeugt wird, ohne dass der Prozessor davon weiß. Dadurch kann DLSS 3 Frame Generation auch bei CPU-limitierten Szenarien die Bildrate (bestenfalls) verdoppeln.

Ada Optical Flow Accelerator - OFA Quelle: Nvidia (Screenshot: PCGH) Ada Optical Flow Accelerator - OFA

Laut Nvidia ist der Optical Flow Accelerator (OFA) ein wichtiger Pfeiler des Erfolgs. Dabei handelt es sich um eine dedizierte Recheneinheit, welche in jedem Grafikprozessor einmal vorhanden ist. Ampere verfügt über die erste Inkarnation eines OFA, mit bestenfalls 126 Tera-OPS (Geforce RTX 3090 Ti). Die Ada-Chips verfügen hingegen über je einen OFA mit über 300 TOPS, ergo Faktor 2,5. Diese Verbesserung macht Frame Generation laut Nvidia erst ohne lästige Latenz bei guter Qualität praxistauglich, theoretisch ist jedoch auch eine RTX-30-GPU zu DLSS 3 in der Lage. Stand jetzt ist die Frame Generation aber eine RTX-40-Exklusivfunktion - mehr lesen Sie in unserem Ersteindruck zu DLSS 3. Nvidia gibt an, dass DLSS 3 nur unter DirectX 12 funktioniert, was somit als Mindestanforderung für kommende Spiele angesehen werden kann. Bislang wurden 35 Spiele für DLSS 3 bestätigt, von denen einige noch im Oktober erscheinen werden.

Shader Execution Reordering (SER)

Beim Shader Execution Reordering (SER) handelt es sich um eine weitere Effizienzfunktion, welche Raytracing-Berechnungen auf die Sprünge helfen soll. Das Feature ist in der Lage, die gerade bei komplexem Raytracing diffus anfallenden Arbeitsanweisungen vorzusortieren, damit das Shading effizienter und ohne "Luftblasen" in der Pipeline vonstattengehen kann. Im Gegensatz zu Intel, deren vergleichbare Thread Sorting Unit (TSU) autark agiert, benötigt Nvidias SER-Einheit eine gezielte Ansprache durch die Applikation. Das lohnt sich, laut Nvidia steigt die Leistung durch SER bestenfalls um den Faktor 2. Die Kalifornier führen außerdem das derzeit in Arbeit befindliche "Raytracing Overdrive"-Update für Cyberpunk 2077 an, bei dem man einen durchschnittlichen Leistungsgewinn von 44 Prozent gemessen haben will. SER ist neu in Ada, weder Ampere noch Turing verfügen über diesen optionalen Kniff. Derzeit können Entwickler SER nur über NVAPI-Erweiterungen implementieren, doch Nvidia arbeitet laut eigener Aussage mit Microsoft zusammen, um das Feature im Rahmen von DirectX zu spezifizieren - beispielsweise im Rahmen eines neuen DXR Tier 1.2.

Ada Shader Execution Reordering SER Quelle: Nvidia (Screenshot: PCGH) Ada Shader Execution Reordering SER

Greifen all diese Zahnrädchen ineinander, erreicht eine Geforce RTX 4090 (AD102) laut Nvidia die doppelte Leistung einer Geforce RTX 3090 (Ti). Inwiefern das bei bereits erhältlichen und nicht gezielt für Ada optimierten Spielen zutrifft, sehen wir uns auf der folgenden, prallen Benchmark-Seite an.

539
  1. Seite 1 Geforce RTX 4090 im Test: Spezifikation
  2. Seite 2 Geforce RTX 4090: Wichtiger Technik-Tauchgang
  3. Seite 3 Geforce RTX 4090 im Test: Benchmarks in 4 Auflösungen
  4. Seite 4 Geforce RTX 4090 im Test: Raytracing-Benchmarks
  5. Seite 5 Geforce RTX 4090 im Test: Lautheit, Verbrauch, Effizienz
  6. Seite 6 Geforce RTX 4090 im Test: Zusammenfassung mit Fazit
    • Kommentare (539)

      Zur Diskussion im Forum
      • Von Gast1705533002
        Großartiger Test, vielen Dank für euren immensen Aufwand! Die Karte ist schlichtweg brachial, was soll man sagen. Für mich persönlich uninteressant, weil zu teuer und nicht wirklich ein Usecase dafür. 4080/4070 sind da interessanter. Möchte aber auch erstmal sehen, was Team rot mit RDNA3 in petto hat.
      • Von Gast1705533002
        Großartiger Test, vielen Dank für euren immensen Aufwand! Die Karte ist schlichtweg brachial, was soll man sagen. Für mich persönlich uninteressant, weil zu teuer und nicht wirklich ein Usecase dafür. 4080/4070 sind da interessanter. Möchte aber auch erstmal sehen, was Team rot mit RDNA3 in petto hat.
      • Von biosat_lost PC-Selbstbauer(in)
        Das Blockdiagramm kann einen schon sprachlos machen.
      • Von manimani89 Volt-Modder(in)
        Zitat von Sch4rfricht3r
        Mir zumindest nicht, aber man muss doch die Grenzen des Möglichen mal austesten.
        naja der sweetspot müsste bei 400w liegen wenn man die tests durch hat. 350w verliert man je nach game dann schon mehr aber 400w ist das was am besten passt auch wenn die karte mit 300w noch deutlich schneller als alles andere ist. würde nicht über die 450w gehen
      • Von Gast1675638611
        Zitat von Cleriker
        Ist sie dir bei 450 zu langsam?
        Mir zumindest nicht, aber man muss doch die Grenzen des Möglichen mal austesten.
      • Von PCGH_Dave Lötkolbengott/-göttin
        Als wäre es so einfach.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 08/2026 PC Games 07/2026 play5 08/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk