Geforce RTX 4060 Ti im Test: Technik-Powerhouse
Quelle: PC Games Hardware
Seite 2:

Geforce RTX 4060 Ti im Test: Technik-Powerhouse

296
Test Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

Mit der RTX-40-Reihe bietet Nvidia nicht bloß mehr vom Alten, sondern auch neue Funktionen im Chip. Ein kleiner Technik-Tauchgang mit und rund um Ada Lovelace.

Mit der "Ada-Lovelace"-Mikroarchitektur erfand Nvidia das Rendering-Rad im Oktober 2022 zwar nicht neu, beschleunigte jedoch diverse Rechenwerke und führte neue Funktionen ein. Einige davon wirken immer, da sie durch Logik- und Takt-Verbesserungen kommen, andere benötigen eine Ansprache durch Spiele- und Programm-Entwickler - sind dann aber besonders effektiv. Sehen wir uns an, was die Ada-Prozessoren im Gepäck haben und wie der Vorgänger Ampere im Vergleich dasteht.

Geforce RTX 4060 Ti: AD106

Der neueste und bislang kleinste Ada-Prozessor hört auf den Namen AD106. Dieser beinhaltet 3 Graphics Processing Clusters (GPCs), 18 Texture Processing Clusters (TPCs), 36 Streaming-Multiprozessoren (SMs), somit 4.608 FP32-ALUs sowie eine 128-Bit-Speicherschnittstelle mit vier 32-Bit-Controllern und 32 MiByte Level-2-Zwischenspeicher. Auf der Geforce RTX 4060 Ti 8GB kommt ein leichter Beschnitt mit der Kennung -350 zum Einsatz, die Grafikkarte muss mit 34 SMs und somit 4.352 FP32-ALUs auskommen. Cache und Speicher-Interface sind vollständig aktiv.

Geforce RTX 4070 (Ti): AD104

Geforce RTX 4070 Ti und RTX 4070 basieren beide auf dem nächstgrößeren Prozessor namens AD104. Auf der RTX 4070 Ti kommt er in einer für alle Gaming-relevanten Belange vollständigen Konfektion namens AD104-450 zum Einsatz. Diese beinhaltet 5 Graphics Processing Clusters (GPCs), 30 Texture Processing Clusters (TPCs), 60 Streaming-Multiprozessoren (SMs), somit 7.680 FP32-ALUs sowie eine 192-Bit-Speicherschnittstelle mit sechs 32-Bit-Controllern und 48 MiByte Level-2-Zwischenspeicher. Pro SM sind außerdem zwei FP64-ALUs enthalten, sodass die FP32:FP64-Rate wie bei Ampere 64:1 beträgt. Auf der Geforce RTX 4070 setzt Nvidia den Roftstift an und legt einen GPC sowie insgesamt 14 SMs still, womit in diesem AD104-250 auch 12 MiByte L2-Cache deaktiviert werden.

Geforce RTX 4080: AD103

Der zweitgrößte Ada-Prozessor AD103 beinhaltet 7 Graphics Processing Clusters (GPCs), 40 Texture Processing Clusters (TPCs), 80 Streaming-Multiprozessoren (SMs), somit 10.240 FP32-ALUs sowie eine 256-Bit-Speicherschnittstelle mit acht 32-Bit-Controllern und 64 MiByte Level-2-Zwischenspeicher. Pro SM sind außerdem zwei FP64-ALUs enthalten, sodass die FP32:FP64-Rate wie bei Ampere 64:1 beträgt. Die Geforce RTX 4080 verwendet einen leicht abgespeckten Chip mit der Kennung AD103-300, bei dem das volle Speicher-Subsystem mit allen Caches und Datenbahnen aktiv ist. Der Kern arbeitet jedoch nur mit 76 von 80 Shader-Multiprozessoren (-5 %). Reserven für eine nachfolgende Geforce RTX 4080 Super, welche den vollen Chip sowie höhere Taktraten auffährt, sind folglich gegeben.

Geforce RTX 4090: AD102

Die "Ada-Vollversion" AD102 beinhaltet 12 Graphics Processing Clusters, 72 Texture Processing Clusters, 144 Streaming-Multiprozessoren, somit 18.432 FP32-ALUs sowie eine 384-Bit-Speicherschnittstelle mit zwölf 32-Bit-Controllern. Pro SM sind außerdem zwei FP64-ALUs enthalten, sodass die FP32:FP64-Rate wie bei Ampere 64:1 beträgt. Die Geforce RTX 4090 basiert nicht auf dem Vollausbau des AD102, sondern einem verhältnismäßig starken Beschnitt namens AD102-300. Dieser bietet 128 SMs, 16.384 FP32-ALUs (je -11 %) und 72 anstelle von 96 MiB Level-2-Cache (-25 %). Reserven für eine Geforce RTX 4090 Ti respektive neue Titan-Grafikkarte sind folglich geschaffen. Außerdem gehen wir davon aus, dass der AD102 in weiter abgespeckter Form auch für eine Geforce RTX 4080 Ti Verwendung finden wird.

Raytracing Cores 3.0

Nachdem Turing (RTX 20) dedizierte Hardware-Einheiten für das Raytracing einführte, verbesserte Nvidia diese Rechenwerke erstmals in Ampere (RTX 30) um Faktor 2. Für die dritte Generation Ada Lovelace (RTX 40) nennt Nvidia eine erneut verdoppelte Ray-Triangle Intersection Rate gegenüber Ampere - pro Takt. Die RT-Cores 3.0 melden folglich doppelt so schnell einen Hit oder Miss beim Durchstöbern der Raytracing-Datenstruktur (BVH) und viermal so schnell wie jene in Turing. Während diese Verbesserung automatisch in Kraft tritt, verfügt Ada außerdem über zwei Funktionen, die eine deutlich höhere Leistung erlauben, sofern ein Entwickler diese explizit anspricht. Da wäre die doppelte Alpha-Traversal-Rate, welche mithilfe der sogenannten Opacity Micromap Engine (OMM) möglich wird. Dahinter steckt eine Funktion, um die beim Raytracing grundsätzlich problematischen Objekte mit Transparenzwert (Alpha) - wie Blätter oder Zäune - effizienter abzuarbeiten. Zu guter Letzt bieten Adas RT-Kerne eine sogenannte Displaced Micro-Mesh Engine (DMM), bei der es sich um eine Art spezielle Tessellation für Raytracing-Workloads handelt. Durch die Erzeugung feiner Details innerhalb der RT-Kerne (anstelle der kompletten Pipeline) soll die Erstellung der BVH-Datenstruktur (Bounding Volume Hierarchy) satte zehnmal schneller vonstattengehen und nur noch 1/20 des Speichers benötigen. Doch das ist Zukunftsmusik, derzeit ist kein Spiel mit diesen Funktionen bestätigt.

Shader Execution Reordering (SER)

Beim Shader Execution Reordering handelt es sich um eine weitere Effizienzfunktion, welche Raytracing-Berechnungen auf die Sprünge helfen soll. Das Feature ist in der Lage, die gerade bei komplexem Raytracing diffus anfallenden Arbeitsanweisungen vorzusortieren, damit das Shading effizienter und ohne "Luftblasen" in der Pipeline vonstattengehen kann. Im Gegensatz zu Intel, deren vergleichbare Thread Sorting Unit (TSU) autark agiert, benötigt Nvidias SER-Einheit eine gezielte Ansprache durch die Applikation. Das lohnt sich, laut Nvidia steigt die Leistung durch SER bestenfalls um den Faktor 2. Das Feature ist neu in Ada, weder Ampere noch Turing verfügen über diesen optionalen Kniff. Derzeit können Entwickler SER nur über NVAPI-Erweiterungen implementieren, doch Nvidia arbeitet laut eigener Aussage mit Microsoft zusammen, um das Feature im Rahmen von DirectX zu spezifizieren - beispielsweise im Rahmen eines neuen DXR Tier 1.2.

Optical Flow Accelerator (OFA)

Das wohl spannendste Feature einer RTX-40-Grafikkarte ist DLSS 3, denn die dritte Hauptversion des KI-gestützten Upsamplings führt eine sogenannte Frame Generation (FG) ein. Hierbei wird nicht stumpf von Frame zu Frame interpoliert, um mehr Bilder pro Sekunde zu erhalten, sondern mithilfe von zwei Informationsströmen gearbeitet. Da wären die vom Spiel bereitgestellten Bewegungsvektoren (Motion Vectors), welche beispielsweise angeben, in welche Richtung sich Objekte bewegen - diese Information ist bereits für erfolgreiches DLSS-2-Upsampling notwendig. Hinzu kommt die neuartige Optical Flow Estimation, welche unter anderem bei Objekten hilft, für die keine Bewegungsvektoren gemeldet werden wie Partikel. Ausgeklügelte Algorithmen sorgen dafür, dass nach jedem echten Frame jeweils ein künstliches auf der GPU erzeugt wird, ohne dass der Prozessor davon weiß. Dadurch kann Frame Generation auch bei CPU-limitierten Szenarien die Bildrate (bestenfalls) verdoppeln.

Laut Nvidia ist der Optical Flow Accelerator (OFA) ein wichtiger Pfeiler des Erfolgs. Dabei handelt es sich um eine dedizierte Recheneinheit, welche in jedem Ada-Grafikprozessor einmal vorhanden und jeweils gleich stark ist. Ampere verfügt über die erste Inkarnation eines OFA, mit bestenfalls 126 Tera-OPS - allerdings wird dieser nicht durch den Treiber verwendet. Die Ada-Chips verfügen hingegen über je einen OFA mit gut 300 TOPS, ergo Faktor 2,5 gegenüber der besten Ampere-Lösung. Diese Verbesserung macht Frame Generation laut Nvidia erst ohne lästige Latenz bei guter Qualität praxistauglich, weshalb Frame Generation RTX-40-exklusiv ist. Mehr zu DLSS 3 lesen Sie im Artikel DLSS 3.0 und die clevere Frame-Generation.

296
  1. Seite 1 Geforce RTX 4060 Ti im Test: Spezifikation
  2. Seite 2 Geforce RTX 4060 Ti im Test: Technik-Powerhouse
  3. Seite 3 Geforce RTX 4060 Ti im Test: Benchmarks in 4 Auflösungen
  4. Seite 4 Geforce RTX 4060 Ti im Test: Raytracing-Benchmarks inkl. DLSS 3
  5. Seite 5 Geforce RTX 4060 Ti im Test: Verbrauch, Lautheit & Effizienz
  6. Seite 6 Geforce RTX 4060 Ti im Test: Fazit und Preis-Leistungs-Check
    • Kommentare (296)

      Zur Diskussion im Forum
      • Von SIR_Thomas_TMC Software-Overclocker(in)
        Zitat von reishasser
        Mining Boom hat die Preisspirale unnötig sehr hoch platziert, schuld daran sind ganz klar die Käufer gewesen.
        Exakt. Und die können es, wie man aktuell sieht, auch in die andere Richtung bewegen. Dauert eben.
      • Von SIR_Thomas_TMC Software-Overclocker(in)
        Zitat von reishasser
        Mining Boom hat die Preisspirale unnötig sehr hoch platziert, schuld daran sind ganz klar die Käufer gewesen.
        Exakt. Und die können es, wie man aktuell sieht, auch in die andere Richtung bewegen. Dauert eben.
      • Von Gast1748380205
        Zitat von DaHell63
        Was ja auch keiner bestreiten will..nur gibt es auch keinen Matsch oder Nachladeruckler, wenn es mal nicht reicht.
        Über die Matschbildchen die hier oft gezeigt werden kann ich nur lachen.
        Mal wieder das obligatorische TLOU....in 1080p mit einer 8GB Karte angeblich nur noch Matsch.
        Mit Patch 1.03 hat sich das Spiel in 1440p/nativ gezeigt
        Ja, was wir bei den "problematischen Spielen" sehen ist primär ein Softwareproblem der Streamingengine. Hogwarts hat das damals ja eindrucksvoll gezeigt, als die Texturqualitätsstufen konstant durchwechselten ohne, dass man die Kamera irgendwie bewegte. Trotzdem halte ich 8GB für knapp, denn es gibt eben auch viele unproblematische Spiele, die 8GB gut ausnutzen, manche nehmen gerne auch mehr.
      • Von DaHell63 Volt-Modder(in)
        Zitat von seahawk
        Aber schöne Texturen kosten keine FPS, wenn der VRAM reicht.
        Was ja auch keiner bestreiten will..nur gibt es auch keinen Matsch oder Nachladeruckler, wenn es mal nicht reicht.
        Über die Matschbildchen die hier oft gezeigt werden kann ich nur lachen.
        Mal wieder das obligatorische TLOU....in 1080p mit einer 8GB Karte angeblich nur noch Matsch.
        Mit Patch 1.03 hat sich das Spiel in 1440p/nativ gezeigt
        [Ins Forum, um diesen Inhalt zu sehen]

        ...und so sieht es aus wenn auf dem 1440p Bildschirm in 1080p mit angepasten Settings gezockt wird
        [Ins Forum, um diesen Inhalt zu sehen]

        auch wenn das hier komprimierte Screens sind, hat das mal überhaupt nichts mit dem zu tun was hier teilweise gezeigt wird.

        8GB VRam sind natürlich nicht toll, aber trotzdem kann man auch mit einer 8GB Karte solche Spiele zocken ohne Augenkrebs zu bekommen.
      • Von Gast1748380205
        Zitat von DaHell63
        Es geht mir auch darum, dass bis jetzt keine 60er in 1080p/max durchgehend die 60FPS erreicht. Ob mit, oder ohne VRam Mangel...anpassen ist sowieso angesagt. Und den immer wieder weisgesagten Matsch bekommt man auch nicht zu Gesicht, wenn man den VRam nicht absichtlich überlaufen lässt.
        Aber schöne Texturen kosten keine FPS, wenn der VRAM reicht.
      • Von reishasser Komplett-PC-Aufrüster(in)
        Das einzige was ich gelten lasse ist die Kritik das die 4060er bei einem System mit nur PCIE 3.0 spürbar schwächer angebunden ist als auf einem PCIE-4.0 System.

        Hier hat Nvidia das unnötig beschnitten.
        Einige sollten sich aber davon verabschiedene die Perfekte GK für 600€ zu bekommen, gibt es schlicht nicht (auch nicht im AMD Lager -> Effizienz Versager).

        Mining Boom hat die Preisspirale unnötig sehr hoch platziert, schuld daran sind ganz klar die Käufer gewesen.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 08/2026 PC Games 07/2026 play5 08/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk