DLSS 4 im Test: CNN vs. Transformer
In diesem Artikel
Eins vorweg: Dieser Artikel ist als ein allererster Test zu DLSS 4 und der Multi-Frame-Generation zu verstehen. Wir haben uns bemüht, alle elementar wichtigen Neuerungen abzudecken. Doch es werden weitere Tests, Untersuchungen und auch mehr Zeit nötig sein, um DLSS 4 und MFG wirklich beurteilen zu können. Ferner fehlen uns aktuell auch schlicht Test-Kandidaten, sowohl auf Software- als auch auf Hardware-Seite. Vor dem offiziellen Blackwell-Launch sind DLSS-4-Titel recht rar gesät, es sind zudem spezielle Test-Builds nötig, um DLSS 4 und MFG in den bereits verfügbaren Titeln testen zu können. Doch diese, darunter Alan Wake 2 oder Star Wars Outlaws, deaktivieren in mehreren Fällen das "Legacy-DLSS", also jenes DLSS-Upsampling, welches das betreffende Spiel zuvor genutzt hat. So sind Direktvergleiche schwerlich möglich.
Weitere Titel, darunter Alan Wake 2, nutzen im von Nvidia zur Verfügung gestellten Test-Build neben DLSS 4 (DLSS 3 ist in der Testversion ebenfalls aktuell nicht verfügbar) obendrein weitere Blackwell-Fähigkeiten, welche sich nicht spezifisch deaktivieren lassen. In Alan Wake 2 kommt neben DLSS 4 etwa Mega Geometry zum Einsatz, um die Performance zu verbessern. Würden wir die DLSS-3-Version mit dem DLSS-4-Test-Build von Nvidia vergleichen, hätten wir den Performance-Gewinn durch Mega Geometry als verfälschenden Beifang in unseren Messungen. Wir beschränken uns daher in diesem Artikel zu weiten Teilen auf Cyberpunk 2077. Es ist ein allererster Test, der primär untersucht, ob Nvidias Angaben, die Blackwell-Versprechen, realistisch sind. Weitere Tests, Vergleichsmessungen und Qualitätsuntersuchungen werden folgen. Sie dürfen sich außerdem auf einen DLSS-4-Blindtest freuen.
Quelle: PCGH
Auch für Star Wars Outlaws haben wir einen spezifischen Test-Build von Nvidia erhalten - allerdings abermals ohne Leagacy-DLSS, unpraktisch für Vergleiche. Hier sehen Sie "Nix", aufgenommen im Photomode mit DLAA und Transformer-Modell. Das neue KI-Modell besticht abermals bei sehr feinen Details wie Haar, Fell oder Vegetation, die deutlich stabiler und feiner erfasst werden als bislang.
CNN vs. Transformer
Bevor wir zum Testen mit DLSS 4, der Multi-Frame-Generation, Latenzen und Blackwell kommen, möchten wir kurz auf die Unterschiede des neuen KI-Modells zu sprechen kommen. Das Transformer-Modell bildet die Grundlage für DLSS 4, das neue KI-Modell für DLSS kann aber auch mit älteren RTX-Modellen, etwa mit einer RTX 4090 oder RTX 2080 Ti genutzt werden.
Vereinfacht gesagt, ist das Transformer -Modell gegenüber dem bisher für DLSS 2 und 3 genutzten Convolutional-Neural-Network -Modell "cleverer", flexibler. Mit dem Transformer-Modell, das auch für LLMs wie ChatGPT genutzt wird, kann DLSS mit neuen Fähigkeiten versehen, die Qualität nach und nach verbessert und im Rahmen von Blackwell auf MFG ohne den Einsatz der Optical-Flow-Hardware-Accelerators realisiert werden. Das neue Modell bietet obendrein ein deutlich höheres Zukunftspotenzial.
Als Erstes unterziehen wir also das neue Transformer-Modell einem Test, neben der RTX 5090 tritt die RTX 4090 an. In einigen Spielen, darunter Alan Wake 2, Cyberpunk 2077 und Star Wars Outlaws, werden Sie das KI-Modell im Menü wählen können (entsprechende Updates sind bereits angekündigt). Sie können das Transformer-Modell obendrein als eine Overwrite-Funktion in der Nvidia-App auswählen, in Spielen mit DLSS-Support wird darauf das neue Modell zum Einsatz kommen.
Im Großen und Ganzen kostet das Transformer-Modell ein wenig Performance, die Qualität ist allerdings sichtbar besser. Vor allem feine Details, darunter prominent die Vegetationsdarstellung, sehen in den von uns getesteten Spielen deutlich sauberer aus. Feinheiten sind gerade in Bewegung wesentlich stabiler. Weitere Details kommen in Cyberpunk 2077 und den animierten Hologrammen zur Geltung, diese zeigen mit dem bisher genutzten CNN-Modell teils sehr unschönes Verwischen, insbesondere deutlich bei semitransparentem Text.
Ebenfalls wesentlich knackiger und stabiler ist die Darstellung von feinen Zäunen und ähnlichen "netzartigen" Strukturen. Diese werden mit dem Transformer-Modell deutlich stabiler als bislang abgebildet. Außerdem erhöht sich die Bildschärfe, insbesondere sichtbar bei nahezu uniformen Texturen. Das alte DLSS mit CNN-Modell lässt solcherlei Feinheiten stark in den Hintergrund rücken, das Transformer-Modell arbeitete sie klar und deutlich hervor. Auffällig ist der verstärkte "Ölgemälde-Look" mit Transformer-Modell, insbesondere, wenn zudem Ray Reconstruction angeboten wird und der Upsampling-Faktor hoch ausfällt.
Kleinere Auffälligkeiten
Der noch recht frühe "Lernstatus" des neuen DLSS mit Transformer-AI äußert sich allerdings ebenfalls. So haben wir mit Transformer-DLSS Probleme bei Dis-Occlusion feststellen können, die mit CNN-KI weniger deutlich ausgeprägt sind. Außerdem scheint das neue KI-Modell etwas anfälliger für Moiré-Bildung zu sein, allerdings ist dies ein Umstand, der zu früheren Zeiten auch mit CNN-DLSS deutlich aufgetreten ist und mit der Zeit - mit der lernenden KI - zunehmend vermieden wurde. Moiré-Bildung tritt indes generell bei Upsampling in den Vordergrund, es ist ein Nebeneffekt der durch Upsampling in der Auflösung reduzierten Raster-Grafik. Aktuell ist der Nebeneffekt aber ein wenig deutlicher ausgeprägt, wenn das neue Transformer-Modell zum Einsatz kommt. Doch dies ist einer der Umstände, der wohl mit der Zeit und dem Lernen des neuen KI-Modells in den Hintergrund treten könnte.
Falls Sie sich beim Vergleichen der Performance-Messungen im Übrigen wundern, weshalb die RTX 5090 im Vergleich zur RTX 4090 teils niedrigere P1-Perzentile aufweist: Das tun wir ebenfalls. Wir haben zwei Vermutungen. Die Erste, unseres Erachtens eher unwahrscheinliche: An dieser Stelle kommt es zu einer Komplikation mit unseren Mess-Tools, denn passend zum Erscheinen der RTX 5090 wurde auf Nvidias Wunsch die Methodik der Ermittlung der Perzentile angepasst - auch bei dem von uns genutzten CapFrameX.
Die neue Erhebung basiert auf der Metrik "MSBetweenDisplayChange", was beim Messen der Frame Generation "realistischere" Werte, eine "eher dem erlebten Spielgefühl ähnelnden" Methodik, die das Frame-Pacing der FG "besser widerspiegelt". Doch die neue Methodik wirkt sich auch leicht auf die P1-Perzentile aus, wenn KEINE FG zum Einsatz kommt. Die Abweichungen sind allerdings in den meisten Fällen gering. Und wenn wir die Messmethodik auf die "alte" Erhebung umschalten (die Messdaten sind dieselben, nur die Art des Auslesens der P1-Perzentile ändert sich), vergrößert sich der Abstand der RTX 4090 zur RTX 5090 gar noch ein wenig. Die Art der Datenerhebung, die Messdaten, scheinen also nicht Grund für die relativ geringen P1-Perzentile der RTX 5090 zu sein.
Mit Frame Generation rückt sich das zu erwartende Performance-Bild außerdem zurecht. Eventuell klemmt es also an anderer Stelle. Und genau dies ist unsere zweite Vermutung: Da sich die Unterschiede bei geringen Auflösungen am stärksten zeigen, wir zudem in WQHD leicht und in Full HD voll im CPU-Limit kleben, ist vermutlich die Prozessorleistung Grund für die sehr ähnlichen P1-Perzentile: Hier tritt ein partielles Prozessorlimit auf, welches die P1-Perzentile bestimmt. Und die RTX 5090 wird lediglich ein wenig stärker ausgebremst als die RTX 4090. Die Frame Generation "überspielt" dieses anschließend. Mit dieser kann die RTX 5090 abermals die Muskeln spielen lassen.
| Setting | Belegung Grafikspeicher RTX 4090 | Belegung Grafikspeicher RTX 5090 |
|---|---|---|
| Cyberpunk 2077, Ultra-Preset, kein RT | ||
| 4K, TAA nativ | 10,77 GiByte | 9,14 GiByte |
| 4K, DLAA - CNN | 9,57 GiByte | 9,56 GiByte |
| 4K, DLAA - Transformer | 9,67 GiByte | 9,65 GiByte |
| Cyberpunk 2077, Ultra-Raytracing | ||
| 4K, DLSS Quality, kein RR - CNN | 12,24 GiByte | 12,22 GiByte |
| 4K, DLSS Quality, kein RR - Transformer | 12,13 GiByte | 12,31 GiByte |
| 4K, DLSS Quality, RR an - CNN | 12,24 GiByte | 12,45 GiByte |
| 4K, DLSS Quality, RR an - Transformer | 12,13 GiByte | 12,54 GiByte |
| Cyberpunk 2077, Pathtracing | ||
| 4K, DLSS Balanced, kein RR, kein FG - CNN | 11,58 GiByte | 11,99 GiByte |
| 4K, DLSS Balanced, kein RR, kein FG - Transformer | 11,81 GiByte | 12,12 GiByte |
| 4K, DLSS Balanced, RR an, kein FG - CNN | 11,61 GiByte | 12,01 GiByte |
| 4K, DLSS Balanced, RR an, kein FG - Transformer | 11,54 GiByte | 12,03 GiByte |
| 4K, DLSS Balanced, RR an, FG an (x2) - CNN | 12,42 GiByte | 12,69 GiByte |
| 4K, DLSS Balanced, RR an, FG an (x2) - Transformer | 12,43 GiByte | 12,86 GiByte |
Soweit zur Performance des neuen Transformer-Modells und zu unseren ersten qualitativen Eindrücken. Doch was ist mit dem Grafikspeicher? Laut Nvidia ist es gelungen, beim Einsatz des neuen DLSS 4 den Bedarf an Grafikspeicher leicht zu drücken. Ist dies auch beim Nutzen des neuen Transformer-Modells zu erwarten? Oder steigt die Speicherlast eventuell gar an, dem komplexeren Transformer AI-Modell geschuldet? Da wir nach jeder Messung einen Neustart vorgenommen haben, können wir einen kurzen Blick auf die Grafikspeicherbelegung bei RTX 4090 und RTX 5090 werfen. Allzu viel zeigt sich indes nicht. Abseits des Umstands, dass 12 GiByte für Ray- und Pathtracing in Cyberpunk zu wenig wären, insbesondere beim Einsatz einer Frame Generation.

Konkret: Ich setzte diese Limitierung für einen 240 Hz-Monitor auf maximal 240 FPS und schalte MFG x2 hinzu - entsprechend erhalte ich ~80 native FPS und ergänzend ~160 generierte FPS.
Man erhält also eine Smoothness, die durch Grafikkarte und Monitor ermöglicht wird, reduziert jedoch die Auslastung der Grafikkarte. Das wäre ja schon ziemlich stark, wenn die Artefakte dann mal weitgehend abtrainiert sind.
Preisfrage also: Wie viel Strom würde man dabei ungefähr sparen?
240 nativ
120 nativ / 120 generiert
80 nativ / 160 generiert
60 nativ / 180 generiert
(Vermutlich kann das vorerst kaum jemand außer [Ins Forum, um diesen Inhalt zu sehen] oder [Ins Forum, um diesen Inhalt zu sehen] beantworten ...?)
Spare ich mit 80 nativ/160 MFG gegenüber 240 nativ Strom?
Was meines Wissens nach nicht geht, ist gezielt nativen Frames zu begrenzen. FPS-Limiter begrenzen nur die ausgegeben Menge an Bildern. Soll heißen, wenn Du auf 80 FPS begrenzt und dann FG zuschaltest, hast Du 80 FPS inclusive der generierten Frames, nicht zusätzlich.
Gsync Compatible beziehungsweise Adaptive Sync ist bei unserem Monitor ebenfalls deaktiviert. Das Frame-Pacing, also die Ausgabe von voll berechneten und generierten, interpolierten Frames durch die Frame Gen, wird indes ebenfalls von der Refresh-Rate beeinflusst.
Außerdem noch eine Frage zum Stromverbrauch. Angenommen, man spielt ein etwas älteres, nicht ganz so anspruchvolles Spiel, dass mit deutlich mehr als 100 nativen FPS dargestellt werden kann. Treiberseitig kann ich die FPS bspw. "chillen", somit auf native 100 FPS deckeln, wodurch auch die Belastung der Grafikkarte und resultierend die Lautstärke und der Stromverbrauch reduziert werden.
Wie verhält sich das nun mit MFG? Kann ich die nativen Frames auf 80 FPS festsetzen, um 240 FPS via MFG zu erhalten?
Spare ich mit 80 nativ/160 MFG gegenüber 240 nativ Strom?
laut dem video oben minimum 70fps
Meine es hängt so stark am Spiel. Bei einem Alan Wake reichen mir auch unter 50Fps, in der Basis noch.
Bei einem schnellen Shooter eher über 80, oder 90 in der Basis.