Technik: Features und Probleme (Deep Dive)

223

Test 30.01.2025 um 09:55 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

In diesem Artikel

Mit der Blackwell-Mikroarchitektur (Geforce RTX 5000) erfindet Nvidia das Rad keineswegs neu, die Umbauten gegenüber Ada Lovelace (Geforce RTX 4000) weiten jedoch so manchen Flaschenhals und sind somit eindeutig "forward-looking": Diverse Features im Shader-Core widmen sich zukünftigen Workloads mit unzähligen Strahlen, Polygonen und selbstverständlich KI-Berechnungen. Wir ordnen die zahlreichen Neuerungen in diesem Deep Dive ein und kommen nicht umhin, auf die bestehenden Praxisprobleme hinzuweisen.

SMs im Detail

Blackwell-SM Lovelace-SM Ampere-SM

Vollbild-Vergleich

Erweiterter Shader-Core

Gegenüber Ada Lovelace erfuhr der Shader-Core in Blackwell einen Umbau, allerdings verhältnismäßig minimalinvasiv. Nach wie vor finden sich 128 arithmetisch-logische Einheiten (ALUs) in jedem einzelnen Shader-Multiprozessor, was im Falle der Geforce RTX 5080 bei 84 SMs zu 10.752 Rechenwerken führt. Allerdings gibt es eine Verbesserung bei den Datenpfaden: Jeder SM kann nun sowohl FP32-Operationen als auch INT32 berechnen, bei früheren Geforce-Generationen gab es eine strikte Unterteilung in 64× FP32 und 64× INT32. Da nach wie vor 128 ALUs pro SM installiert sind, ergeben sich daraus wie gehabt maximal 128 Rechenoperationen. Blackwell kann somit nicht mehr Berechnungen pro SM durchführen, sich bei gemischtem Shader-Code, der einige Integer-Operationen anstelle von Gleitkomma enthält, aber besser auslasten. Die Auswirkungen in normalerweise sehr FP-lastigen Spielen dürften sich jedoch in Grenzen halten, mit einem leichten "Pro-MHz-Vorteil" für Blackwell gegenüber Ada. Register und andere Parameter werden unterdessen 1:1 wie bei RTX 4000 skaliert.

Quelle: Nvidia (Screenshot: PCGH) Blackwell SM vs. Ada SM

Raytracing-Kerne 4.0

Nachdem Turing (RTX 20) dedizierte Hardware-Einheiten für das Raytracing eingeführt hatte, verbesserte Nvidia diese Rechenwerke erstmals in Ampere (RTX 30) um Faktor 2 und in Ada Lovelace (RTX 40) erneut. Blackwell (RTX 50), wie sollte es anders sein, wirft erneut Faktor 2 in die Waagschale, die Ray-Triangle Intersection Rate ist folglich achtmal so hoch wie bei Turing - pro Takt. Die RT-Cores 4.0 melden folglich doppelt so schnell einen Hit beim Durchstöbern der Raytracing-Datenstruktur (BVH) wie deren Kollegen in Ada Lovelace. Während diese Verbesserung automatisch in Kraft tritt, verfügt Blackwell, wie Ada, außerdem über Funktionen, die eine deutlich höhere Leistung erlauben, sofern Entwickler diese explizit ansprechen. Da wäre die doppelte Alpha-Traversal-Rate, welche mithilfe der sogenannten Opacity Micromap Engine (OMM) möglich wird. Dahinter steckt eine Funktion, um die beim Raytracing grundsätzlich problematischen Objekte mit Transparenzwert (Alpha) - wie Blätter oder Zäune - effizienter abzuarbeiten.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Ganz neu in Blackwell ist Mega Geometry, das einen Durchbruch beim Raytracing liefern soll. Bisherige Ray- oder Pathtracer arbeiten aus Performance-Gründen mit reduzierter Geometriedichte für die Strahlenverfolgung. Dabei ist vor allem das Level of Detail (LoD) ein großes Problem: Immer, wenn sich hier etwas ändert, muss die komplette Datenstruktur (BVH) neu erstellt werden. Mega Geometry beseitigt all diese Probleme, wie die Kalifornier auf der CES anhand der Unreal Engine 5 demonstrierten. Mega Geometry funktioniert mit allen RTX-GPUs (Turing aufwärts), dennoch erreichen die RT-Cores 4.0 auch hier Faktor 2 bei der Ray-Triangle Intersection Rate gegenüber Ada und sind darüber hinaus in der Lage, die Daten stärker zu komprimieren, was die VRAM-Belegung reduziert. Voraussichtlich wird Alan Wake 2 in Kürze via Patch das erste Spiel, welches die Vorteile dieses Features in Aktion zeigt.

DLSS 4 mit Transformer-Modell

Auch das KI-gestützte Upsampling DLSS geht mit Blackwell in eine neue Runde. Sieht man von einer Funktion ab (siehe unten), schaltet Nvidia alle Errungenschaften auf allen RTX-Grafikkarten frei. Somit kommen auch Nutzer einer Geforce RTX 2000, RTX 3000 und RTX 4000 in den Genuss des verbesserten "Super Resolution"-Features, wie Nvidia das Upsampling offiziell nennt. Dank eines völlig neuen Modells, Transformer genannt, ist das Ergebnis stabiler und besser als mit dem seit DLSS 2 genutzten Verfahren (Convolutional Neural Networks, kurz CNN). Diese Aufwertung gibt es jedoch nicht kostenlos, Transformer-DLSS kostet zumindest in höheren Auflösungen circa fünf Prozent mehr Leistung als CNN-DLSS. Aus diesem Grund, weil Nebenwirkungen nicht ausgeschlossen werden können, befindet sich das Feature noch offiziell im Beta-Stadium. Wer es ausprobieren möchte, benötigt neben einem aktuellen (Blackwell-Launch-)Treiber auch die neueste Version der Nvidia App. Hier lassen sich die einzelnen DLSS-Bestandteile auf Wunsch einstellen und überschreiben - auch die nachfolgend behandelte Frame Generation. Künftige Spiele (und mittels Patches, siehe Cyberpunk 2077) werden die neuen Funktionen in ihren Grafikmenüs anbieten.

DLSS 4: Native & Overrides

DLSS Overrides @ Nvidia App DLSS Modes In-Game CNN vs. Transformer

Nvidia App: Multi Frame Generation & DLSS Model Override

Vollbild-Vergleich

Cyberpunk 2077 Multi Frame Generation und DLSS Model Override

Optical Flow Accelerator geht in Rente

Mit DLSS 3 führte Nvidia Ende 2022 erstmals Frame Generation ein, eine Zwischenbildberechnung. Bei DLSS FG wird nicht stumpf von Frame zu Frame interpoliert, wie das Fernseher seit vielen Jahren tun, sondern mithilfe von zwei Informationsströmen gearbeitet. Da wären die vom Spiel bereitgestellten Bewegungsvektoren (Motion Vectors), welche beispielsweise angeben, in welche Richtung sich Objekte bewegen - diese Information ist bereits für erfolgreiches Upsampling (Super Resolution) notwendig. Hinzu kommt die sogenannte Optical Flow Estimation, welche unter anderem bei Objekten hilft, für die keine Bewegungsvektoren gemeldet werden, etwa Partikel. Ausgeklügelte Algorithmen sorgen dafür, dass nach jedem echten Frame jeweils ein künstlicher auf der GPU erzeugt wird, ohne dass der Prozessor davon weiß. Dadurch kann DLSS Frame Generation auch bei CPU-limitierten Szenarien die optisch wahrgenommene Bildrate annähernd verdoppeln.

Seitdem war Nvidia nicht untätig, Frame Generation hat diverse Iterationen erfahren - und mit Blackwell einen regelrechten Paradigmenwechsel. Ende 2022 setzte Nvidia noch voll auf den sogenannten Optical Flow Accelerator (OFA). Dabei handelt es sich um eine dedizierte Recheneinheit, welche in jedem Grafikprozessor einmal vorhanden ist. Ampere verfügt über die erste Inkarnation eines OFA, mit bestenfalls 126 Tera-OPS (Geforce RTX 3090 Ti). Die Ada-Chips verfügen hingegen über je einen OFA mit über 300 TOPS, ergo Faktor 2,5. Diese Verbesserung machte Frame Generation ohne lästige Latenz bei guter Qualität praxistauglich. Das ändert sich mit der neuen Multi Frame Generation (MFG) der Blackwell-GPUs.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Multi Frame Generation (MFG)

Wer sich für eine Geforce RTX 5000 entscheidet, erhält damit ein exklusives Feature: Multi Frame Generation, kurz MFG (nicht zu verwechseln mit einem Song der Fantastischen 4). "Multi" bezieht sich auf die Anzahl der KI-generierten Zwischenbilder, anstelle eines Bildes sind Blackwell-GPUs in der Lage, bis zu drei KI-Frames einzuschieben. Das ist nicht nur für sich bemerkenswert, sondern auch die Technik dahinter: Der einst essenzielle Optical Flow Accelerator hat ausgedient, Multi Frame Generation wird ausschließlich auf den Tensor-Kernen berechnet. Nvidia begründet diesen Schritt mit einer natürlichen Evolution, der neue Algorithmus sei wesentlich flexibler und schneller, sodass der OFA nicht mehr benötigt wird. Damit kommt zwangsläufig eine Idee zurück: Frame Generation auf RTX-3000-GPUs. Die praktische Umsetzung dieses Wunschs liegt zwar näher denn je, bislang hat Nvidia jedoch noch keine Nägel mit Köpfen gemacht.

Doch zurück zur Gegenwart mit Blackwell. Wir widmen DLSS 4 und Multi Frame Generation eine ausführliche Abhandlung im Artikel DLSS 4 im ersten Test - Multi Frame Generation, Performance, Latenzen und Qualität geprüft. Auch in den folgenden Benchmarks der Geforce RTX 5080 kommt das Feature immer wieder zum Einsatz, um die damit verbundenen Möglichkeiten aufzuzeigen. Nvidias Präsentation zeigt beeindruckende Leistungssteigerungen der optischen Bildrate, welche wir selbstverständlich prüfen.

Ärger im Paradies

Sie sehen, eine neue GPU-Generation bringt stets neues Potenzial, birgt aber auch neue Risiken. Die erläuterten Neuerungen erfordern ein reibungsloses Zusammenspiel aus Hard- und Software. Wie das mit neuen Architekturen so ist, läuft zum Start nicht alles einwandfrei, es knirscht im Getriebe - so auch bei Blackwell. Insbesondere die Häufung der Software-Probleme ist bei dieser Nvidia-Generation bemerkenswert hoch. Hier die Liste der Blackwell-Probleme, welche wir allesamt an Nvidia gemeldet haben:

RTX 5000 Blackwell: Graphical Corruption

Starfield Hellblade 2 Control

Starfield: Blackwell Graphics Corruption

Vollbild-Vergleich

Hellblade 2: Blackwell Graphics Line Corruption

Grafikfehler in Hellblade 2 (Dither-Banding u. a. bei Gras).
Grafikfehler (nur) im Hauptmenü von Starfield.
Grafikfehler in Forza Motorsport (Flackern, anscheinend RT-Schatten betreffend).
Grafikfehler in Control (Flackern, anscheinend RT-Schatten betreffend). Außerdem ist DLSS ausgegraut.
Performance in Assassin's Creed Mirage ist schwach, speziell Low-Res (High Power im Treiber hilft nicht).
Performance in W40K: Space Marine 2 in niedrigen Auflösungen ist schwach (High Power im Treiber hilft nicht).
Performance in Minecraft RTX ist miserabel (und DLSS ausgegraut).
Probleme mit 10 Bit Farbtiefe: Ist diese aktiv, wird mit reduziertem Farbraum gearbeitet. Workaround: 8 Bit explizit einstellen.
Möglicherweise weitere Probleme mit der GPU-Skalierung ähnlicher Natur (weitere Tests laufen).
Kein einziges Tool, das den PCIe-Durchsatz messen kann, funktioniert mit RTX 5000 (falsche Ergebnisse oder Abstürze).
AIDA64-GPGPU-Benchmark funktioniert überhaupt nicht (getestet mit mehreren Betas während des 5000-Review-Zeitraums).
DLSS RR ist in Alan Wake 2 und Portal RTX (jeweils public Version) mit RX 5000 ausgegraut.

Das Problem mit der Farbtiefe beschäftigte uns bereits beim Test der Geforce RTX 5090, sodass wir weiter geforscht haben. Mittlerweile können wir die ausgewaschenen Farben auf die 10-Bit-Fertigkeit unseres Testbildschirms zurückführen. Erfolgt keine Änderung im Treiber, stellen Blackwell-Grafikkarten (derzeit RTX 5090 und RTX 5080) die Farben mit reduzierter Qualität dar, was gerade in nicht nativen Auflösungen unschön aussieht. Erst der explizite Wechsel auf 8 Bit pro Komponente entlockt den neuen GPUs das gewohnte Bild - diese Qualität wird von allen anderen Grafikkarten (RTX 2000 aufwärts, RX 5000 aufwärts) standardmäßig dargestellt. Der folgende Vergleich zeigt akkurat die Unterschiede:

Blackwell Color Bug

8 Bit "10 Bit"

Vollbild-Vergleich

Außerdem führt Nvidias innovatives Platinendesign der RTX 5090 und RTX 5080 Founders Edition mit einem kompakten Basis-PCB plus Tochter-Boards zu Problemen bei den PCI-Express-Signalen. Diese äußern sich - zumindest bei unseren zahlreichen Teststunden - nicht in den Gaming-Benchmarks, einige Mainboards sollen jedoch im "Gen 5"-Betrieb den Dienst verweigern und nur mit PCIe 4.0 funktionieren. Auch der Betrieb mit Risern ist problematisch, da diese Geräte die Signalwege verlängern. Fakt ist, dass diese Eigenheiten auf die Founders-Editionen beschränkt sind. Nvidias Board-Partner setzen (Stand jetzt) allesamt auf konventionelle Platinen und sind somit vor PCI-Express-Hürden gefeit. Wir werden beide Baustellen - sowohl den Treiber als auch PCIe 5.0 - selbstverständlich im Auge behalten.