Technik: Features und Probleme (Deep Dive)

451

Test 30.01.2025 um 09:57 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

In diesem Artikel

Mit der Blackwell-Mikroarchitektur (Geforce RTX 5000) erfindet Nvidia das Rad keineswegs neu, die Umbauten gegenüber Ada Lovelace (Geforce RTX 4000) weiten jedoch so manchen Flaschenhals und sind somit eindeutig "forward-looking": Diverse Features im Shader-Core widmen sich zukünftigen Workloads mit unzähligen Strahlen, Polygonen und selbstverständlich KI-Berechnungen. Wir ordnen die zahlreichen Neuerungen in diesem Deep Dive ein und kommen nicht umhin, auch auf Praxisprobleme hinzuweisen.

Quelle: Nvidia (Screenshot: PCGH) GB202 Blackwell: Chip & Package Rendering

Geforce RTX 5090: Keineswegs Vollausbau

Der GB202 ist das Topmodell der "Gaming Blackwell"-Reihe, daneben existiert der GB200 Superchip für professionelle, KI-zentrierte Zwecke. Obwohl Nvidia beim GB202 beinahe alle Register zieht, die mit der gereiften 4N-Fertigung möglich sind, legen die Kalifornier auf der Geforce RTX 5090 einige Chip-Teile still. Ähnlich wie bei der Geforce RTX 4090 entspricht auch die Geforce RTX 5090 nicht ansatzweise dem GB202-Vollausbau, sondern einem sogenannten Salvage-Produkt - der letzte Vollausbau für Endkunden kam auf der Geforce RTX 3090 Ti zum Einsatz.

GB202 vs. AD102 vs. GA102

GB202 AD102 GA102

Nvidia Blackwell GB202 "Full Fat" Block Diagram

Vollbild-Vergleich

Nvidia Ada Lovelace AD102 "Full Fat" Block Diagram

Nvidia Ampere GA102 "Full Fat" Block Diagram

So beherbergt der GB202 "Full Fat" insgesamt 92,2 Milliarden Transistoren, welche sich in die folgenden Module untergliedern: 12 Graphics Processing Clusters (GPCs), 96 Texture Processing Clusters (TPCs), 192 Streaming-Multiprozessoren (SMs) sowie 16 Speicher-Controller à 32 Bit Breite. Daraus ergeben sich stolze 24.576 FP32-ALUs, 192 RT-Cores, 768 Tensor-Cores, 768 TMUs, 192 ROPs, 128 MiByte Level-2-Cache und ein 512-Bit-Speicher-Interface. Auf der Geforce RTX 5090 werden 2.816 FP32-ALUs und 32 MiB L2-Cache stillgelegt. Man könnte auch sagen, dass Nvidia eine komplette Grafikkarte abschaltet, denn 2.816 ALUs bietet eine Radeon R9 290X, eine Geforce GTX 780 Ti immerhin 2.880 ALUs. Doch zurück zur Geforce RTX 5090: Gegenüber dem Vollausbau fehlen 11,5 Prozent der Rechenwerke sowie 25 Prozent des Zwischenspeichers - das ist minimal mehr als beim AD102 vs. RTX 4090.

SMs im Detail

Blackwell-SM Lovelace-SM Ampere-SM

Vollbild-Vergleich

Erweiterter Shader-Core

Neben der absoluten Anzahl hat Nvidia auch an den Fertigkeiten der Shader-Einheiten geschraubt, die Änderungen in Blackwell sind jedoch vergleichsweise minimalinvasiv. Nach wie vor finden sich 128 FP32-ALUs in jedem einzelnen Shader-Multiprozessor, was bei 170 SMs zu besagten 21.760 ALUs führt. Allerdings gibt es eine Verbesserung bei den Datenpfaden: Jeder SM kann nun sowohl FP32-Operationen als auch INT32 berechnen, bei früheren Geforce-Generationen gab es eine strikte Unterteilung in 64× FP32 und 64× INT32. Da nach wie vor 128 ALUs pro SM installiert sind, ergeben sich daraus wie gehabt maximal 128 Rechenoperationen. Blackwell kann somit nicht mehr Berechnungen pro SM durchführen, sich bei gemischtem Shader-Code, der einige Integer-Operationen anstelle von Gleitkomma enthält, aber besser auslasten. Die Auswirkungen in normalerweise sehr FP-lastigen Spielen dürften sich jedoch in Grenzen halten, mit einem leichten "Pro-MHz-Vorteil" für Blackwell gegenüber Ada. Register und andere Parameter werden unterdessen 1:1 wie bei der RTX 4090 skaliert.

Quelle: Nvidia (Screenshot: PCGH) Blackwell SM vs. Ada SM

Raytracing-Kerne 4.0

Nachdem Turing (RTX 20) dedizierte Hardware-Einheiten für das Raytracing einführte, verbesserte Nvidia diese Rechenwerke erstmals in Ampere (RTX 30) um Faktor 2 und in Ada Lovelace (RTX 40) erneut. Blackwell (RTX 50), wie sollte es anders sein, wirft erneut Faktor 2 in die Waagschale, die Ray-Triangle Intersection Rate ist folglich achtmal so hoch wie bei Turing - pro Takt. Die RT-Cores 4.0 melden folglich doppelt so schnell einen Hit oder Miss beim Durchstöbern der Raytracing-Datenstruktur (BVH) wie deren Kollegen in Ada Lovelace. Während diese Verbesserung automatisch in Kraft tritt, verfügt Blackwell, wie Ada, außerdem über Funktionen, die eine deutlich höhere Leistung erlauben, sofern Entwickler diese explizit ansprechen. Da wäre die doppelte Alpha-Traversal-Rate, welche mithilfe der sogenannten Opacity Micromap Engine (OMM) möglich wird. Dahinter steckt eine Funktion, um die beim Raytracing grundsätzlich problematischen Objekte mit Transparenzwert (Alpha) - wie Blätter oder Zäune - effizienter abzuarbeiten.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Ganz neu in Blackwell ist Mega Geometry, das einen Durchbruch beim Raytracing liefern soll. Bisherige Ray- oder Pathtracer arbeiten aus Performance-Gründen mit reduzierter Geometriedichte für die Strahlenverfolgung. Dabei ist vor allem das Level of Detail (LoD) ein großes Problem: Immer, wenn sich hier etwas ändert, muss die komplette Datenstruktur (BVH) neu erstellt werden. Mega Geometry beseitigt all diese Probleme, wie die Kalifornier bereits auf der CES anhand der Unreal Engine 5 demonstrierten (siehe Video der Kollegen von Digital Foundry oben). Mega Geometry funktioniert mit allen RTX-GPUs (Turing aufwärts), dennoch erreichen die RT-Cores 4.0 auch hier Faktor 2 bei der Ray-Triangle Intersection Rate und sind darüber hinaus in der Lage, die Daten stärker zu komprimieren, was die VRAM-Belegung reduziert.

DLSS 4 mit Transformer-Modell

Auch das KI-gestützte Upsampling DLSS geht mit Blackwell in eine neue Runde. Sieht man von einer Funktion ab (siehe unten), schaltet Nvidia alle Errungenschaften auf allen RTX-Grafikkarten frei. Somit kommen auch Nutzer einer Geforce RTX 2000, RTX 3000 und RTX 4000 in den Genuss des verbesserten "Super Resolution"-Features, wie Nvidia das Upsampling offiziell nennt. Dank eines völlig neuen Modells, Transformer genannt, ist das Ergebnis stabiler und besser als mit dem seit DLSS 2 genutzten Verfahren (Convolutional Neural Networks, kurz CNN. Diese Aufwertung gibt es jedoch nicht kostenlos, Transformer-DLSS kostet zumindest in höheren Auflösungen circa fünf Prozent mehr Leistung als CNN-DLSS. Aus diesem Grund, weil Nebenwirkungen nicht ausgeschlossen werden können, befindet sich das Feature noch offiziell im Beta-Stadium. Wer es ausprobieren möchte, benötigt neben einem aktuellen (Blackwell-Launch-)Treiber auch die neueste Version der Nvidia App. Hier lassen sich die einzelnen DLSS-Bestandteile auf Wunsch einstellen und überschreiben - auch die nachfolgend behandelte Frame Generation. Künftige Spiele (und mittels Patches, siehe Cyberpunk 2077) werden die neuen Funktionen in ihren Grafikmenüs anbieten.

DLSS 4: Native & Overrides

DLSS Overrides @ Nvidia App DLSS Modes In-Game CNN vs. Transformer

Nvidia App: Multi Frame Generation & DLSS Model Override

Vollbild-Vergleich

Cyberpunk 2077 Multi Frame Generation und DLSS Model Override

Optical Flow Accelerator geht in Rente

Mit DLSS 3 führte Nvidia Ende 2022 erstmals Frame Generation ein, eine Zwischenbildberechnung. Bei DLSS FG wird nicht stumpf von Frame zu Frame interpoliert, wie das Fernseher seit vielen Jahren tun, sondern mithilfe von zwei Informationsströmen gearbeitet. Da wären die vom Spiel bereitgestellten Bewegungsvektoren (Motion Vectors), welche beispielsweise angeben, in welche Richtung sich Objekte bewegen - diese Information ist bereits für erfolgreiches Upsampling (Super Resolution) notwendig. Hinzu kommt die sogenannte Optical Flow Estimation, welche unter anderem bei Objekten hilft, für die keine Bewegungsvektoren gemeldet werden, etwa Partikel. Ausgeklügelte Algorithmen sorgen dafür, dass nach jedem echten Frame jeweils ein künstliches auf der GPU erzeugt wird, ohne dass der Prozessor davon weiß. Dadurch kann DLSS Frame Generation auch bei CPU-limitierten Szenarien die optisch wahrgenommene Bildrate annähernd verdoppeln.

Seitdem war Nvidia nicht untätig, Frame Generation hat diverse Iterationen erfahren - und mit Blackwell einen regelrechten Paradigmenwechsel. Ende 2022 setzte Nvidia noch voll auf den sogenannten Optical Flow Accelerator (OFA). Dabei handelt es sich um eine dedizierte Recheneinheit, welche in jedem Grafikprozessor einmal vorhanden ist. Ampere verfügt über die erste Inkarnation eines OFA, mit bestenfalls 126 Tera-OPS (Geforce RTX 3090 Ti). Die Ada-Chips verfügen hingegen über je einen OFA mit über 300 TOPS, ergo Faktor 2,5. Diese Verbesserung machte Frame Generation ohne lästige Latenz bei guter Qualität praxistauglich. Das ändert sich mit der neuen Multi Frame Generation (MFG) der Blackwell-GPUs.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Multi Frame Generation (MFG)

Wer sich für eine Geforce RTX 5000 entscheidet, erhält damit ein exklusives Feature: Multi Frame Generation, kurz MFG (nicht zu verwechseln mit einem Song der Fantastischen 4). "Multi" bezieht sich auf die Anzahl der KI-generierten Zwischenbilder, anstelle eines Bildes sind Blackwell-GPUs in der Lage, bis zu drei AI-Frames einzuschieben. Das ist nicht nur für sich bemerkenswert, sondern auch die Technik dahinter: Der einst essenzielle Optical Flow Accelerator hat ausgedient, Multi Frame Generation wird ausschließlich auf den Tensor-Kernen berechnet. Nvidia begründet diesen Schritt mit einer natürlichen Evolution, der neue Algorithmus sei wesentlich flexibler und schneller, sodass der OFA nicht mehr benötigt wird. Damit kommt zwangsläufig eine Idee zurück: Frame Generation auf RTX-3000-GPUs. Die praktische Umsetzung dieses Wunschs liegt zwar näher denn je, bislang hat Nvidia jedoch noch keine Nägel mit Köpfen gemacht.

Doch zurück zur Gegenwart mit Blackwell. Wir widmen DLSS 4 und Multi Frame Generation eine ausführliche Abhandlung im Artikel DLSS 4 im ersten Test - Multi-Frame-Generation, Performance, Latenzen und Qualität geprüft. Auch im vorliegenden Fall der Geforce RTX 5090 kommt das Feature immer wieder zum Einsatz, um die damit verbundenen Möglichkeiten aufzuzeigen. Nvidias Präsentation zeigt beeindruckende Leistungssteigerungen der optischen Bildrate, welche wir selbstverständlich prüfen.

Quelle: Nvidia (Screenshot: PCGH) DLSS 4 MFG vs. DLSS Off

Ärger im Paradies

Sie sehen, eine neue GPU-Generation bringt stets neues Potenzial - birgt aber auch neue Risiken. Die erläuterten Neuerungen erfordern ein reibungsloses Zusammenspiel aus Hard- und Software. Wie das mit neuen Architekturen so ist, läuft zum Start nicht alles einwandfrei, es knirscht im Getriebe - so auch bei Blackwell. Insbesondere die Häufung der Software-Probleme ist bei diesem Launch bemerkenswert hoch. Hier die Liste der primären Probleme, welche sich zu diversen Kompatibilitätsproblemen mit AI- und Produktivprogrammen gesellt (allesamt an Nvidia gemeldet):

Grafikfehler in Hellblade 2 (Dither-Banding u. a. bei Gras).
Grafikfehler (nur) im Hauptmenü von Starfield.
Grafikfehler in Forza Motorsport (Flackern, anscheinend RT-Schatten betreffend).
Grafikfehler in Control (Flackern, anscheinend RT-Schatten betreffend).
Performance in Assassin's Creed Mirage ist relativ schwach, speziell Low-Res ("Maximale Leistung bevorzugen" im Treiber hilft nicht).
Performance in W40K: Space Marine 2 ist relativ schwach, speziell Low-Res ("Maximale Leistung bevorzugen" im Treiber hilft nicht).
Performance in Minecraft RTX ist miserabel (und DLSS zudem ausgegraut).
DLSS RR ist in Alan Wake 2 und Portal RTX (jeweils public Version) ausgegraut.
Cyberpunk 2077 v2.21 public funktioniert nicht mit dem 5090-Reviewtreiber (Workaround: v2.2 Test Branch nehmen).
Kein einziges Tool, das den PCIe-Durchsatz messen kann, funktioniert mit der RTX 5090 (falsche Ergebnisse oder Abstürze).

Die letztgenannten Probleme sind besonders interessant, denn sie unterstreichen, was derzeit hinter den Kulissen zu hören ist. Nvidias innovatives Platinendesign der RTX 5090 (und RTX 5080) Founders Edition mit einem kompakten Basis-PCB plus Tochter-Boards führt anscheinend zu Problemen bei den PCI-Express-Signalen.

Quelle: Nvidia Geforce RTX 5090 Founders Edition: Hauptplatine (Front/Vorderseite) Die Probleme äußern sich - zumindest bei unseren zahlreichen Teststunden - nicht in den Gaming-Benchmarks, einige Mainboards sollen jedoch im "Gen 5"-Betrieb den Dienst verweigern und nur mit PCIe 4.0 funktionieren. Auch der Betrieb mit Risern sei problematisch, da diese Geräte die Signalwege verlängern. Fakt ist schon jetzt, dass diese Eigenheiten auf die Founders-Editionen beschränkt sind. Nvidias Board-Partner setzen (Stand jetzt) allesamt auf konventionelle Platinen und sind somit vor PCI-Express-Hürden gefeit. Wir werden beide Baustellen - sowohl den Treiber als auch PCIe 5.0 - selbstverständlich im Auge behalten.