Quelle: PCGH

Seite 2:

Titan V im Nachtest: Technik-Tauchgang

Test 03.10.2025 um 10:15 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

In diesem Artikel

Mit 815 Quadratmillimetern Chip-Fläche und 21,2 Milliarden Transistoren war der Volta GV100 im Jahr 2017 ein echter Gigant. Gefertigt wurde er bei Nvidias Haus-und-Hof-Lieferanten TSMC im "12 nm FFN"-Prozess, bei dem es sich um einen verbesserten 16FF+ handelt, welcher laut Nvidia für die eigenen GPUs optimiert wurde. Physisch im GV100 vorhanden sind 6 Graphics Processing Clusters (GPCs), die sich in 84 Shader-Multiprozessoren (SMs) mit 5.376 FP32-ALUs, 2.688 FP64-ALUs und 672 Tensor-Kernen (TCs) unterteilen. Bei Letzteren handelt es sich um damals neuartige, spezielle Rechenwerke, welche für den Industrietreiber Deep respektive Machine Learning optimiert wurden. Zur Verfügung stehen maximal 125 TFLOPS an FP16-Leistung (abgespeckte Gleitkomma-Berechnungen) - die Fähigkeit zu INT8 und INT4 mit erhöhter Leistung wurde erst mit Turings 2nd-Gen-Tensorkernen implementiert, Volta wird bei reduzierter Genauigkeit nicht schneller.

Blockdiagramme

GV100 Block Diagram TU102 Block Diagram GV100 SM

Vollbild-Vergleich

Von wegen "Der will nur spielen"

Volta ist eine sehr interessante Melange, eine Mikroarchitektur mit viel Pascal (GTX 1000) und einer Schippe Turing (RTX 2000), abgeschmeckt mit einer großen Menge High Performance Computing (HPC). Obwohl das so ist, hat Nvidia hier erstmals eine bei Gaming-Chips längst etablierte Unterteilung der SMs in Vierergruppen vorgenommen, um die Auslastung pro Multiprozessor zu erhöhen. Dennoch: Große Teile der GV100-Kernfläche werden von speziellen Rechenwerken und Schnittstellen beansprucht, die kein Spieleprogrammierer ansteuert. Sehen wir uns zunächst die 84 Module an, welche Nvidia Shader-Multiprozessoren (kurz SM) nennt. Jeder SM beherbergt neben 64 FP32-Einheiten auch 64 INT32-Einheiten. Tatsächlich war GV100 die erste GPU, welche beide Berechnungen gleichzeitig mit voller Geschwindigkeit durchführen kann ("Concurrent Execution") - Turing (RTX 2000) brachte diese Fertigkeit ein knappes Jahr später in den Massenmarkt. Einzigartig im GV100 sind die pro SM jeweils 32 FP64-ALUs für doppeltgenaue Berechnungen (SP-DP-Verhältnis 2:1) und acht Tensor-Kerne für Deep-Learning-Workloads. Wie Nvidia bereits beim Volta-Debüt im Mai 2017 zu Protokoll gab, tragen die Tensor-Kerne zur rekordverdächtigen Größe des GV100 bei.

Volta vs. Pascal & Turing

FP32 & INT32 Volta Throughput Raytracing

Vollbild-Vergleich

Nvidia Volta max. Throughput (Volta Whitepaper)

Ebenfalls stattlich sind die 20 MiByte an Registerspeicher plus 10 MiByte L1- und 6 MiByte L2-Cache. Neu im GV100 ist außerdem ein L0-Instruction-Cache, der eine höhere Effizienz als die Instruction-Buffer bei Pascal ermöglicht. Der L1-Data-Cache und der zuvor getrennt ausgeführte Shared Memory werden zusammengeführt (128 KiByte pro SM) und können jetzt individuell konfiguriert werden. Der L2-Cache wird von 4 auf 6 MiByte vergrößert.

Bereits der GP100 (reine HPC-GPU) setzte auf 16 GiByte High Bandwidth Memory zweiter Generation (HBM2) und auch der GV100 wandelt auf diesem Pfad. Insgesamt 4.096 Bit-Bahnen verbinden den Kern mit vier HBM-Stapeln à 4 GiByte (sogenannte "4-hi stacks") aus dem Hause Samsung. Die enorme Breite der Speicherschnittstelle erzielt hohe Transferraten selbst bei geringem Takt. So verwundert es nicht, dass die Tesla V100 mit weniger als 900 MHz noch stattliche 900 Gigabyte pro Sekunde hin und her schaufelt. Mit 977 MHz fiele theoretisch erstmals die Schallmauer von 1 Terabyte pro Sekunde - im Endkundenmarkt hat dies erst AMDs Radeon VII (Anfang 2019) geschafft.

Dass Volta INT32-Einheiten neben den üblichen FP32-ALUs einführte und Turing dieses Design übernimmt, erwähnten wir bereits. Bislang nicht zur Sprache gekommen sind Ursache und Wirkung dieser Modifikation. Nvidia führte schon damals Analysen diverser Spiele ins Feld, die einen interessanten Instruktionsmix offenbaren: Pro 100 Gleitkomma-Operationen (FP) fallen durchschnittlich 36 Integer-Operationen (INT) an. Diese verstopfen die Pipeline innerhalb der FP32-ALUs, weshalb die Idee nahelag, ihnen dedizierte INT32-Helferlein abzustellen. Da FP- und INT-ALUs Hand in Hand, also parallel, arbeiten, steigt die effektive Rechenleistung pro FP32-ALU. Dabei lassen sich FP32- und INT32-ALUs nicht einfach addieren, laut Nvidia ergeben sich je nach Spiel jedoch um 15 bis 50 Prozent höhere Durchsatzwerte. Dieser Design-Kniff ist der wahrscheinlichste Grund dafür, warum die Titan V in Quantum Break eine scheinbar überproportionale Leistung erreicht. Wie es bei modernen Spielen aussieht, erfahren Sie ab der nächsten Seite.

Quelle: PCGH

DLSS? Raytracing? Frame Generation?

Beachten Sie bitte, dass die oben erläuterten Zahlen den GV100 im Vollausbau behandeln - das Consumer-Produkt Titan V verfügt über eine etwas niedrigere Rechen- und Speicherleistung (siehe Seite 1 dieses Artikels). Die grundlegenden Fertigkeiten des GV100 sind jedoch intakt und man sollte meinen, dass die Pionierarbeit sich nun, acht Jahre später, auszahlt - die kaum jüngere Geforce RTX 2080 Ti trotzt dem Alter schließlich wie keine andere Grafikkarte. Bei der Titan V sieht die Lage bedauerlichweise anders aus. Wie Sie im Folgenden sehen, zahlen sich die Errungenschaften rund um die gute Auslastbarkeit sowie hohe Speicherleistung aus, von einer KI-Revolution ist Volta jedoch fast genauso weit entfernt wie Pascal. Ursächlich ist der Nvidia-Treiber, welcher die Titan V beim Gaming wie eine GTX-1000-Grafikkarte behandelt. Infolgedessen fehlt von DLSS jede Spur, obwohl 640 Tensor-Kerne mit mehr als 100 TFLOPS Rechenleistung auf Arbeit warten. Wir lagen Nvidia wochenlang in den Ohren, ob sich daran etwas ändern lässt - keine Chance.

Entgegen unserer Erwartung scheiterte auch die Idee, den Tensoren eine andere Arbeit aufzuhalsen - zumindest über den "offiziellen" Weg, Nvidias TensorRT-API. Der Procyon aus dem Hause UL ist mithilfe zahlreicher Tests in der Lage, die KI-Leistung moderner Prozessoren bei verschiedenen Datenformaten und Schnittstellen zu bewerten. Bedauerlicherweise scheitert jeder Versuch, die Titan V entsprechende Tests über Nvidias TensorRT-API absolvieren zu lassen. Laut UL braucht der "AI Computer Vision"-Test mindestens die CUDA Capabilities 6.1 und Volta entspricht 7.0. Schade, denn vergleicht man die offiziellen Angaben von Nvidia, verfügt die Titan V ansatzweise über die gleiche FP16-Leistung via Tensor-Kernen wie eine Geforce RTX 5070 (Letztere wird erst mit gröberen Formaten doppelt bis viermal so schnell).

Weitere Funktionen, welche im Rahmen von DirectX 12 Ultimate zum Standard erhoben wurden, darunter Variable Rate Shading und Mesh Shader, beherrscht Volta im Gegensatz zu Turing nicht. Raytracing-Kerne fehlen dem GV100 ebenfalls, allerdings bedeutet das nicht, dass sich keine Strahlenlast berechnen lässt - mehr zu diesem spannenden Thema auf Seite 4 dieses Artikels! Dass Voltas Tensor-Kerne in speziellen, vorwiegend experimentellen Workloads bereits vor Jahren funktioniert haben, steht nicht infrage. Die beeindruckende Leistung bei doppeltgenauen Berechnungen lässt sich unterdessen zweifelsfrei nachweisen - werfen Sie gerne einen Blick auf die Ergebnisse des AIDA64 -General-Purpose-Benchmarks:

Quelle: PCGH AIDA64 GPGPU Benchmark: Titan V vs. Titan V MAX-OC vs. Radeon VII vs. RX 7900 XTX vs. RTX 4090 vs. RTX 5090 In der Spiele-Praxis des Jahres 2025 verhält sich eine Titan V somit wie eine Geforce GTX 1080 Ti auf Steroiden. Zwar ist DLSS vom Tisch, allerdings sind rund 16 TFLOPS an FP32-Leistung plus 12 GiByte mit 653 GByte/s Durchsatz nicht zu verachten. AMDs FSR 3.x inklusive Frame Generation funktioniert wunderbar auf Volta, auch Intels XeSS lässt sich nutzen (dieses allerdings relativ langsam). Immerhin Reflex wird ordnungsgemäß angeboten und simple, spatiale Upscaler wie AMDs FSR 1 und Nvidias NIS sind ebenfalls kein Problem. Damit leiten wir zu den Gaming-Benchmarks über. Was leistet das acht Jahre Ultra-High-End von Nvidia mit und ohne beherzter Übertaktung?

Titan V im Nachtest: Technik-Tauchgang

In diesem Artikel

Von wegen "Der will nur spielen"

DLSS? Raytracing? Frame Generation?

Artikel teilen

Kommentare (61)