Titan V im Nachtest: Technik-Tauchgang
Quelle: PCGH
Seite 2:

Titan V im Nachtest: Technik-Tauchgang

61
Test Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

Mit 815 Quadratmillimetern Chip-Fläche und 21,2 Milliarden Transistoren war der Volta GV100 im Jahr 2017 ein echter Gigant. Gefertigt wurde er bei Nvidias Haus-und-Hof-Lieferanten TSMC im "12 nm FFN"-Prozess, bei dem es sich um einen verbesserten 16FF+ handelt, welcher laut Nvidia für die eigenen GPUs optimiert wurde. Physisch im GV100 vorhanden sind 6 Graphics Processing Clusters (GPCs), die sich in 84 Shader-Multiprozessoren (SMs) mit 5.376 FP32-ALUs, 2.688 FP64-ALUs und 672 Tensor-Kernen (TCs) unterteilen. Bei Letzteren handelt es sich um damals neuartige, spezielle Rechenwerke, welche für den Industrietreiber Deep respektive Machine Learning optimiert wurden. Zur Verfügung stehen maximal 125 TFLOPS an FP16-Leistung (abgespeckte Gleitkomma-Berechnungen) - die Fähigkeit zu INT8 und INT4 mit erhöhter Leistung wurde erst mit Turings 2nd-Gen-Tensorkernen implementiert, Volta wird bei reduzierter Genauigkeit nicht schneller.

Von wegen "Der will nur spielen"

Volta ist eine sehr interessante Melange, eine Mikroarchitektur mit viel Pascal (GTX 1000) und einer Schippe Turing (RTX 2000), abgeschmeckt mit einer großen Menge High Performance Computing (HPC). Obwohl das so ist, hat Nvidia hier erstmals eine bei Gaming-Chips längst etablierte Unterteilung der SMs in Vierergruppen vorgenommen, um die Auslastung pro Multiprozessor zu erhöhen. Dennoch: Große Teile der GV100-Kernfläche werden von speziellen Rechenwerken und Schnittstellen beansprucht, die kein Spieleprogrammierer ansteuert. Sehen wir uns zunächst die 84 Module an, welche Nvidia Shader-Multiprozessoren (kurz SM) nennt. Jeder SM beherbergt neben 64 FP32-Einheiten auch 64 INT32-Einheiten. Tatsächlich war GV100 die erste GPU, welche beide Berechnungen gleichzeitig mit voller Geschwindigkeit durchführen kann ("Concurrent Execution") - Turing (RTX 2000) brachte diese Fertigkeit ein knappes Jahr später in den Massenmarkt. Einzigartig im GV100 sind die pro SM jeweils 32 FP64-ALUs für doppeltgenaue Berechnungen (SP-DP-Verhältnis 2:1) und acht Tensor-Kerne für Deep-Learning-Workloads. Wie Nvidia bereits beim Volta-Debüt im Mai 2017 zu Protokoll gab, tragen die Tensor-Kerne zur rekordverdächtigen Größe des GV100 bei.

Ebenfalls stattlich sind die 20 MiByte an Registerspeicher plus 10 MiByte L1- und 6 MiByte L2-Cache. Neu im GV100 ist außerdem ein L0-Instruction-Cache, der eine höhere Effizienz als die Instruction-Buffer bei Pascal ermöglicht. Der L1-Data-Cache und der zuvor getrennt ausgeführte Shared Memory werden zusammengeführt (128 KiByte pro SM) und können jetzt individuell konfiguriert werden. Der L2-Cache wird von 4 auf 6 MiByte vergrößert.

Bereits der GP100 (reine HPC-GPU) setzte auf 16 GiByte­ High Bandwidth Memory zweiter Generation (HBM2) und auch der GV100 wandelt auf diesem Pfad. Insgesamt 4.096 Bit-Bahnen verbinden den Kern mit vier HBM-Stapeln à 4 GiByte (sogenannte "4-hi stacks") aus dem Hause Samsung. Die enorme Breite der Speicherschnittstelle erzielt hohe Transferraten selbst bei geringem Takt. So verwundert es nicht, dass die Tesla V100 mit weniger als 900 MHz noch stattliche 900 Gigabyte pro Sekunde hin und her schaufelt. Mit 977 MHz fiele theoretisch erstmals die Schallmauer von 1 Terabyte pro Sekunde - im Endkundenmarkt hat dies erst AMDs Radeon VII (Anfang 2019) geschafft.

Dass Volta INT32-Einheiten neben den üblichen FP32-ALUs einführte und Turing dieses Design übernimmt, erwähnten wir bereits. Bislang nicht zur Sprache gekommen sind Ursache und Wirkung dieser Modifikation. Nvidia führte schon damals Analysen diverser Spiele ins Feld, die einen interessanten Instruktionsmix offenbaren: Pro 100 Gleitkomma-Operationen (FP) fallen durchschnittlich 36 Integer-Operationen (INT) an. Diese verstopfen die Pipeline innerhalb der FP32-ALUs, weshalb die Idee nahelag, ihnen dedizierte INT32-Helferlein abzustellen. Da FP- und INT-ALUs Hand in Hand, also parallel, arbeiten, steigt die effektive Rechenleistung pro FP32-ALU. Dabei lassen sich FP32- und INT32-ALUs nicht einfach addieren, laut Nvidia ergeben sich je nach Spiel jedoch um 15 bis 50 Prozent höhere Durchsatzwerte. Dieser Design-Kniff ist der wahrscheinlichste Grund dafür, warum die Titan V in Quantum Break eine scheinbar überproportionale Leistung erreicht. Wie es bei modernen Spielen aussieht, erfahren Sie ab der nächsten Seite.

<strong>Nvidia Titan V im Nachtest: </strong>Wie schlägt sich die 3.100-Euro-Grafikkarte acht Jahre später? (3) Quelle: PCGH

DLSS? Raytracing? Frame Generation?

Beachten Sie bitte, dass die oben erläuterten Zahlen den GV100 im Vollausbau behandeln - das Consumer-Produkt Titan V verfügt über eine etwas niedrigere Rechen- und Speicherleistung (siehe Seite 1 dieses Artikels). Die grundlegenden Fertigkeiten des GV100 sind jedoch intakt und man sollte meinen, dass die Pionierarbeit sich nun, acht Jahre später, auszahlt - die kaum jüngere Geforce RTX 2080 Ti trotzt dem Alter schließlich wie keine andere Grafikkarte. Bei der Titan V sieht die Lage bedauerlichweise anders aus. Wie Sie im Folgenden sehen, zahlen sich die Errungenschaften rund um die gute Auslastbarkeit sowie hohe Speicherleistung aus, von einer KI-Revolution ist Volta jedoch fast genauso weit entfernt wie Pascal. Ursächlich ist der Nvidia-Treiber, welcher die Titan V beim Gaming wie eine GTX-1000-Grafikkarte behandelt. Infolgedessen fehlt von DLSS jede Spur, obwohl 640 Tensor-Kerne mit mehr als 100 TFLOPS Rechenleistung auf Arbeit warten. Wir lagen Nvidia wochenlang in den Ohren, ob sich daran etwas ändern lässt - keine Chance.

Entgegen unserer Erwartung scheiterte auch die Idee, den Tensoren eine andere Arbeit aufzuhalsen - zumindest über den "offiziellen" Weg, Nvidias TensorRT-API. Der Procyon aus dem Hause UL ist mithilfe zahlreicher Tests in der Lage, die KI-Leistung moderner Prozessoren bei verschiedenen Datenformaten und Schnittstellen zu bewerten. Bedauerlicherweise scheitert jeder Versuch, die Titan V entsprechende Tests über Nvidias TensorRT-API absolvieren zu lassen. Laut UL braucht der "AI Computer Vision"-Test mindestens die CUDA Capabilities 6.1 und Volta entspricht 7.0. Schade, denn vergleicht man die offiziellen Angaben von Nvidia, verfügt die Titan V ansatzweise über die gleiche FP16-Leistung via Tensor-Kernen wie eine Geforce RTX 5070 (Letztere wird erst mit gröberen Formaten doppelt bis viermal so schnell).

Weitere Funktionen, welche im Rahmen von DirectX 12 Ultimate zum Standard erhoben wurden, darunter Variable Rate Shading und Mesh Shader, beherrscht Volta im Gegensatz zu Turing nicht. Raytracing-Kerne fehlen dem GV100 ebenfalls, allerdings bedeutet das nicht, dass sich keine Strahlenlast berechnen lässt - mehr zu diesem spannenden Thema auf Seite 4 dieses Artikels! Dass Voltas Tensor-Kerne in speziellen, vorwiegend experimentellen Workloads bereits vor Jahren funktioniert haben, steht nicht infrage. Die beeindruckende Leistung bei doppeltgenauen Berechnungen lässt sich unterdessen zweifelsfrei nachweisen - werfen Sie gerne einen Blick auf die Ergebnisse des AIDA64 -General-Purpose-Benchmarks:

AIDA64 GPGPU Benchmark: Titan V vs. Titan V MAX-OC vs. Radeon VII vs. RX 7900 XTX vs. RTX 4090 vs. RTX 5090 Quelle: PCGH AIDA64 GPGPU Benchmark: Titan V vs. Titan V MAX-OC vs. Radeon VII vs. RX 7900 XTX vs. RTX 4090 vs. RTX 5090 In der Spiele-Praxis des Jahres 2025 verhält sich eine Titan V somit wie eine Geforce GTX 1080 Ti auf Steroiden. Zwar ist DLSS vom Tisch, allerdings sind rund 16 TFLOPS an FP32-Leistung plus 12 GiByte mit 653 GByte/s Durchsatz nicht zu verachten. AMDs FSR 3.x inklusive Frame Generation funktioniert wunderbar auf Volta, auch Intels XeSS lässt sich nutzen (dieses allerdings relativ langsam). Immerhin Reflex wird ordnungsgemäß angeboten und simple, spatiale Upscaler wie AMDs FSR 1 und Nvidias NIS sind ebenfalls kein Problem. Damit leiten wir zu den Gaming-Benchmarks über. Was leistet das acht Jahre Ultra-High-End von Nvidia mit und ohne beherzter Übertaktung?

61
  1. Seite 1 Historie und Daten
  2. Seite 2 Technik-Tauchgang
  3. Seite 3 Spiele-Benchmarks und Leistungsindex
  4. Seite 4 Raytracing: Geht das?
  5. Seite 5 Kühlung, Verbrauch & Energie-Effizienz
  6. Seite 6 Fazit: Titan V nach acht Jahren
    • Kommentare (61)

      Zur Diskussion im Forum
      • Von Dancisfrake Schraubenverwechsler(in)
        Hab die Titan V erfolgreich in Betrieb genommen. Steel Nomad lief ordentlich. Warte gerade auf den Ausgang des noch laufenden Stress Tests.
        Edit: lief durch, aber 88.1% Stabilität ist jetzt nicht der Knaller. Muss ich mir morgen noch genauer ansehen. Gute Nacht erstmal
      • Von Dancisfrake Schraubenverwechsler(in)
        Hab die Titan V erfolgreich in Betrieb genommen. Steel Nomad lief ordentlich. Warte gerade auf den Ausgang des noch laufenden Stress Tests.
        Edit: lief durch, aber 88.1% Stabilität ist jetzt nicht der Knaller. Muss ich mir morgen noch genauer ansehen. Gute Nacht erstmal
      • Von PCGH_Raff Kokü-Junkie (m/w)
        Moin!

        Hier übrigens der Film zum Buch.

        [Ins Forum, um diesen Inhalt zu sehen]

        Zitat von McZonk
        [Ins Forum, um diesen Inhalt zu sehen] magst du uns verraten, wo du die Karte (örtlich betrachtet) erstanden hast? Momentan gibt es auf EBay nur Angebote aus Fernost - hast du dort zugeschlagen?
        Ich habe meine Karte im Februar gekauft und ganz bewusst auf einen europäischen Verkäufer gewartet, anstatt ein günstigeres Angebot aus China zu nehmen. Das war etwas teurer (knapp 450 €uro inklusive Versand), aber über eine Privatperson und unkompliziert. Wer mit China klarkommt, kann Geld sparen.

        MfG
        Raff
      • Von McZonk Lötkolbengott/-göttin
        [Ins Forum, um diesen Inhalt zu sehen] magst du uns verraten, wo du die Karte (örtlich betrachtet) erstanden hast? Momentan gibt es auf EBay nur Angebote aus Fernost - hast du dort zugeschlagen?
      • Von Dancisfrake Schraubenverwechsler(in)
        Witzig, hab gestern eine ausgemusterte Titan V im Büro in Händen gehalten. Der Test kam passend. Werde sie am Wochenende ausprobieren.
      • Von Svenc Software-Overclocker(in)
        Zitat von DaHell63
        Beweihräucherung einer teueren Karte, die schon 1 Jahr später leistungsmäßig überholt wird.
        Damals üblich, man nannte es Fortschritt. Aber: Er kam samt entsprechendem Wertverlust -- quer durch alle Klassen.

        Heute siehts so aus:

        - Mittlerweile sind ~20-30% Leistungszuwachs beim Generationswechsel die Norm (wie bei CPUs schon lange)

        - Mittlerweile ein FPS-Paygap von gut ~350% zwischen ner 5060 und ner 5090

        - Selbst die 60Ti sowie 9060XT schlagen in 2025 gerade so eben eine fünf Jahre olle 3070

        FRAGE: In welchem Jahrhundert wird die 60er Klasse die 5090 einholen? Die 4090? 5080? 4080? Wann kommt der Mainstream samt Steam also in den Premium-Gamer-Hochgenuss, Borderlesslands in Extreme-Settings 4K nativ spielen zu können? Wenn Borderlands 8 raus ist? 9? 9000? Wetten werden akzeptiert. Und Schummeln gilt nich'!

        [Ins Forum, um diesen Inhalt zu sehen]
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 07/2026 play5 07/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk