Geforce GTX 680 im Test: Weitere Architekturdetails

782
Test Carsten Spille Raffael Vötter Marc Sauter Als bevorzugte Quelle auf Google hinzufügen

Nvidias Geforce GTX 680 auf Basis der Kepler-Architektur im PC-Games-Hardware-Test: Kann sich die GK104-Karte gegen AMDs Radeon HD 7970 behaupten? PC Games Hardware prüft Leistung, Stromverbrauch, Geräuschkulisse, Overclocking-Potenzial und vieles mehr.

GK104 Blockdiagramm Quelle: PC Games Hardware GK104 Blockdiagramm Geforce GTX 680 im Test: Architekturdetails
Die Geforce GTX 680 wurde gegenüber der Vorgänger-Architektur "Fermi" deutlich umgebaut. Die grundlegenden Funktionseinheiten blieben jedoch erhalten: Die Basis bildet eine einzelne Shader-ALU, von Nvidia gern als Cuda-Core betitelt. Diese sind zusammen mit Caches, Registerspeichern, Textur- und weiteren Hilfseinheiten für Load-/Store-Operationen sowie Spezialfunktionen in Gruppen zusammengefasst, die Nvidia Shader-/Streaming-Multiprozessoren, kurz SM, nannte und mit Kepler zum klangvollen "SMX" beförderte. Die nächstgrößere Organisationseinheit heisst GPC, kurz für Graphics Processing Cluster, und vereint die SM(X) mit eigenen Raster- und Setupeinheiten. Die Schnittstelle zum Speicher bilden in erster Stufe ein in 128-kiB-Blöcke unterteilter Level-2-Cache (R/W), an dessen Teile jeweils ein 64-Bit-Speichercontroller sowie die Raster-Operatoren in Achtergruppen geflanscht sind.

Was ändert sich nun mit Kepler? Grundsätzlich hat Nvidia in der bisher bekannten Kepler-Architektur (GK10x) das Augenmerk auf maximale Energieeffizienz gelegt - Verwaltungseinheiten wurden eingespart, Funktionseinheiten vermehrt. Die theoretische Leistung stieg stark an - doch wie ist es um die Effizienz bestellt?

Die auffälligste Neuerung vorab: Es gibt nun nur noch eine Taktdomäne für die Funktionseinheiten der GPU, die Shader-Einheiten laufen nun nicht mehr mit verdoppelter Frequenz. Dafür beherbergt eines der neuen SMX nun satte 192 dieser Einheiten - physikalisch gesehen viermal soviele wie noch im Gamer-Fermi, durch Verzicht auf die Hotclock sind es logisch gesehen allerdings "nur" doppelt so viele: GF114 erledigte 96 Shader-Operationen pro SM in den Haupt-ALUs pro Basis-Takt, GK104 schafft 192 pro SMX. Natürlich wurden auch die Scheduler und Dispatch-Einheiten, welche die ALUs, TMUs, SFUs und L/S-Einheiten mit Arbeit versorgen, pro SMX verdoppelt - wie im Gamer-Fermi existiert allerdings innerhalb der SM(X) eine Gruppenbildung:

• Scheduler sind an jeweils eigene Gruppen von Funktionseinheiten gebunden und haben daher auch separate Warps-Warteschlangen
• Scheduler haben jeweils eigene Blöcke im Registerfile (64 kiB pro Scheduler)
• Die Textureinheiten sind in Vierergruppen an die Scheduler gekoppelt

GK104 Blockdiagramm SM Quelle: PC Games Hardware GK104 Blockdiagramm SM Gespart wurde hingegen hauptsächlich an der Granularität der Load/Store-Einheiten, die nun 64 statt 32 Bit pro Takt übertragen. Dafür sind es jedoch im Vergleich zur Gamer-Fermi-Architektur im Verhältnis zu den ALUs nur noch halb so viele. Die 64 kiB des L1-Caches müssen sich jetzt 192 Shader-Einheiten teilen müssen, für Compute-Anwendungen (möglicherweise beschränkt auf Quadro- und Tesla-Modelle), kann dieser Zwischenspeicher nun nicht mehr nur in 16/48 oder 48/16 kiB für Shared-Memory und Level-1-Cache, sondern auch gleichmäßig in 32-kiB-Blöcke geteilt werden.

Wenig auffällig ist, dass auch die Erzeugung von Warps, speziell das Hardware-Scoreboarding, verändert wurde. Kepler verzichtet hier auf eine energieaufwendige Abhängigkeitenprüfung der einzelnen Instruktionen für Anweisungen mit bekannter Laufzeit - im Wesentlichen also mathematische Anweisungen - und führt diese nur noch für Loads und Texturoperationen durch. Die gesparte Energie wird hier über das Angewiesensein auf einen gut funktionierenden Treiber-Compiler gestellt, welcher diese Abhängigkeiten erkennen und Instruktionsketten entspechend aufbereiten soll.

Geforce GTX 680 - Hardware-Scoreboarding teilweise abgeschafft. Quelle: PC Games Hardware Geforce GTX 680 - Hardware-Scoreboarding teilweise abgeschafft.
Die für wissenschaftliche Anwendungen interessante Double-Precision-Leistung wurde im Vergleich zu GF104/114 bei einem Zwölftel des SP-Durchsatzes belassen [Update: Da sich vermehrt Angaben von 1/24 finden, haben wir bei Nvidia zur Klärung angefragt. Einer unserer Meßwerte stützt gar diese Annahme, dafür müsste aber GPU-Boost auf 1097 MHz samt 100%iger Effizienz vorliegen| Update 2: Nvidia hat inzwischen einen separaten DPFP-Block bestätigt, welcher 8 Instruktionen pro Takt ausführt, einen Warp also in 4 Takten. Der DPFP-Durchsatz liegt damit tatsächlich nur auf 1/24stel der SP-Leistung] - entsprechend wird die Geforce GTX 680 in diesem Bereich von der HD 7970 mit knapp 0,95 TFLOPS geschlagen.

782
  1. Seite 1 Geforce GTX 680 im Test: Architektur und Spezifikationen
  2. Seite 2 Geforce GTX 680 im Test: Weitere Architekturdetails
  3. Seite 3 Geforce GTX 680 im Test: Lautheit und Leistungsaufnahme
  4. Seite 4 Geforce GTX 680 im Test: Testsystem, Benchmarks und Treiber
  5. Seite 5 Geforce GTX 680 im Test: Bad Company 2 (DX11)
  6. Seite 6 Geforce GTX 680 im Test: Battlefield 3 (DX11)
  7. Seite 7 Geforce GTX 680 im Test: Crysis Warhead (DX10)
  8. Seite 8 Geforce GTX 680 im Test: Crysis 2 (DX11 + Hi-Res-Textures)
  9. Seite 9 Geforce GTX 680 im Test: Dirt 3 (DX11)
  10. Seite 10 Geforce GTX 680 im Test: Dragon Age 2 (DX11)
  11. Seite 11 Geforce GTX 680 im Test: Mass Effect 2 (DX9 + SGSSAA)
  12. Seite 12 Geforce GTX 680 im Test: Metro 2033 (DX11)
  13. Seite 13 Geforce GTX 680 im Test: Serious Sam 3 (DX9)
  14. Seite 14 Geforce GTX 680 im Test: Starcraft 2 (DX9)
  15. Seite 15 Geforce GTX 680 im Test: The Elder Scrolls 5 Skyrim (DX9 + Hi-Res-Textures)
  16. Seite 16 Geforce GTX 680 im Test: Extrem-Benchmarks - mit 2 GiByte VRAM zum Sieg?
  17. Seite 17 Geforce GTX 680 im Test: Compute-Leistung (Luxmark) und Tessellation (Unigine Heaven)
  18. Seite 18 Geforce GTX 680 im Test: Turbo, Fps-Limiter und Overclocking
  19. Seite 19 Geforce GTX 680 im Test: Fps pro Watt in 9 Spielen (Energie-Effizienz)
  20. Seite 20 Geforce GTX 680 im Test: Zusammenfassung und Fazit
    • Kommentare (782)

      Zur Diskussion im Forum
      • Von streetjumper16 Lötkolbengott/-göttin
        Hör auf zu trollen...
        Im Moment gibt es eh nichts weiteres zu diskutieren!
      • Von streetjumper16 Lötkolbengott/-göttin
        Hör auf zu trollen...
        Im Moment gibt es eh nichts weiteres zu diskutieren!
      • Von Nyuki Software-Overclocker(in)
        dann wart mal ab, dann kannst du noch was lernen
      • Von ΔΣΛ Kokü-Junkie (m/w)
        Was willst du den Diskutieren, den nächsten AMD-Treiber im GTX680-Testartikel
        Sieht mir eher nach Trolling aus
      • Von Nyuki Software-Overclocker(in)
        Nix mehr los hier?
        Ok...
        Wann kommt der Treiber der die 7970 wieder um 15-20% schneller macht.Nom Nom 680GTX^^
      • Von Skysnake Lötkolbengott/-göttin
        Zitat von PCGH_Marc
        kA wie OBR auf nur 25 Prozent kommt ...

        Er hat gewürfelt, was sonst...

        Könnte sich am Ende aber dennoch bewahrheiten, auch wenn ich nicht davon aus gehe, dass das der Fall sein wird. Eher im Bereich 30-35%.

        Mehr als 50% sollte man aber auf keinen Fall erwarten. Dazu hat GK104 einfach zu viele GPGPU Maken, die man erst mal ausbügeln muss, und sich eben auf die Perf/W negativ nieder schlägt. GK104 wird dieses Jahr wohl der Effizienteste Gamer-Chip bleiben, es sei denn es kommt noch ein Refresh von Tahiti bzw. GK104 wegen besserer Produktion (Stichwort VCore/Taktraten).
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 06/2026 play5 07/2026 N-Zone 06/2026 Linux Magazin 06/2026 LinuxUser 06/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk