Geforce GTX 680 im Test: Weitere Architekturdetails
Nvidias Geforce GTX 680 auf Basis der Kepler-Architektur im PC-Games-Hardware-Test: Kann sich die GK104-Karte gegen AMDs Radeon HD 7970 behaupten? PC Games Hardware prüft Leistung, Stromverbrauch, Geräuschkulisse, Overclocking-Potenzial und vieles mehr.
Quelle: PC Games Hardware
GK104 Blockdiagramm
Geforce GTX 680 im Test: Architekturdetails
Die Geforce GTX 680 wurde gegenüber der Vorgänger-Architektur "Fermi" deutlich umgebaut. Die grundlegenden Funktionseinheiten blieben jedoch erhalten: Die Basis bildet eine einzelne Shader-ALU, von Nvidia gern als Cuda-Core betitelt. Diese sind zusammen mit Caches, Registerspeichern, Textur- und weiteren Hilfseinheiten für Load-/Store-Operationen sowie Spezialfunktionen in Gruppen zusammengefasst, die Nvidia Shader-/Streaming-Multiprozessoren, kurz SM, nannte und mit Kepler zum klangvollen "SMX" beförderte. Die nächstgrößere Organisationseinheit heisst GPC, kurz für Graphics Processing Cluster, und vereint die SM(X) mit eigenen Raster- und Setupeinheiten. Die Schnittstelle zum Speicher bilden in erster Stufe ein in 128-kiB-Blöcke unterteilter Level-2-Cache (R/W), an dessen Teile jeweils ein 64-Bit-Speichercontroller sowie die Raster-Operatoren in Achtergruppen geflanscht sind.
Was ändert sich nun mit Kepler? Grundsätzlich hat Nvidia in der bisher bekannten Kepler-Architektur (GK10x) das Augenmerk auf maximale Energieeffizienz gelegt - Verwaltungseinheiten wurden eingespart, Funktionseinheiten vermehrt. Die theoretische Leistung stieg stark an - doch wie ist es um die Effizienz bestellt?
Die auffälligste Neuerung vorab: Es gibt nun nur noch eine Taktdomäne für die Funktionseinheiten der GPU, die Shader-Einheiten laufen nun nicht mehr mit verdoppelter Frequenz. Dafür beherbergt eines der neuen SMX nun satte 192 dieser Einheiten - physikalisch gesehen viermal soviele wie noch im Gamer-Fermi, durch Verzicht auf die Hotclock sind es logisch gesehen allerdings "nur" doppelt so viele: GF114 erledigte 96 Shader-Operationen pro SM in den Haupt-ALUs pro Basis-Takt, GK104 schafft 192 pro SMX. Natürlich wurden auch die Scheduler und Dispatch-Einheiten, welche die ALUs, TMUs, SFUs und L/S-Einheiten mit Arbeit versorgen, pro SMX verdoppelt - wie im Gamer-Fermi existiert allerdings innerhalb der SM(X) eine Gruppenbildung:
• Scheduler sind an jeweils eigene Gruppen von Funktionseinheiten gebunden und haben daher auch separate Warps-Warteschlangen
• Scheduler haben jeweils eigene Blöcke im Registerfile (64 kiB pro Scheduler)
• Die Textureinheiten sind in Vierergruppen an die Scheduler gekoppelt
Quelle: PC Games Hardware
GK104 Blockdiagramm SM
Gespart wurde hingegen hauptsächlich an der Granularität der Load/Store-Einheiten, die nun 64 statt 32 Bit pro Takt übertragen. Dafür sind es jedoch im Vergleich zur Gamer-Fermi-Architektur im Verhältnis zu den ALUs nur noch halb so viele. Die 64 kiB des L1-Caches müssen sich jetzt 192 Shader-Einheiten teilen müssen, für Compute-Anwendungen (möglicherweise beschränkt auf Quadro- und Tesla-Modelle), kann dieser Zwischenspeicher nun nicht mehr nur in 16/48 oder 48/16 kiB für Shared-Memory und Level-1-Cache, sondern auch gleichmäßig in 32-kiB-Blöcke geteilt werden.
Wenig auffällig ist, dass auch die Erzeugung von Warps, speziell das Hardware-Scoreboarding, verändert wurde. Kepler verzichtet hier auf eine energieaufwendige Abhängigkeitenprüfung der einzelnen Instruktionen für Anweisungen mit bekannter Laufzeit - im Wesentlichen also mathematische Anweisungen - und führt diese nur noch für Loads und Texturoperationen durch. Die gesparte Energie wird hier über das Angewiesensein auf einen gut funktionierenden Treiber-Compiler gestellt, welcher diese Abhängigkeiten erkennen und Instruktionsketten entspechend aufbereiten soll.
Quelle: PC Games Hardware
Geforce GTX 680 - Hardware-Scoreboarding teilweise abgeschafft.
Die für wissenschaftliche Anwendungen interessante Double-Precision-Leistung wurde im Vergleich zu GF104/114 bei einem Zwölftel des SP-Durchsatzes belassen [Update: Da sich vermehrt Angaben von 1/24 finden, haben wir bei Nvidia zur Klärung angefragt. Einer unserer Meßwerte stützt gar diese Annahme, dafür müsste aber GPU-Boost auf 1097 MHz samt 100%iger Effizienz vorliegen| Update 2: Nvidia hat inzwischen einen separaten DPFP-Block bestätigt, welcher 8 Instruktionen pro Takt ausführt, einen Warp also in 4 Takten. Der DPFP-Durchsatz liegt damit tatsächlich nur auf 1/24stel der SP-Leistung] - entsprechend wird die Geforce GTX 680 in diesem Bereich von der HD 7970 mit knapp 0,95 TFLOPS geschlagen.
In diesem Artikel
- Seite 1 Geforce GTX 680 im Test: Architektur und Spezifikationen
- Seite 2 Geforce GTX 680 im Test: Weitere Architekturdetails
- Seite 3 Geforce GTX 680 im Test: Lautheit und Leistungsaufnahme
- Seite 4 Geforce GTX 680 im Test: Testsystem, Benchmarks und Treiber
- Seite 5 Geforce GTX 680 im Test: Bad Company 2 (DX11)
- Seite 6 Geforce GTX 680 im Test: Battlefield 3 (DX11)
- Seite 7 Geforce GTX 680 im Test: Crysis Warhead (DX10)
- Seite 8 Geforce GTX 680 im Test: Crysis 2 (DX11 + Hi-Res-Textures)
- Seite 9 Geforce GTX 680 im Test: Dirt 3 (DX11)
- Seite 10 Geforce GTX 680 im Test: Dragon Age 2 (DX11)
- Seite 11 Geforce GTX 680 im Test: Mass Effect 2 (DX9 + SGSSAA)
- Seite 12 Geforce GTX 680 im Test: Metro 2033 (DX11)
- Seite 13 Geforce GTX 680 im Test: Serious Sam 3 (DX9)
- Seite 14 Geforce GTX 680 im Test: Starcraft 2 (DX9)
- Seite 15 Geforce GTX 680 im Test: The Elder Scrolls 5 Skyrim (DX9 + Hi-Res-Textures)
- Seite 16 Geforce GTX 680 im Test: Extrem-Benchmarks - mit 2 GiByte VRAM zum Sieg?
- Seite 17 Geforce GTX 680 im Test: Compute-Leistung (Luxmark) und Tessellation (Unigine Heaven)
- Seite 18 Geforce GTX 680 im Test: Turbo, Fps-Limiter und Overclocking
- Seite 19 Geforce GTX 680 im Test: Fps pro Watt in 9 Spielen (Energie-Effizienz)
- Seite 20 Geforce GTX 680 im Test: Zusammenfassung und Fazit
- Seite 21 Bildergalerie
- Seite 1 Geforce GTX 680 im Test: Architektur und Spezifikationen
- Seite 2 Geforce GTX 680 im Test: Weitere Architekturdetails
- Seite 3 Geforce GTX 680 im Test: Lautheit und Leistungsaufnahme
- Seite 4 Geforce GTX 680 im Test: Testsystem, Benchmarks und Treiber
- Seite 5 Geforce GTX 680 im Test: Bad Company 2 (DX11)
- Seite 6 Geforce GTX 680 im Test: Battlefield 3 (DX11)
- Seite 7 Geforce GTX 680 im Test: Crysis Warhead (DX10)
- Seite 8 Geforce GTX 680 im Test: Crysis 2 (DX11 + Hi-Res-Textures)
- Seite 9 Geforce GTX 680 im Test: Dirt 3 (DX11)
- Seite 10 Geforce GTX 680 im Test: Dragon Age 2 (DX11)
- Seite 11 Geforce GTX 680 im Test: Mass Effect 2 (DX9 + SGSSAA)
- Seite 12 Geforce GTX 680 im Test: Metro 2033 (DX11)
- Seite 13 Geforce GTX 680 im Test: Serious Sam 3 (DX9)
- Seite 14 Geforce GTX 680 im Test: Starcraft 2 (DX9)
- Seite 15 Geforce GTX 680 im Test: The Elder Scrolls 5 Skyrim (DX9 + Hi-Res-Textures)
- Seite 16 Geforce GTX 680 im Test: Extrem-Benchmarks - mit 2 GiByte VRAM zum Sieg?
- Seite 17 Geforce GTX 680 im Test: Compute-Leistung (Luxmark) und Tessellation (Unigine Heaven)
- Seite 18 Geforce GTX 680 im Test: Turbo, Fps-Limiter und Overclocking
- Seite 19 Geforce GTX 680 im Test: Fps pro Watt in 9 Spielen (Energie-Effizienz)
- Seite 20 Geforce GTX 680 im Test: Zusammenfassung und Fazit

Im Moment gibt es eh nichts weiteres zu diskutieren!
Sieht mir eher nach Trolling aus
Ok...
Wann kommt der Treiber der die 7970 wieder um 15-20% schneller macht.Nom Nom 680GTX^^
Er hat gewürfelt, was sonst...
Könnte sich am Ende aber dennoch bewahrheiten, auch wenn ich nicht davon aus gehe, dass das der Fall sein wird. Eher im Bereich 30-35%.
Mehr als 50% sollte man aber auf keinen Fall erwarten. Dazu hat GK104 einfach zu viele GPGPU Maken, die man erst mal ausbügeln muss, und sich eben auf die Perf/W negativ nieder schlägt. GK104 wird dieses Jahr wohl der Effizienteste Gamer-Chip bleiben, es sei denn es kommt noch ein Refresh von Tahiti bzw. GK104 wegen besserer Produktion (Stichwort VCore/Taktraten).