Geforce GTX280 im PCGH-Test: Die Frontalansicht erinnert stark an die 9800 GTX - mit kleinen Unterschieden. (Bild: PCGH) [Quelle: siehe Bildergalerie]
Anlässlich des heutigen Launches der
Nvidia Geforce GTX 280 und
GTX 260 bringt PCGH eine umfassende Berichterstattung zu den neuen Grafikkarten. Nicht nur die üblichen Benchmark-Tests, Lautstärke-Messungen und Bildqualitäts-Analysen erwarten Sie, sondern auch eine umfassende Technikanalyse zum neuen Grafikkarten-Chip
GT200, welcher auf beiden
Geforce-GTX-Karten zu finden sein wird.
Alle GT200-Artikel im Überblick: •
GT200-Test: Bilder und Video zur Geforce GTX 260/280-Techdemo Medusa •
GT200-Test: Geforce GTX 280/260 im Technik-Test plus Architektur-Analyse •
GT200-Test: Spielbarkeit der GTX 280 in Mass Effect, Age of Conan und Assassin's Creed •
GT200-Test: Geforce GTX 280/260 SLI im großen PCGH-Benchmark-Test Die Eckdaten des GT200-Chips in aller Kürze:
• GTX 280: 602/1.296/1.107 MHz (Haupt-/Shader-/Speichertakt)
• GTX 260: 576/1.242/999 MHz (Haupt-/Shader-/Speichertakt)
• 240 Shader-ALUs (GTX 280; GTX 260: 192)
• 512-Bit-Speicherinterface (GTX 280; GTX 260: 448 Bit)
• 80 Textureinheiten (GTX 280; GTX 260: 64)
• 32 ROPs (GTX 280; GTX 260: 28)
• 1.024 MiByte GDDR3-RAM (GTX 280, GTX 260: 896 MiByte)
• 236 Watt TDP (GTX 280, GTX 260: 182 Watt)
• 1 x 6-Pin und 1 x 8-Pin Stromanschluss erforderlich (GTX 280, GTX 260: 2 x 6-Pin)
• Unterstützung für DirectX 10 und Shader-Model 4.0
• Unterstützung für Display-Port und 10-Bit-Color (nur am Display-Port)
und das Wichtigste zu guter Letzt:
• Unverbindliche Preisempfehlung GTX 280: 549 Euro
• Unverbindliche Preisempfehlung GTX 260: 309 Euro
Gerade am Preis der
Geforce GTX 260 sieht man, wie sehr Nvidia sich strecken muss, um nicht allzuweit von den kommenden Radeon-HD-4870-Karten entfernt zu liegen. Normalerweise verpasst man nicht den psychologisch wertvollen Preispunkt 299 Euro - "unter 300 Euro". Bei einem noch niedrigerem Preis wird es wohl langsam zu teuer für Nvidia, die riesige GT200-GPU noch gewinnbringend abzustoßen.
Geforce GTX280/260 im Detail Bereits in der Vergangenheit wurde Nvidia nicht müde zu betonen, dass für sie die Technologie von großen monolithischen GPUs noch lange nicht vorbei sei - im Gegenteil: Multi-GPU-Karten wie die Radeon HD 3870 X2 (und auch die 9800 GX2 - wenn auch von Nvidia nicht erwähnt) seien eine Verzweiflungstat, wenn sie nicht das absolut schnellste Produkt am Markt darstellten.
Um genau so eine riesige, monolithische GPU handelt es sich beim
GT200-Chip, welcher sowohl auf der
Geforce GTX 280 als auch der
GTX 260 Platz findet. Mit 1,4 Milliarden Transistoren und einer Chipgröße von angeblich 576 Quadratmillimetern - diese hat PCGH bislang noch nicht nachgemessen - soll es der größte Chip sein, den Nvidias Auftragsfertiger TSMC bislang produziert hat. Nicht unwesentlich zu seiner physischen Größe dürfte die Tatsache beitragen, dass Nvidia sich dazu entschieden hat, bei dem durch große Teile der Geforce-8 und -9-Serie bereits erprobten 65-Nanometer-Prozess zu bleiben und nicht auf den aktuell feinsten Prozess mit 55 Nanometern Strukturbreite zu wechseln, den AMD bereits seit November für seine RV670-Chips nutzt. Dieser bietet eine Reduktion der Schaltkreisabstände um 10 Prozent, sodass der
GT200 idealerweise auf knapp unter 470 Quadratmillimeter geschrumpft hätte werden können.
Trotzdem bringt Nvidia das Transistormonster, welches im Gegensatz zu CPUs zu einem wesentlich größeren Teil aus Logik-Schaltungen besteht als aus Cache-Speicher, maximal auf eine Haupt-Taktrate von über 600 Megahertz (602 MHz). Die 240 Shader-ALUs erreichen, schön gerechnet, mit 1.296 Megahertz nicht ganz das anvisierte Teraflop pro Sekunde. Die ebenfalls heute erscheinende Tesla-1070-Karte für allgemeine Berechnungen auf der GPU (GPGPU, HPC) schafft dies jedoch knapp. Mit 9.999 US-Dollar und vier Gigabyte GDDR3-RAM liegt diese allerdings "ein klein wenig" über dem (preislichen) Niveau der
Geforce GTX 280 und erst recht der 260. Die restlichen technischen Daten gibt es in der Übersichtstabelle auf Seite 2.
[index]
Wie zuvor erwähnt, handelt es sich beim Chip der
Geforce GTX280/260 um ein wahres Monstrum. Der direkte Vergleich zu einem Penryn-Prozessor von Intel zeigt die Größenordnung.
Die 1.400 Millionen Transistoren teilen sich auf folgende Funktionsgruppen auf:
• 10 Shader-Cluster zu je 24 ALUs und acht Textureinheiten (Adress & Filter)
• 8 ROP-Partitionen mit angekoppeltem 64-Bit Speichercontroller
• Diverse Caches, Setup-Logik, den Steuerprozessor (Thread-Scheduler) und weitere Einheiten
Nicht im Haupt-Chip enthalten sind die 2D-Funktionen sowie Logik für die SLI-Technik. Diese wurden, wie schon bei der Geforce 8800 GTX/GTS auf Basis des G80, in einen separaten Mini-Chip ausgelagert - den NVIO2.
Recheneinheiten aufgebohrt Auch an der Organisation der Einheiten hat Nvidia etwas gedreht. Kamen bislang in der Direct-X-10-kompatiblen Geforce-Riege noch Gruppen aus zweimal acht Shader-ALUs zum Einsatz, sind es nun drei dieser 8er-Blöcke, die die Basis eines Shader-Clusters oder auch TPC (Thread/Texture Processor Cluster) bilden. Damit wird insgesamt ein höheres ALU-zu-Textur-Verhältnis erreicht und den immer länger werdenden Shader-Programmen und der abnehmenden Bedeutung bildgebender Texturen Rechnung getragen. Das Verhältnis ALU zum TMU wurde damit von 2:1 im G80 auf 3:1 im
GT200-Chip erhöht. Nach wie vor gibt es für jede dieser "Multi-Prozessor" genannten Gruppen einen 16 kiByte großen Cache, über welchen die einzelnen ALUs direkt kommunizieren können.
Genau genommen befinden sich im
GT200-Chip sogar mehr als 240 Recheneinheiten, denn erstmal für Nvidia-GPUs vermag der
GT200 auch FP64-genaue Berechnungen auszuführen. Diese sind für Spiele zwar auf absehbare Zeit irrelevant, im Markt für GPGPU existieren jedoch einige Anwendungsprofile, die die erhöhte Genauigkeit nutzen.
Wie Nvidias Toni Tamasi PCGH gegenüber angibt, existieren für diese Art von Berechnungen separate Einheiten in der GPU zusätzlich zu den 240 Shader-ALUs. Mit ihnen erreicht der
GT200-Chip ein Achtel seiner für Spiele verfügbaren Rechenleistung von 622 MAD-GFLOPs und 933 kombinierten MAD/MUL-GFLOPs. Ja, sie haben richtig gelesen: Die mysteriöse MUL-Einheit ist zurück, welche bereits im G80 angepriesen, aber kaum in Aktion erlebt wurde. Laut Nvidia hat man das Scheduling verbessert, sodass die Multiplikation nun neben der Attributs-Interpolation auch für allgemeine Shader-Programme nutzbar ist. Wir haben dies natürlich nachgeprüft und konnten in speziellen Benchmarks das Vorhandensein dieser Fähigkeit nachweisen. Tatsächlich erreicht der GT200-Chip im GPU-Bench eine MUL-Instruction-Issue-Rate von bis zu 388 Millionen Anweisungen pro Sekunde - rund 35 Prozent mehr als im ADD- oder MAD-Test des Benchmarks. Die theoretisch möglichen plus 50 Prozent sind zwar noch etwas entfernt, aber im Gegensatz zu diesem Ergebnis konnte der G80 gar keine Steigerung der MUL-Rate erzielen.
Weitere Verbesserungen, ebenfalls vielmehr im Hinblick auf die nutzbare Rechenleistung als auf theoretisch mögliche Spitzenwerte, erreicht Nvidia durch eine Vergrößerung des Register-Files. Dabei handelt es sich um den Speichertyp, welcher am dichtesten an den ALUs arbeitet und auf den noch schneller zugegriffen werden kann, als auf den 16-kiByte-Cache der Streaming-Multiprozessoren. Ist dieser Registerspeicher voll, müssen Daten aus dem langsameren VRAM nachgeladen werden. Aus der CUDA-Dokumentation geht hervor, dass beispielsweise die ersten CUDA-Chips (G80) bei knapp 10,7 Registern pro Thread an die Grenzen des Registerfiles stießen.
Zum einen belegen 64-Bit-Threads natürlich potenziell die doppelte Menge Registerspeicher, zum anderen war Nvidia das Problem der knappen Register durchaus bewusst, sodass der Speicherplatz dieses Files pro ALU im
GT200 verdoppelt wurde.
Auch das Threading-Konzept wurde weiter ausgebaut. Ein Thread beinhaltet ein Programm, welches die ALUs ausführen . Es kann sich dabei um ein Shader-Programm für eine Pixelgruppe, um einen PhysX-Solver-Kernel oder eine beliebige andere Anweisungsfolge handeln. Insgesamt können nun pro Streaming-Multiprozessor 32 statt wie bisher 24 Threads in Bearbeitung gehalten werden, sodass die Latenz, welche beim Zugriff auf und Filtern von Texturen entsteht, besser versteckt werden kann. Wann immer ein Thread auf eine Rücklieferung einer Speicher- oder Filteranfrage warten muss, tritt sofort ein anderer an dessen Stelle und es wird weitergerechnet. Es leuchtet also ein, dass eine höhere Anzahl gleichzeitiger Threads die Auslastung der GPU verbessert.
Der logisch gesehen letzte Punkt der Render-Pipeline, an dem Nvidia Verbesserungen hat einfließen lassen, sind die Raster-Operatoren (auch ROP oder RBE, Render Backends genannt). Teilten sich in der ersten Direct-X-10-Generation von GPUs noch je zwei ROPs eine Blending-Einheit, verfügt beim
Geforce-GTX-Chip nun jede ROP einzeln über diese Fähigkeit. Die Gesamtzahl der Blendings pro Takt steigt also von 12 auf nunmehr 32. An den MSAA-Fähigkeiten tat sich indessen nicht: Noch immer beherrschen die ROPs 4x MSAA in einem Arbeitsschritt, für 8xQ ist ein Loop nötig. Deshalb kosten alle FSAA-Modi, die 8x Multisampling beinhalten (8xQ, 16xQ, 32xS), wie bei der GF8/9-Serie noch immer sehr viel Leistung.
Auch die zwischenzeitlich kritisierte Geometry-Shader-Performance hat
Nvidia verbessert. Zwar verfügen Direct-X-10-Chips über vereinheitlichte Shader-ALUs, der Geometry-Shader nimmt jedoch eine Sonderstellung dahingehend ein, dass mithilfe entsprechender Programme mehr Ausgabewerte erzeugt werden können, als in den Shader einfließen (Stream Out). Diese Werte müssen zwischengespeichert werden, was bei nicht ausreichend dimensioniertem Cache schnell einen Flaschenhals bilden kann. Der GT200 verfügt über einen sechsmal so großen GS-Cache wie der G80 und kann demnach deutlich performanter zusätzliche Geometrie oder Cube-Maps erzeugen. Tests mit Rightmark3D 2.0 unter Vista und Direct X 10 untermauern Nvidias Behauptung.
[index]
Nicht nur Spiele, auch andere Anwendungen, welche einen hohen Rechenaufwand mit sich bringen und sich gut in viele parallele Berechnungen zerlegen lassen, eignen sich prinzipiell für die Abarbeitung auf der GPU. Um hier nicht an die Beschränkungen von DirectX gebunden zu sein, entwickelte Nvidia mit CUDA eine Plattform, welche durch c-ähnliche Syntax und eine breite Palette an Entwicklertools die Portierung solcher Aufgaben zur GPU-Berechnung erleichtern soll.
Auf dem Editor's Day zeigte man entsprechend auch einige Anwendungen, welche sich hier besonders hervortun. Während Computer-Tomographie oder seismische Berechnungen in unterirdischen Ergdaslagern nicht zum Alltagsgebrauch eines durchschnittlichen Anwenders zählen dürften, bieten sich beispielsweise Video-Encoding, Folding-at-Home oder einfach nur die Berechnung von Spielphysik auf der GPU geradezu an. Zum Beispiel sollen in Kürze erste Beta-Treiber verfügbar sein, welche Aufrufe der PhysX-API, die Nvidia Anfang des Jahres mitsamt PhysX-Erfinder Ageia übernommen hatte, via CUDA umleiten und über den Grafikchip ausführen lassen. Alle Spiele ab der PhysX-Runtime 2.7.0 (bsw. UT3 und 3DMark Vantage) sollen automatisch in den Genuss GPU-beschleunigter Physik kommen.
Ausführliche Tests mit dem GPU-Video-Encoder aus dem Hause Elemental Technologies liefert PCGH in Kürze nach, ein erster eigener Eindruck nach der Live-Demo auf dem Editor's Day verlief jedenfalls schon einmal durchaus positiv. Im Vergleich zum ziemlich unoptimierten, aber dafür weit verbreiteten Itunes kann der GPU-Encoder einen Geschwindigkeitsgewinn gegenüber einer CPU von Faktor mehr als 10 verbuchen, sofern Sie einen Videostream für Ihren Ipod kodieren wollen. Wie sich das volle Profil für H.264 inklusive CABAC schlägt, gilt es erst noch zu demonstrieren.
Auch Folding at Home, bei dessen Suche nach Heilmitteln für Alzheimer und ähnliche Krankheiten auch PCGH mit einem großen Team am Start ist, wird durch die GPU stark beschleunigt. Mehr zum Thema Folding bei PCGH erfahren sie
hier.
Mithilfe der GPU können die Berechnungen erheblich beschleunigt werden. In Punkten, welche vom F@H-Projekt für das Berechnen eines Datenpaketes, der sogenannten Work-Unit vergeben werden, wird ausgedrückt, wie wertvoll der jeweilige Beitrag ist. Unterschiedliche Aufgaben haben unterschiedliche Punktwerte, die sich aber jeweils in der Komplexität der Berechnungen widerspiegeln.
[index]
Zum Betrieb benötigen sowohl Geforce GTX 280 als auch GTX 260 mehr als die 75 Watt die der PCI-Express-Anschluss in Version 2.0 liefern kann. Wie bereits erwähnt, liegt die TDP, also die Leistungsaufnahme, welche die Kühllösung noch sicher abführen kann, bei 182 Watt für die GTX 260 und 236 Watt für die GTX 280. Kommt die erstgenannte Grafikkarte noch mit zwei Sechs-Pin-Anschlüssen aus, setzt die GTX 280 zwingend einen Acht- und einen Sechspol-Anschluss voraus, ansonsten startet sie gar nicht erst. Als Netzteilempfehlung gibt Nvidia ein 550-Watt-Modell für den Single-Karten-Betrieb einer GTX 280 an, dieses sollte dann 40 Ampere auf der 12-Volt-Leitung liefern; eine GTX 260 kommt mit 50 Watt Nennleistung und 4 Ampere weniger aus. Für Informationen zum SLI-Betrieb empfiehlt Nvidia einen Besuch auf
www.slizone.com.
Einer der größten Kritikpunkte an Nvidias Geforce 8800 war die hohe Leistungsaufnahme - und zwar hauptsächlich im Idle-Modus, während die GPU nichts tat. Ein wenig Besserung trat zwar mit den folgenden G92- und G94-GPUs ein, jedoch fehlte weiterhin ein richtiger Stromspar-Modus. AMD bot einen solchen bei den Radeon-HD3000-Modellen nach der ebenfalls verschwenderisch arbeitenden HD2900 bereits an. Vor einigen Wochen stellte Nvidia Hybrid-SLI offiziell vor (
Nvidias Hybrid-SLI im PCGH-Praxistest). Das Prinzip ist zwar begrüßenswert, jedoch hat die Umsetzung noch zuviele Haken, als dass ein wirklich guter Idle-Modus bei Geforce-Grafikkarten verzichtbar wäre.
Bei der GTX280/260-Reihe haben sich die Nvidia-Ingenieure dafür umso mehr ins Zeug gelegt. Neben der stattlichen und bedenklichen TDP von 236 Watt - bemessen nach dem Wert, den man bei Nvidia in einer Anwendung maximal erreicht hat - kennt der GT200-Chip noch weitere Lastzustände. Wird keine oder eine nur sehr geringe 3D-Leistung abgerufen, wie beispielsweise die Anzeige von Vistas Aero-Glass-Interface, drosselt sich die Karte selbstständig auf 300 Megahertz Kern- und 100 Megahertz Speichertakt herunter - mit einer Zwischenstufe von 400/300 MHz. Auch das Abschalten nicht benötigter Einheiten soll Nvidia zufolge in sehr feinen Zwischenschritten möglich sein. Insgesamt soll der GTX 280 im Idle-Modus auch ohne Hybrid-SLI-Mainboard eine Leistungsaufnahme von 25 Watt erreichen, zusätzlich steht ein Niederlast-Video-Modus zur Verfügung, welcher Blu-Ray-Filme bei 35 Watt dekodieren soll.
Den Idle-Wert können wir im Test nicht ganz erreichen - per Differenzmethode zur Onboard-Grafikkarte genehmigt sich unser Testexemplar Leistung eher im Bereich von 45 Watt - zusammen mit dem Rest des PCs inklusive Netzteil-Verlusten macht das 92 Watt Idle-Verbrauch. Nvidia konnte das Problem inzwischen nachstellen und arbeitet an einer Lösung - man ist sich sicher, die angegebenen 25 Watt erreichen zu können. Unter Last nimmt der GT200-Chip im 3DMark03 mit Abstand die meiste Leistung der Single-GPUs auf, während der R600 auf der HD2900 XT den Negativrekord hält.
Ein interessantes Phänomen, welches Nvidia so nicht kommuniziert hatte, lief uns bei unseren Tests mit der CUDA-gestützten Folding-at-Home-Version für die Geforce-GPUs über den Weg. Der Folding-Client nutzt fast ausschließlich die Shader-ALUs für seine Berechnungen und so liegt es nahe, war aber nicht unbedingt zu erwarten, dass während des Protein-Faltens nur die Shader-Einheiten aus dem Idle-Modus in den Last-Zustand versetzt wurden. Während Kern- und Speichertakt bei 300 bzw. 100 MHz verharrten, liefen die Shader mit der vollen 3D-Taktrate.
[index]
Rein optisch erinnert die Kühllösung der Geforce GTX 280 stark an die 9800 GTX, es gibt aber durchaus einige interessante Unterschiede. Neben der bereits erwähnten Metallverkleidung für die Kartenrückseite ist auch der Lüfter ein wenig weiter nach hinten gewandert und die eher rundliche Verkleidung der 9800 GTX ist bei der GTX 280/260 einer eckigeren Form gewichen. Der Radiallüfter ist weiterhin schräg angebracht, damit im SLI-Betrieb ein Mindestmaß angesaugter Luft garantiert wird. Im Inneren arbeiten vier Heatpipes (eine ist gut versteckt über den RAM-Chips von Hynix angebracht) um die Wärmeenergie an die Kühlerlamellen abzuleiten.
Die Lautstärke haben wir wie immer in unserem schallarmen Raum mithilfe professioneller Messausrüstung geprüft, damit Sie sich nicht auf die billigen Dezibel-Meter aus dem Elektromarkt verlassen müssen, die oftmals bei solchen Tests zum Einsatz kommen. Die Ergebnisse zeigen, dass auch Nvidia keine Wunder vollbringt: "Dank" 236 Watt TDP und monolithischer Riesen-GPU muss der traditionell eingesetzte Radiallüfter Schwerstarbeit leisten, sobald die Grafikkarte unter Last gesetzt wird. Bis zu 4 Sone erreicht die GTX 280 im freistehenden Testaufbau und wird dabei rund 85 Grad Celsius warm. Ein wenig Reserven hat der Lüfter jedoch noch: Erhöhen wir die Drehzahl manuell auf 100 Prozent, kühlt das Gebläse die Innereien des Grafikchips auf 76 Grad Celsius.
Eine Hörprobe im MP3-Format mit dem Laufgeräusch der einzelnen Lüfter finden Sie als registrierter User als Download am Ende des Artikels. Bitte beachten Sie, dass diese zwecks besserer Hörbarkeit aus 10 Zentimetern Abstand aufgenommen wurden - unsere Sone-Messung dagegen aus DIN-konformen 100 Zentimetern.
Natürlich haben wir die Karte auch komplett zerlegt, um Ihnen die Interessanten Einblicke zu gewähren, die Sie woanders meist nicht bekommen.
[index]
Mit der
Geforce GTX280/260 ist
Nvidia ein beeindruckender Chip gelungen - quasi der V8 unter den GPUs. Hubraum ist eben durch nichts zu ersetzen außer durch mehr Hubraum. Kleine aber feine Verbesserungen innerhalb der Architektur erhöhen die nutzbare Rechenleistung, ohne allzu tiefe Löcher ins Transistorbudget zu schlagen. Als Single-Chip-Design kann die Geforce GTX 280/260 ohne die typischen Probleme von Multi-GPU-Systemen deren Leistung liefern und übertreffen. Der 1.024 MiByte große Framebuffer sorgt dafür, dass der Karte in den hohen Auflösungen, für die sie konstruiert wurde, nicht die Puste ausgeht wie noch der 9800 GX2 vor wenigen Monaten.
Kritikwürdig ist - neben den hoch angesetzten Kosten für die GTX 280 - vor allem das Fehlen von DirectX 10.1 sowie die hohe Leistungsaufnahme unter Last. Ersteres verhindert einen einheitlichen, nützlichen Standard, außerdem muss die Kantenglättung für UE3-Titel für jedes Spiel einzeln nachgepatcht werden. Diese DevRel-Kosten hätte Nvidia sich sparen sollen. Zweiteres lässt sich vermutlich nicht vermeiden, will man immer schneller, höher und weiter. Effiziente Mini-GPUs, die im Verbund die gleiche Spiele- und Rechenleistung erreichen können, nehmen unter Last gleichviel elektrische Leistung auf und kranken bisher zusätzlich am
AFR-Ruckeln.
[index]
Bildergalerie zum Artikel