Jede bislang erhältliche Fermi-Grafikkarte basiert auf einem abgespeckten GF100-Chip, einen Vollausbau gibt es noch nicht. Das schnellste Modell ist die Geforce GTX 480, gefolgt von der Geforce GTX 470 (
PCGH-Test). Die Geforce GTX 465 (
PCGH-Test) stellt derzeit die gehobene Mittelklasse dar. All diesen Pixelbeschleunigern gemein ist eine hohe Leistungsaufnahme und Lautheit, denen ein großes Feature-Paket sowie die gute Lieferbarkeit inklusiver fairer Preise gegenüber stehen – die Geforce GTX 480 als schnellste Single-GPU-Karte am Markt ausgenommen. Mit dem GF104-Chip führt Nvidia nun eine Mittelklasse-GPU ins Feld (beispielsweise für
World of Warcraft mit DirectX 11), welche ebenfalls nur in einer beschnittenen Version startet. Die darauf basierenden Karten hören auf den Namen Geforce GTX 460 und sind in zwei Versionen erhältlich. Der Test von PC Games Hardware klärt, ob Nvidia die bisherigen Schwächen der Fermi-Architektur beseitigt hat oder nicht.
Veränderungen vom "Panzer" GF100 zum "Jäger" GF104 - das Blockdiagramm zur GTX 460 (eines der SMs ist in den beiden angekündigten Modellen deaktiviert). [Quelle: siehe Bildergalerie]
Nvidias Geforce GTX 460 und GF104: Specs Wie bereits erwähnt tritt die Geforce GTX 460 Gerüchten zufolge nicht mit einem vollen GF104 an. Beide Kartenvarianten laufen mit 7 SIMDs (von Nvidia Shader-Multiprozessoren genannt; der bislang nicht verfügbare Vollausbau besitzt 8 SMs). Dies resultiert in 336 aktiven ALUs und 56 TMUs - letzteres entspricht (beinahe) einer Geforce GTX 470. Falls Sie sich jetzt wundern: Nvidia ändert mit dem GF104 das Verhältnis der ALUs zu den TMUs, genauer den Aufbau der Shader-Multiprozessoren: Jeder SM kommt auf 8 TMUs und 48 ALUs, das ist ein Verhältnis von 1:6. Der GF100 dagegen nutzt maximal 64 TMUs und 512 ALUs, was einem Verhältnis von 1:8 entspricht. Damit verfügt der GF104 über eine deutlich höhere Texelleistung im Verhältnis zu seinen GFLOPS. Das kommt vor allem älteren Spielen zugute, welche primär auf Textur-Operationen Wert legen, bringt jedoch auch in den meisten aktuellen Titeln mehr Bilder pro Sekunde und günstigeres AF. Bei 7 SMs stehen insgesamt nur 7 Polymorph-Engines bereit, halb so viele wie bei der Geforce GTX 470 und 4 weniger als bei der Geforce GTX 465. Nvidia gleicht dies zum Teil durch den Takt wieder aus: Die vorgegebenen 675 MHz Chip- und 1.350 MHz ALU-Takt entsprechen fast einer Geforce GTX 480.
Die Unterscheidung zwischen den beiden Geforce GTX 460 wird durch die ROPs erzielt. Die kleine Version ("GTX 460/768") setzt auf 24 dieser Endstufen, daraus resultiert ein 192 Bit breites Speicherinterface, das mit 768 MiByte GDDR5-RAM bestückt ist. Das größere Derivat ("GTX 460/1.024") kommt auf 32 ROPs und damit 256 Bit bei zeitgemäßen 1.024 MiByte. Da der GDDR5-Speicher bei beiden Varianten mit 1.800 MHz rechnet, bietet die 1G-Version theoretisch eine um 33 Prozent höhere Speicherbandbreite. Mit anderen Worten: Sie müssen den Speicher einer GTX 460/768 auf 2.400 MHz übertakten, um die Bandbreite einer GTX 460/1.024 zu erreichen. Im Vergleich zur Geforce GTX 465 verfügen beide GTX 460 über mehr GFLOPS und erreichen deutlich mehr GTex/s (Texturfüllrate), die Bandbreite liegt einmal über und einmal unter der GF100-Karte. In Sachen Bildqualität hat sich nichts geändert: Auch der GF104 bietet optionales High-Quality-AF, welches dem der Radeons überlegen ist, sowie vielfältig kombinierbares
Sparse-Grid Supersampling-AA (SGSSAA) in allen APIs.
Alle Spezifikationen der Geforce GTX 460 dokumentiert diese Tabelle:
| Grafikkarte |
Geforce |
|
|
|
Radeon |
|
|
| Modell |
GTX 470 |
GTX 465 |
GTX 460/1G |
GTX 460/768 |
HD 5850 |
HD 5830 |
HD 5770/1G |
| Circa-Preis (Euro) |
300,- |
250,- |
230,- |
200,- |
270,- |
190,- |
140,- |
| Markteinführung |
März 2010 |
Juni 2010 |
Juli 2010 |
Juli 2010 |
September 2009 |
Februar 2010 |
Oktober 2009 |
| Codename |
GF100 |
GF100 |
GF104 |
GF104 |
Cypress Pro |
Cypress LE |
Juniper XT |
| Direct-X-/Shader-Version |
11/5.0 |
11/5.0 |
11/5.0 |
11/5.0 |
11/5.0 |
11/5.0 |
11/5.0 |
| Fertigungstechnik |
40 nm |
40 nm |
40 nm |
40 nm |
40 nm |
40 nm |
40 nm |
| Transistoren Grafikchip (Mio.) |
3.000 |
3.000 |
1.950 |
1.950 |
2.150 |
2.150 |
1.040 |
| SP-Rechenleistung (GFLOPS) |
1.089 |
855 |
907 |
907 |
2.088 |
1.792 |
1.360 |
| DP-Rechenleistung (GFLOPS) |
168 |
107 |
76 |
76 |
418 |
358 |
0 |
| Polygondurchsatz (Mio. Dreiecke/s.) |
2.432 |
1.824 |
1.350 |
1.350 |
725 |
800 |
850 |
| Pixeldurchsatz (GPix/s.) |
17,0 |
13,4 |
9,45 |
9,45 |
23,2 |
12,8 |
13,6 |
| Texturleistung (GTex/s.) |
34,0 |
26,8 |
37,8 |
37,8 |
52,2 |
44,8 |
34,0 |
| Speicherbandbreite (GByte/s.) |
133,9 |
102,7 |
115,2 |
86,4 |
128,0 |
128,0 |
76,8 |
| Takt Grafikchip (Megahertz) |
608 |
608 |
675 |
675 |
725 |
800 |
850 |
| Takt Shader-ALUs (Megahertz) |
1.215 |
1.215 |
1.350 |
1.350 |
725 |
800 |
850 |
| Takt Videospeicher (Megahertz) |
1.674 |
1.604 |
1.800 |
1.800 |
2.000 |
2.000 |
2.400 |
| Datenrate Grafik-RAM (MBit/s.) |
3.348 |
3.208 |
3.600 |
3.600 |
4.000 |
4.000 |
4.800 |
| Shader-/SIMD-/Textureinheiten |
448/14/56 |
352/11/44 |
336/7/56 |
336/7/56 |
1.440/18/72 |
1.120/14/56 |
800/10/40 |
| Rasterendstufen |
40 |
32 |
32 |
24 |
32 |
16 |
16 |
| Speicheranbindung (Bit) |
320 |
256 |
256 |
192 |
256 |
256 |
128 |
| Übliche Speichermenge |
1.280 MiByte |
1.024 MiByte |
1.024 MiByte |
768 MiByte |
1.024 MiByte |
1.024 MiByte |
1.024 MiByte |
| Üblicher Speichertyp |
GDDR5 |
GDDR5 |
GDDR5 |
GDDR5 |
GDDR5 |
GDDR5 |
GDDR5 |
| PCI-E.-Stromanschluss (Netzteil) |
2x 6-polig |
2x 6-polig |
2x 6-polig |
2x 6-polig |
2x 6-polig |
2x 6-polig |
1x 6-polig |
| Leistungsaufnahme (TDP, lt. Hst.) |
215 Watt |
200 Watt |
160 Watt |
150 Watt |
170 |
175 |
108 |
Technik-Details I:
TMUsAuf Nachfrage bestätigte Nvidia einige unserer Vermutungen, die unsere Testprogramme nahhelegten. Die Textureinheiten wurden nicht nur anders zusammengefasst, sondern auch gründlich überarbeitet. Waren Nvidia-TMUs bis einschließlich GF100 bei einigen Formaten wie RGB9E5, FP10 oder FP16 auf halben Durchsatz beschränkt, sind die GF104-Texturierer nun FP16-Fullspeed-TMUs. Nicht nur beherrschen Sie, wie aktuelle Radeon-Karten auch, die o.g. Formate RGB9E5 und "FP10" (RGBA1010102) mit voller Geschwindigkeit, auch der für HDR-Rendering wichtige FP16-Format nötigt ihnen keine Extrarunde mehr ab.
Das hohe Niveau der anisotropen Texturfilterung hat Nvidia beibehalten, auch der Fps-Verlust für die höhere Bildqualität blieb im Rahmen der Messgenauigkeit in unseren synthetischen Tests identisch.
Technik-Details II: Geometrie und TessellationDie beiden GPCs mit ihren Rasterizern sind theoretisch in der Lage, zwei Dreiecke pro Takt zu verarbeiten - herkömmliche Grafikkarten schaffen nur maximal eines, GTX470/480 vier und GT 465 bis zu drei. Wie schon beim GF100 räumt Nvidia freimütig ein, dass dieser Wert praktisch nicht erreicht werden kann - wir haben dem GF104 in unseren Tests maximal 1,5 Dreiecke pro Takt entlocken können. Insgesamt waren so knapp über einer Milliarde Polygone pro Sekunde drin - wichtig unter anderem für DirectX 11 Tessellation.
Die Neuerungen innerhalb eines Shader-Multiprozessors: 3x 16 ALUs, 1x 16 L/S, 1x 8 TMUs, 1x 8 SFUs. [Quelle: siehe Bildergalerie]
Technik-Details III: Der neue VerteilerWie oben bereits erwähnt, wurden die Shader-Multiprozessoren gründlich überarbeitet. Die Dual-Warp-Scheduler, die den Ausführungseinheiten ihre Arbeit zuweisen, können nun zwei Instruktionen pro Takt loswerden. Insgesamt können die sieben Gruppen an Ausführungseinheiten (3x 16er-ALU, 1x 8er-TMU, 1x 16er-Load/Store, 1x 8er-SFU und einmal Texturinterpolation (Teil der SFU)) nun also mit vier Anweisungen gefüttert werden. Dabei macht man sich ein Verfahren zunutze, welches bereits früher zum Einsatz kam: Die Scheduler versorgen die ALUs "superskalar". Sind zwei aufeinander folgende Instruktionen unabhängig voneinander, kann der Scheduler diese zusammen absetzen; besteht eine Abhängigkeit, halbiert sich die "Issue Rate". Das zumindest legen Ergebnisse unserer synthetischen Tests nahe.
a+b+c+d kann unabhängig in a+b, c+d und die Summe der Ergebnisse aufgespalten werden.
a-b:c dagegen muss seriell gerechnet werden: Erst b:c und das Ergebnis wird von a abgezogen.
Im besten Falle erreicht man so den doppelten Durchsatz und kann alle ALUs auslasten. Sind die Instruktionen abhängig voneinander, kann jeder Scheduler lediglich zwei Instruktionsblöcke pro Takt absetzen und so nur 32 der 48 Cuda-Kerne pro SM nutzen. Der Durchsatz entspräche dann einem Chip mit 224 Shader-ALUs.
Technik-Details IV: "Flaschenhälse"Irgendwo musste Nvidia zwangsläufig den Rotstift ansetzen, um die rund 1 Milliarde Transistoren gegenüber dem GF100 einzusparen. Unter anderem fiel die hohe Gleitkommaleistung mit doppelter Genauigkeit (Double Precision, DP), über welche der GF100 prinzipiell verfügt, den Sparmaßnahmen bzw. der Fokussierung auf Gamer zum Opfer. Beschränkte Nvidia die Geforce-Karten GTX 465 bis 480 noch künstlich von 50% DP-Leistung gegenüber einfacher Genaugkeit auf ein Achtel, fällt der Schnitt beim GF104 drastischer aus: Nur noch eine der drei 16-breiten ALU-Gruppen beherrscht laut überhaupt DP und das auch nur mit 25% der SP-Geschwindigkeit. Insgesamt kommt man damit auf ein Zwölftel der für den wissenschaftlich-technischen Bereich interessanten DP-Leistung über den gesamten Chip.
Außerdem arbeitet auch der GF104-Chip wie schon der GF100 an zwei Pixeln pro SM und Takt. Multipliziert ergibt das einen maximalen Durchsatz von 9.450 MPixeln pro Sekunde - synthetische Füllratentest fallen entsprechend gering aus, die Spieleleistung wird, wie unsere Tests zeigen, davon aber kaum beeinträchtigt. Mit maximal 128 Z-/Stenciloperationen (bei komprimierbaren Daten) pro Takt setzt der GF104 in diesem Bereich nur halb soviel durch wie der GF100, obwohl bei beiden die Rasterendstufen mehr Reserven bieten - das kommt dem Fps-Verlust mit aktiver Kantenglättung zugute, der ausgehend von der geringeren Rohleistung, weniger stark ausfällt.
Informationen zu allen älteren Grafikchips entnehmen Sie unseren ausführlichen Tests:•
Geforce GTX 465•
Geforce GTX 470 und GTX 480 •
AMD/Ati Radeon HD 5770/5750 •
AMD/Ati Radeon HD 5830 •
AMD/Ati Radeon HD 5850/5870 •
AMD/Ati Radeon HD 5870/5850 Crossfire vs. Geforce GTX 285 SLI
Kabelverknoter
20.01.2011 05:35
vielleicht etwas spaet:
ich hatte ne 285gtx/1gb OC von bfg und kann nur sagen in den hoeheren aufloesungen, 1600 und mehr, ist die meine evga 460gtx/1gb SC (gpu:763) deutlich schneller. im durchscnitt rund 10-20%..
da die 285er aber kein Dx11 bietet und mit von mir verbauten AC-kuehler das doppelte gekostet hat, ist die 460er ein schnaeppchen und fast genauso silent (idle).
konnte die karte ohne Voc auf 850 bringen und mit Voc auf etwa 920 (fast alle bereits vom hersteller OCen karten erreichen das...)
Schraubenverwechsler
16.12.2010 22:10
sorry für die (evtl.) dumme frage aber...
hat ??? die GTX 460 jetzt nen audio chip oder nicht???
ich werd bei nvidia nicht schlau weil da steht was von "HDMI-Audioeingang - Intern"
also wird das durchgeschleifft und auf hdmi gedöddelt oder codiert die selber???
THX für Antwort
Pre
Humanoider BenchMarc
28.10.2010 00:27
Kaum, solange kein SpeedUp per DX11 im Spiel ist.