Nvidia Fermi: Gezeigte Grafikkarte offenbar nur ein Dummy (5) [Quelle: siehe Bildergalerie]
Mit der Fermi-Architektur, benannt nach dem berühmten Physiker Enrico Fermi, welcher unter anderem am Manhattan-Projekt im Wettlauf gegen Nazi-Deutschland um die Atombombe mitwirkte, stellte Nvidia vorgestern eine ungewöhnliche GPU-Architektur vor.
Bereits anlässlich der Keynote von Nvidia-Chef Huang
berichtete PC Games Hardware über die Fermi-Architektur. Inzwischen haben wir die Zeit genutzt, um im Gespräch mit Nvidias Senior Vice President of Content and Technology Toni Tamasi ein vollständigeres Bild der Fermi-Architektur und des ersten darauf basierenden Chips zu erhalten.
[Quelle: siehe Bildergalerie]
Fermi - Klartext Da bereits bekannt, hier zunächst noch einmal die Fermi-Details, wie sie bisher bekannt waren:
• 512 ALUs (Shader, CUDA-/Fermi-Cores) organisiert in 16 SIMDs (Shader-Multiprozessoren, SM) à 2x16 ALUs
• Jede ALU verfügt über eine Integer- und eine Gleitkomma-Einheit, die aber nicht parallel nutzbar sind
• Pro SM gibt es noch 16 Load-Store-Einheiten und 4 Einheiten für Spezialfunktionen
• Jeder SM besitzt zwei Scheduler und Dispatch-Einheiten
• eine mehrstufige Speicherhierarchie aus Registern, Level-1-Cache, Shared Memory und Level 2-Cache
• 6x 64 Bit Speichercontroller für GDDR5 (optional mit ECC)
Nvidia hat, das machte auch Toni Tamasi gleich zu Beginn des Gespräches klar, mit Absicht nicht über die grafikspezifischen Eigenheiten der Architektur gesprochen. Bereits bei den Launches des G80 (11/2006) und GT200 (05/2009) habe man versucht, die GPU-Computing-Aspekte der Chips hervorzuheben - diese seien in der Berichterstattung jedoch untergegangen. Daher werden Sie auch in diesem Artikel keine spezifischen Details zur Anzahl der Textur-Einheiten oder ROPs erhalten - schon gar nicht zur erwarteten Spieleleistung. Auf Nachfrage bestätigte Tamasi allerdings, dass es spezialisierte Hardware gibt, die die Funktionen von TMUs und ROPs übernimmt.
Auf die eröffnende Frage, ob man sich mit Fermi nicht zu sehr auf den Computing-Bereich konzentriert habe und möglicherweise die Spieleleistung vernachlässigt, antwortete Tamasi entsprechend diplomatisch. Natürlich sei man bemüht, die optimale Balance zwischen allen Anforderungsprofilen zu finden. Allerdings habe man bei Fermi stark auf die optimale Auslastung der Einheiten geachtet. Regelmäßige Leser werden sich sicherlich an das "Missing MUL" im G80 und GT200 erinnern: Neben der Multiply-Add-Leistung konnten die älteren Chips unter bestimmten Umständen eine Multiplikation zusätzlich ausführen. Tamasi nannte eine IPC-Rate von durchschnittlich 1,2. Man konnte also im circa 20 Prozent der Fälle eine zusätzliche Instruktion pro Takt aus den Funktionseinheiten herausholen. Bei der Fermi-Architektur, welche ebenfalls zwei Instruktionen pro Takt beauftragen kann (in den beiden 16er-Gruppen der SMs), läge diese Rate bei beinahe 2,0.
Um diese Ausführungseinheiten beschäftigt zu halten, hat Nvidia eine mehrstufige Speicherstruktur etabliert, welche beim Register-File beginnt. Auf dieses können die ALUs quasi ohne Verzögerung zugreifen um Daten abzulegen, mit denen gerechnet werden soll. Als nächstes folgt der Level-1-Cache, welcher bei der Fermi-Architektur ebenso variabel ausfällt, wie der Shared-Memory-Bereich. Minimal stehen pro SM jeweils 16 kiByte zur Verfügung, was beim Shared Memory der Kapazität älterer Chips entspricht. Zusätzlich gibt es noch einmal 32 kiByte, die entweder komplett dem einen oder dem anderen Bereich zugeschlagen werden können - der Werkszustand, welchen der Programmierer aktiv ändern muss, kann sich laut Tamasi zwischen Produkten der Geforce-, Quadro- und Tesla-Reihen unterscheiden. Ist das Verhalten des Programms vorhersagbar, eignet sich eher Shared-Memory, weil dieses vom Programmierer explizit zugewiesen kann. Ist die Zugriffsverteilung dagegen eher chaotisch wie zum Beispiel bei Raytracing mit Sekundär- und Tertiärstrahlen, eignet sich Cache besser. Für Geforces im DX11-Modus müssen auf jeden Fall 32 kiByte Shared-Memory zur Verfügung stehen, wenn Direct Compute 5.0 genutzt werden soll.
[Quelle: siehe Bildergalerie]
In Sachen Auslastung der Einheiten geht man bei Nvidia gemischte Wege. Einerseits setzt man auf eine möglichst hohe Nutzung, andererseits liegen pro 16er-Gruppe an ALUs entweder die FP- oder die INT-Einheiten still, während jede 16er-Gruppe, sowie die Load-Store-Einheiten und die SFUs durchaus unterschiedliche Aufgaben zugleich wahrnehmen können. LEdiglich Double-Precision lässt sich mit Single-Precision nicht mischen. Andererseits hat man Schwächen der Vorgängerarchitekturen ausgebügelt. Die DMA-Engine können nun Transfers über den PCI-Express-Anschluss abwickeln während die Recheneinheiten weiterarbeiten - zuvor war das bei Nvidia im Gegensatz zu AMDs Radeons nicht möglich. Auch können nun mehrere Kernel, also Programme, überlappend ausgeführt werden, solange sie zum selben Kontext gehören, also entweder Grafik, Physx und so weiter. Weiterhin gilt jedoch, dass der gesamte Chip nur eine Art von Aufgabe gleichzeitig erledigen kann, sprich entweder widmet er sich komplett der Grafik oder komplett der Physikberechnung. Bei letzterer können aber pro SM mehrere Kernel, wie ein Rigid-Body- und ein Fluid-Solver gleichzeitig aktiv sein. Das Context-Switchting beschleunigte Nvidia laut eigener Aussage um Faktor 10 gegenüber den Vorgängern und liegt beim Wechsel der Betriebsart jetzt im zweistelligen Millisekunden-Bereich.
Ebenfall eine interessante Randnotiz: Einen NVIO wird es beim aktuell geplanten Fermi-Chip nicht geben. Tamasi bestätigte, dass die Display-I/O-Funktionalität komplett im Haupt-Chip integriert sei.
Weitere Details zu Nvidias Fermi können Wir Ihnen vermutlich in der kommenden Printausgabe, der PC Games Hardware 12/2009 präsentieren.
(Ansicht vergrößern für Quellenangaben)
Komplett-PC-Käufer
06.10.2009 07:33
Nvidia spricht ja selbst von Ende 09. Da Hersteller eh immer nur auf ihre Art realistisch sind kann man mittlerweile fest von Januar / Februar 2010 ausgehen.
Zudem ist eine ganz andere Frage wie es um die Lieferbarkeit bestellt ist. Schätzungsweise aber besser als aktuell bei AMD da man eh in einen höheren Preisbereich einsteigt und dementsprechend die Nachfrage bedeutend kleiner.
Komplett-PC-Käufer
03.10.2009 15:47
Also wenn nicht bald irgendwelche Benchmarks des GT300 von Nvidia kommt, wandert mein Geld dieses Jahr zu AMD.
Irgendwie glaubich das GT300 Karten erst irgendwann Anfang 2010 in den Handel kommen.
Wenn Dirt2 im Dezember kommt will ich eine DX11 Karte im Rechner haben.
PCGH-Community-Veteran
03.10.2009 11:45
für mich klingt das nun eindeutig danach, dass die spieleperformance nur noch nebensächlich ist und deren meinung nach alle kunden plötzlich extreme foto und videobearbeitungs-orgien auf ecstasy veranstallten wollen
Denk mal drüber nach von welcher veranstaltung die ganzen informationen kommen.
Auf einer Automesser fragst du ja auch nicht den VW-Hersteller, wie denn das Autoradio klingt.
Es geht auf der Veranstaltung, um die Vermarktung im professionellen Bereich und die zocken meißtens nicht. Das ist ein riesen Markt mit enormen Geldvolumen.
Du wirst noch genügend über die Spieleperformance auf den dafür ausgelegten Veranstaltungen erfahren.