Nvidia Fermi: Weitere Architektur-Details im Gespräch mit Nvidias Toni Tamasi

News 02.10.2009 um 21:49 Uhr Carsten Spille Als bevorzugte Quelle auf Google hinzufügen

Auf der diesjährigen GPU Technology Conference (GTC) stellte Nvidia die neue GPU-Architektur Fermi vor. Im Gespräch mit Toni Tamasi erfuhr PC Games Hardware weitere Details zur ungewöhnlichen GPU-Architektur Fermi.

Quelle: http://www.pcgameshardware.de Nvidia Fermi: Gezeigte Grafikkarte offenbar nur ein Dummy (5) Mit der Fermi-Architektur, benannt nach dem berühmten Physiker Enrico Fermi, welcher unter anderem am Manhattan-Projekt im Wettlauf gegen Nazi-Deutschland um die Atombombe mitwirkte, stellte Nvidia vorgestern eine ungewöhnliche GPU-Architektur vor.

Bereits anlässlich der Keynote von Nvidia-Chef Huang berichtete PC Games Hardware über die Fermi-Architektur. Inzwischen haben wir die Zeit genutzt, um im Gespräch mit Nvidias Senior Vice President of Content and Technology Toni Tamasi ein vollständigeres Bild der Fermi-Architektur und des ersten darauf basierenden Chips zu erhalten.

Quelle: PC Games Hardware Fermi - Klartext
Da bereits bekannt, hier zunächst noch einmal die Fermi-Details, wie sie bisher bekannt waren:
• 512 ALUs (Shader, CUDA-/Fermi-Cores) organisiert in 16 SIMDs (Shader-Multiprozessoren, SM) à 2x16 ALUs
• Jede ALU verfügt über eine Integer- und eine Gleitkomma-Einheit, die aber nicht parallel nutzbar sind
• Pro SM gibt es noch 16 Load-Store-Einheiten und 4 Einheiten für Spezialfunktionen
• Jeder SM besitzt zwei Scheduler und Dispatch-Einheiten
• eine mehrstufige Speicherhierarchie aus Registern, Level-1-Cache, Shared Memory und Level 2-Cache
• 6x 64 Bit Speichercontroller für GDDR5 (optional mit ECC)

Nvidia hat, das machte auch Toni Tamasi gleich zu Beginn des Gespräches klar, mit Absicht nicht über die grafikspezifischen Eigenheiten der Architektur gesprochen. Bereits bei den Launches des G80 (11/2006) und GT200 (05/2009) habe man versucht, die GPU-Computing-Aspekte der Chips hervorzuheben - diese seien in der Berichterstattung jedoch untergegangen. Daher werden Sie auch in diesem Artikel keine spezifischen Details zur Anzahl der Textur-Einheiten oder ROPs erhalten - schon gar nicht zur erwarteten Spieleleistung. Auf Nachfrage bestätigte Tamasi allerdings, dass es spezialisierte Hardware gibt, die die Funktionen von TMUs und ROPs übernimmt.

Auf die eröffnende Frage, ob man sich mit Fermi nicht zu sehr auf den Computing-Bereich konzentriert habe und möglicherweise die Spieleleistung vernachlässigt, antwortete Tamasi entsprechend diplomatisch. Natürlich sei man bemüht, die optimale Balance zwischen allen Anforderungsprofilen zu finden. Allerdings habe man bei Fermi stark auf die optimale Auslastung der Einheiten geachtet. Regelmäßige Leser werden sich sicherlich an das "Missing MUL" im G80 und GT200 erinnern: Neben der Multiply-Add-Leistung konnten die älteren Chips unter bestimmten Umständen eine Multiplikation zusätzlich ausführen. Tamasi nannte eine IPC-Rate von durchschnittlich 1,2. Man konnte also im circa 20 Prozent der Fälle eine zusätzliche Instruktion pro Takt aus den Funktionseinheiten herausholen. Bei der Fermi-Architektur, welche ebenfalls zwei Instruktionen pro Takt beauftragen kann (in den beiden 16er-Gruppen der SMs), läge diese Rate bei beinahe 2,0.

Um diese Ausführungseinheiten beschäftigt zu halten, hat Nvidia eine mehrstufige Speicherstruktur etabliert, welche beim Register-File beginnt. Auf dieses können die ALUs quasi ohne Verzögerung zugreifen um Daten abzulegen, mit denen gerechnet werden soll. Als nächstes folgt der Level-1-Cache, welcher bei der Fermi-Architektur ebenso variabel ausfällt, wie der Shared-Memory-Bereich. Minimal stehen pro SM jeweils 16 kiByte zur Verfügung, was beim Shared Memory der Kapazität älterer Chips entspricht. Zusätzlich gibt es noch einmal 32 kiByte, die entweder komplett dem einen oder dem anderen Bereich zugeschlagen werden können - der Werkszustand, welchen der Programmierer aktiv ändern muss, kann sich laut Tamasi zwischen Produkten der Geforce-, Quadro- und Tesla-Reihen unterscheiden. Ist das Verhalten des Programms vorhersagbar, eignet sich eher Shared-Memory, weil dieses vom Programmierer explizit zugewiesen kann. Ist die Zugriffsverteilung dagegen eher chaotisch wie zum Beispiel bei Raytracing mit Sekundär- und Tertiärstrahlen, eignet sich Cache besser. Für Geforces im DX11-Modus müssen auf jeden Fall 32 kiByte Shared-Memory zur Verfügung stehen, wenn Direct Compute 5.0 genutzt werden soll.

Quelle: PC Games Hardware In Sachen Auslastung der Einheiten geht man bei Nvidia gemischte Wege. Einerseits setzt man auf eine möglichst hohe Nutzung, andererseits liegen pro 16er-Gruppe an ALUs entweder die FP- oder die INT-Einheiten still, während jede 16er-Gruppe, sowie die Load-Store-Einheiten und die SFUs durchaus unterschiedliche Aufgaben zugleich wahrnehmen können. LEdiglich Double-Precision lässt sich mit Single-Precision nicht mischen. Andererseits hat man Schwächen der Vorgängerarchitekturen ausgebügelt. Die DMA-Engine können nun Transfers über den PCI-Express-Anschluss abwickeln während die Recheneinheiten weiterarbeiten - zuvor war das bei Nvidia im Gegensatz zu AMDs Radeons nicht möglich. Auch können nun mehrere Kernel, also Programme, überlappend ausgeführt werden, solange sie zum selben Kontext gehören, also entweder Grafik, Physx und so weiter. Weiterhin gilt jedoch, dass der gesamte Chip nur eine Art von Aufgabe gleichzeitig erledigen kann, sprich entweder widmet er sich komplett der Grafik oder komplett der Physikberechnung. Bei letzterer können aber pro SM mehrere Kernel, wie ein Rigid-Body- und ein Fluid-Solver gleichzeitig aktiv sein. Das Context-Switchting beschleunigte Nvidia laut eigener Aussage um Faktor 10 gegenüber den Vorgängern und liegt beim Wechsel der Betriebsart jetzt im zweistelligen Millisekunden-Bereich.

Ebenfall eine interessante Randnotiz: Einen NVIO wird es beim aktuell geplanten Fermi-Chip nicht geben. Tamasi bestätigte, dass die Display-I/O-Funktionalität komplett im Haupt-Chip integriert sei.

Weitere Details zu Nvidias Fermi können Wir Ihnen vermutlich in der kommenden Printausgabe, der PC Games Hardware 12/2009 präsentieren.

Bildergalerie

Artikel teilen

Per E-Mail versenden

Bildergalerie

Artikel teilen

Kommentare (12)