Heterogener Supercomputer mit Fermi

Supercomputer mit Fermi-FLOPS 10x schneller als Roadrunner

Die Oak Ridge National Laboratories kündigten den Bau eines neuen heterogenen Supercomputers an, welcher sich die Rechenleistung von Prozessoren mit Nvidias Fermi-Architektur zu Nutze machen und so zehnmal schneller als der bisherige Top-500-Spitzenreiter Roadrunner sein soll. Das Exa-FLOP soll 2019 fallen. (Carsten Spille, 07.10.2009)
 
GTC 09 Supercomputing 16
 
GTC 09 Supercomputing 16 [Quelle: siehe Bildergalerie]
Auf der GPU-Technology Conference (GTC), welche letzte Woche im kalifornischen San Jose abgehalten wurde, kündigten die Oak Ridge National Labs (ORNL) in Verbindung mit Nvidia einen neuen Supercomputer an. Dieser soll Prozessoren aus Nvidias kommender Fermi-basierter Produktreihe nutzen und durch deren hohe Rechenleistung den bisherigen Spitzenreiter der Supercomputer "Roadrunner" verdrängen.

Bereits der mit einem Rmax-Wert von 1,105 PFLOPS (1,105 Billiarden Gleitkommaoperationen pro Sekunde) in der Topp-500-Liste der Supercomputer eingetragene Roadrunner gehört zu den heterogenen Supercomputern, welche ihre Rechenleistung aus verschiedenartigen Prozessorkernen beziehen. Roadrunner setzt dabei auf die Kombination von PowerXCell (Cell-basiert) und AMD-Opteron-CPUs, welche durch Voltaire-Infiniband verbunden sind. Die Opterons dienen dabei primär der Verwaltung und Steuerung der PowerXCell 8i mit je 3200 MHz (12.8 GFLOPS).

ORNL: 10-PFLOPS-Supercomputer
Auch die kommende Oak-Ridge-National-Labs-Lösung soll ein ähnliches System einsetzen: Der Löwenanteil der Rechenleistung wird durch Nvidias Fermi-GPUs gestellt, welche in der theoretischen Spitze jeweils zwischen 1 und 2 TFLOPS leisten dürften. Auf der GTC 09 führten Supercomputer-Spezialisten von Cray und den ORNL aus, warum Fermi sich vermutlich gut für Supercomputer eignen wird. Denn im Gegensatz zu den theoretisch noch rechenstärkeren Cypress-GPUs von AMD, welche in der Spitze bis zu 2,72 TFLOPS erreichen, verfügen Fermi-GPUs für den professionellen Einsatz über ECC zur Korrektur von Speicherfehlern. Was bei PC-Spielen maximal zu einem Bitfehler in einem der Pixel führt, kann in den langwierigen Simulationen im Supercomputing-Bereich zu Folgefehlern führen, die im schlimmsten Fall die ganze Simulation wertlos werden lassen - daher wurden herkömmliche GPUs hier bislang nicht eingesetzt.
GTC 09 Supercomputing 17
 
GTC 09 Supercomputing 17 [Quelle: siehe Bildergalerie]

Auch die hohe Double-Precision-Leistung, über welche AMD-GPUs ebenfalls verfügen, sei ein Grund für die Entscheidung pro Fermi gewesen. Der Vorgänger GT200 verfügte nämlich nur über ein Achtel der Single-Precision-Spitzenleistung im DP-Bereich. Fermi kann hier auf 50% des Maximalwertes zurückgreifen.

Cray: Leistung und Kommunikation
In einem ähnlichen Vortrag von Cray wurde auch das Problem der Kommunikation und das der Leistungsaufnahme thematisiert. Demnach seien diese beiden das größte Problem, vom Peta- in den Exa-FLOPS-Bereich vorzudringen. Eine Studie zeige, dass für ein Exa-FLOPS-System eine elektrische Leistung von über 100 Megawatt nötig sei, wenn man den herkömmlichen Weg weiter vorantreibe. Die Integration der GPU, welche auch Cray ab dem nächsten Jahr in seinen XT-Schränken optional einführen will, sei ein Weg, um davon wegzukommen, da diese eine wesentlich höhere Rechenleistung pro Watt erbringe.

Ein Rechenexempel von Cray
Auch die Kommunikation und der Transport der Datenmengen sei kritisch. Zwar könne man eine 64-Bit-FPU im 40nm-CMOS-Prozess auf weniger als 0.01mm² unterbringen und damit leicht mehr als 1.000 FPUs auf der Hälfte eines 225m²-Chips integrieren. Wenn dieser mit 1,5 GHz läuft, erreiche man 3 TFLOPS. Doch nun kommt die Kommunikation ins Spiel: Aus dem lokalen Registerfile eines Chips sei für 3 TFLOPS eine Bandbreite von 36 TByte/sek. nötig - jeder Transfer entspräche weiteren 6 pJoule. Insgesamt kommt man damit im besten Fall also auf 56 Milliwatt pro Giga-FLOP oder 168 Watt insgesamt. Muss man globalen Speicher auf dem Chip bemühen (zum Beispiel Cache), um die Recheneinheiten mit Daten zu versorgen,steigt die Energieaufnahme auf 280 Milliwatt pro Giga-FLOP, durch die geringere Bandbreite von unter einem Tera-Byte/sek. sinkt die Spitzenleistung aber auf etwa 80 GFLOPS. Sind die Daten sogar außerhalb des Chips und dieser muss auf anderen Speicher mit 50 GByte/sek. zugreifen, kostet das mehr als 20 Watt pro Giga-FLOP und es bleiben lediglich magere 4,2 GFLOPS übrig. Der monetäre Preis steigt hierbei analog von 7 US-Cent pro Giga-FLOP auf rund 48 US-Dollar.

Auf lange Sicht sieht Cray daher die Kombination aus schnellen CPUs für seriellen Code und massiv-parallelen Co-Prozessoren als mögliche Lösung für das Energie-/Kostenproblem. Ideal sei dabei eine Integration von "CPU" und "GPU" in einem Sockel um gemeinsame Speicher zu nutzen und die Synchronisationszeit zu verringern - das klingt allerdings wiederum eher nach Fusion und/oder Larrabee als nach dedizierten Co-Prozessoren wie sie Nvidia mit Fermi liefern will.

(Ansicht vergrößern für Quellenangaben)
     


Kleine Vorsilbenkunde für kleine und große Zahlen:
pico - 1/1.000.000.000.000 - ein Billionstel
nano - 1/1.000.000.000 - ein Milliardstel
Kilo - 1.000 - Tausend
Mega - 1.000.000 - Million
Giga - 1.000.000.000 - Milliarde
Tera - 1.000.000.000.000 - Billion
Peta - 1.000.000.000.000.000 - Billiarde
Exa - 1.000.000.000.000.000.000 - Trillion
 
 
News, Tests und Wissen zu Technologie-Themen finden Sie auf der Technologie-Übersichtsseite von PC Games Hardware Online.
 
 
 
Verwandte Artikel:   Supercomputer   Fermi   Oakridge   Nvidia  
 
 
 
Aktuelle Kommentare
Shi
BIOS-Overclocker
31.10.2009 15:11
AW: Supercomputer mit Fermi-FLOPS 10x schneller als Roadrunner

Wär geil wenn der PC dann ein 800W LC-Power NT drinhätte

wuselsurfer
Freizeitschrauber
31.10.2009 14:40
AW: Supercomputer mit Fermi-FLOPS 10x schneller als Roadrunner

Quote: (Zitat von GR-Thunderstorm)
Ein solches Kühlsystem, welches die CPUs auf derartig niedrigen Temperaturen hält, würde vermutlich genug Strom für 3 Rechenzentren verballern.
Oder du stellst nen Kohleschipper ein, der schweißtriefend die ganze Zeit Trockeneis in einen riesigen Vorratsbehälter schippt. Wobei Trockeneis aber auch bezahlt werden möchte.


Na ja, einen CPU-Kompressorkühler gab es schon.
Da lief die CPU mit -40°C.
So umwerfend viel Strom hat das Gerät eigentlich nicht verbraucht, ich denke um die 50W.
Das Problem ist das Kondenswasser um die CPU herum.

Quote: (Zitat von GR-Thunderstorm)

Muaha wär das ne kranke Vorstellung, wenn son ultramodernes sauberes Rechenzentrum von nem dreckigen Kohleschipper im Keller mit Strom aus Wärmeenergie versorgt wird.


Fahr mal ein bißchen weiter nach Osten, Richtung Ural ...
Ich wette, da gibt es sowas. .

Nichts gegen Rußland, auch da gibt es mit Sicherheit nette Menschen.

GR-Thunderstorm
BIOS-Overclocker
08.10.2009 03:23
AW: Supercomputer mit Fermi-FLOPS 10x schneller als Roadrunner

Quote: (Zitat von Superwip)
könnte man den Energieverbrauch nicht reduzieren indem man das gesamte System extrem kühlt und Supraleitende Materialien einsetzt?

In so großem Maßstab sollte sich der Aufwand eventuell rechnen, die Prozessoren müssten nur von Grundauf dafür ausgelegt sein


Ein solches Kühlsystem, welches die CPUs auf derartig niedrigen Temperaturen hält, würde vermutlich genug Strom für 3 Rechenzentren verballern.
Oder du stellst nen Kohleschipper ein, der schweißtriefend die ganze Zeit Trockeneis in einen riesigen Vorratsbehälter schippt. Wobei Trockeneis aber auch bezahlt werden möchte.

Muaha wär das ne kranke Vorstellung, wenn son ultramodernes sauberes Rechenzentrum von nem dreckigen Kohleschipper im Keller mit Strom aus Wärmeenergie versorgt wird.

 
 
1698 User online
Anmelden & mitmachen
Benutzername:
Kennwort:
Angemeldet bleiben
Jetzt mitdiskutieren!
Jetzt bestellbar!
Alles zu Crysis 3
Die besten Deals
Komplett-PCs von PCGH
Komplett-PCs von PCGH
So unterstützen Sie PCGH
Folgen Sie PCGH
Aktuelle Heft-Ausgabe
Aufrüsten auf Windows 8...
Ja, zum Release (5.20%)
Ja, 1-6 Monate nach Release (4.46%)
Ja, irgendwann 2013 (5.95%)
Nein, vorerst nicht (siehe Kommentar) (80.67%)
Sonstiges/siehe Kommentar (3.72%)
269 Teilnehmer
PCGH-Webshops