HLRS Hawk: Stuttgart bekommt Supercomputer mit 640.000 Zen-2-Kernen
Das Höchstleistungsrechenzentrum Stuttgart (HLRS) wird 2019 zusammen mit HPE den Supercomputer Hawk bauen, der auf AMDs kommende Epyc-CPUs mit Zen-2-Kernen (Codename Rome) setzen wird. Insgesamt 640.000 Rechenherzen sollen den Server zum fünft schnellsten Super Computer der Welt machen.
AMD hat per Pressemitteilung den Bau mehrerer Supercomputer zusammengefasst, welche auf die hauseigenen Epyc-Prozessoren setzen werden. Besonders interessant ist der neue Server des Höchstleistungsrechenzentrums Stuttgart, kurz HLRS - nicht nur, weil dieser in Deutschland steht, sondern auch weil dort die zweite Epyc-Generation mit dem Codenamen Rome zum Einsatz kommen wird. Das Ganze hört auf den Namen Hawk, löst Hazel Hen ab und soll rund 38 Millionen Euro kosten. Als Partner fungiert Hewlett Packard Enterprise (HPE).
10.000 Zen-2-CPUs für 24 PetaFLOPS Rechenleistung
Auf der Supercomputing-Konferenz 2018 hat das HRLS erste Details zu Hawk bekannt gegeben. Insgesamt 10.000 Prozessoren teilen sich auf 5.000 Nodes mit je zwei Sockeln auf. Verbaut werden CPUs aus AMDs oberen Ende des Produktportfolios mit 64 Kernen, was insgesamt 640.000 Zen-2-Kerne ergibt. Die Rechenleistung soll bei rund 24 PetaFLOPS liegen, womit Hawk zurzeit den fünften Platz innerhalb der Top-500-Liste der schnellsten Supercomputer besetzen würde - in Europa soll Hawk der schnellste Server werden. Hazel Hen liegt zurzeit auf Platz 30 und nutzt noch 15.424 Haswell-EP-CPUs des Typs Xeon E5-2680 v3 mit jeweils 12 Kernen - das ergibt insgesamt 185.088 Kerne mit einer Peak-Rechenleistung von 7,4 PetaFLOPS. Unverändert bleibt die Speicherausstattung von 128 GiByte pro Node beziehungsweise 64 GiByte pro CPU. Der Massenspeicher steigt von 10 auf 26 Petabyte an. GPU-Beschleunigerkarten kommen auch weiterhin nicht zum Einsatz. Das HLRS benötigt hauptsächlich die CPU-Rechenleistung und den Speicherdurchsatz (aber nicht unbedingt -kapazität) für den industriellen Einsatz.
Passend zum Thema: Zen 2: AMD zeigt Epyc mit 9 Dies - ca. 1.000 mm² Silizium
Mindestens 2,35 GHz auf allen Kernen
Die 24 PFLOPS Rechenleistung werden in etwa bei einem Takt von 2,35 GHz erreicht. Dabei muss es sich nicht unbedingt um einen Basis- oder Boost-Takt handeln, sondern könnte lediglich einen von AMD zugesicherten Wert darstellen. Zum Vergleich: Die erste Epyc-Generation (Naples) kommt bei einer TDP von 180 Watt auf Basistaktraten von 2,0 (Epyc 7551) bis 2,2 GHz (Epyc 7601) auf 32 Kernen. TSMC und AMD sprechen bei der 7-nm-Fertigung von einer Halbierung der Leistungsaufnahme bei gleichen Taktraten, womit AMD die Kernanzahl kurzerhand verdoppeln kann. Ein bisschen TDP-Budget könnte dann noch für eine Erhöhung des Taktes genügen beziehungsweise Zen 2 generell auf höhere Frequenzen ausgelegt sein.
Quelle: HLRS via anandtech.com
Der grobe Aufbau von Hawk – "Epic" ist ein Schreibfehler des deutschen Erstellers
Kosten für eine Zen-2-CPU mit 64 Kernen
Ein bisschen rechnen kann man nun auch bei den Kosten. 38 Millionen Euro soll der komplette Spaß kosten. Das ergibt pro Node 7.600 Euro, wenn man die Kosten für die Server-Racks und den Aufbau einmal ausklammert. Darunter fallen ein Dual-Sockel-TR4-Mainboard, die besagten 128 GiByte DDR4-RAM, die SSDs respektive HDDs (die Verteilung wurde noch nicht aufgeschlüsselt) und eben zwei Epyc-CPUs. Die Zen-2-Prozessoren können in diesem Fall nicht mehr als 2.000 bis 3.000 Euro kosten, was selbst in Anbetracht eines massiven Mengenrabatts günstig wäre. Für 64 Kerne ist das schon mal eine Ansage.

Wenn eine Grafikkarte 10 TFlops hat, würde man mit 2400 Grafikkarten die selbe Rechenleistung schaffen.
Aber die sind ja anders aufgebaut und können nicht so komplexe Berechnungen.
Sonst würde man vielleicht Supercomputer aus Grafikkarten bauen?
Strömungssimulation und Mechanik-Simulation (Crashverhalten, etc.) sein.
Ein Großteil der Rechenzeit solcher Maschinen geht für wissenschaftliche Simulationen in den Bereichen Ingenieur-/Materialwissenschaften, Physik, Wetter/Klima oder Chemie drauf.
In Stuttgart dominiert eindeutig die Ingenieurswisschenschaft und hier vor allem der Bereich Strömungssimulation.
Ein paar Rest-Prozent in Stuttgart werden von industriellen Partnern verbraten (hier v.a. Porsche). Was genau die rechnen ist natürlich geheim, es dürfte aber mit ziemlicher Sicherheit
Strömungssimulation und Mechanik-Simulation (Crashverhalten, etc.) sein.
Hier findest du den Jahresbericht 2017 des HLRS:
HLRS High Performance Computing Center Stuttgart - Annual Report
Reine CPU-Systeme sind am aussterben; von den vier noch in den Top10 vertretenen wurden ebenfalls eins 2011 und eins 2013 angefahren. Mit Ausnahme von Deutschland scheint nur noch China und derartige Anlagen zu bauen – und beim TaihuLight handelt es sich um ein Prestigeprojekt für die chinesische CPU-Industrie. Sobald es GPUs/andere Parallel-Beschleuniger aus heimischer Produktion gibt würde ich auch dort ein Umschwenken auf hybride Systeme erwarten. Bei 0,6 Millionen CPU-Kernen braucht man über Single-Thread-Performance ohnehin nicht mehr zu reden, da kann man auch gleich für 60 Millionen Vektoreinheiten coden. Vermutlich haben die Top10 Supercomputer schon mehr GPU-Rechenleistung, als alle reinen CPU-Systeme in der gesamten Top500-Liste zusammengenommen.
#CPUs ruled. So did Dinosaurs.
Wenn eine Grafikkarte 10 TFlops hat, würde man mit 2400 Grafikkarten die selbe Rechenleistung schaffen.
Aber die sind ja anders aufgebaut und können nicht so komplexe Berechnungen.
Sonst würde man vielleicht Supercomputer aus Grafikkarten bauen?
Reine CPU-Systeme sind am aussterben; von den vier noch in den Top10 vertretenen wurden ebenfalls eins 2011 und eins 2013 angefahren. Mit Ausnahme von Deutschland scheint nur noch China und derartige Anlagen zu bauen – und beim TaihuLight handelt es sich um ein Prestigeprojekt für die chinesische CPU-Industrie. Sobald es GPUs/andere Parallel-Beschleuniger aus heimischer Produktion gibt würde ich auch dort ein Umschwenken auf hybride Systeme erwarten. Bei 0,6 Millionen CPU-Kernen braucht man über Single-Thread-Performance ohnehin nicht mehr zu reden, da kann man auch gleich für 60 Millionen Vektoreinheiten coden. Vermutlich haben die Top10 Supercomputer schon mehr GPU-Rechenleistung, als alle reinen CPU-Systeme in der gesamten Top500-Liste zusammengenommen.
#CPUs ruled. So did Dinosaurs.