Supercomputer: Chinas Exascale-Rechner OceanLight setzt auf 14-nm-Technologie

0
News Maurice Riebling Als bevorzugte Quelle auf Google hinzufügen
Sunway TaihuLight
Quelle: via nextplatform.com

Chinas Exascale-Rechner OceanLight setzt auf 14-nm-Technologie, um die ExaFLOP-Marke zu knacken. In einem aktuellen Bericht hat die Webseite nextplatform.com den Supercomputer etwas genauer unter die Lupe genommen und sich den zugrundeliegenden Aufbau angeschaut.

Für Spitzenleistung braucht es nicht immer die neueste Technologie. Ein Beweis dafür ist der OceanLight-Rechner von Sunway, der im National Supercomputing Center Chinas steht und nach letztjährigen Berichten die Grenze von 1 ExaFLOPS geknackt hat. Im Linpack-Benchmark erzielte der Rechner einen Rmax-Wert von 1,05 ExaFLOPS, während die Rpeak-Performance bei 1,3 ExaFLOPS liegen soll.

Gleichwohl das erheblich schneller ist als der aktuell weiterhin amtierende Spitzenreiter der Top500-Liste Fugaku aus Japan (442 PFLOPS Rmax), darf sich der Supercomputer mangels Benchmarks nicht in der Liste verewigen, wobei China mit dem Tianjin Tianhe-3 über ein noch weitaus schnelleres System mit geschätzt 1,3 ExaFLOPS (Max) und 1,7 ExaFLOPS theoretischer Spitzenleistung (Peak) verfügen soll.

Mit kleinen oder auch größeren Details der Architektur des OceanLight-Supercomputers hat sich in hiesigen Gefilden die Webseite nextplatform.com beschäftigt. Als Basis diente dabei ein Paper, welches von der Alibaba Group, Tsinghua University, DAMO Academy, Zhejiang Lab und Beijing Academy of Artificial Intelligence veröffentlicht wurde. Kern der wissenschaftlichen Arbeit ist eigentlich ein Machine-Learning-Modell mit dem Namen BaGuaLu, wobei in Teilen auf die genutzte Rechnerarchitektur des OceanLight eingegangen wurde. BaGuaLu arbeitet auf mehr als 37 Millionen Kernen mit 14,5 Billionen Parametern (offenbar FP32 Single-Precision) und kann wohl bis zu 174 Billionen Parameter skalieren, was einer Annäherung an den sogenannten "Brain-Scale" entspricht. Gemeint ist damit eine ähnlich hohe Anzahl an Parametern wie es Synapsen im menschlichen Gehirn gibt.

SW26010-Pro Compute Engine im Detail

Schon im vergangenen Jahr hat man sich bei nextplatform.com damit beschäftigt, wie ein Exascale-System durch das National Research Center of Parallel Computer Engineering and Technology (NRCPC) gebaut sein könnte. Man kam dabei zu dem Schluss, dass dafür genutzte 14-nm-Chips womöglich auf ähnliche Taktraten wie die 260-Kern-Prozessoren SW26010, verwendet im Sunway TaihuLight und gefertigt in 28nm, gedeckelt sind, um die Temperaturen im Zaum zu halten. Gleichzeitig spekulierte man auf eine Verdoppelung der Compute-Elemente und ebenso der Vector-Breiten auf 512-Bit sowie Kabinette, die die jeweiligen Nodes beheimaten.

Zumindest in letzteren Punkten stimmten die Thesen von nextplatform.com. Einzig bei den Taktraten der genutzten SW26010-Pro-Prozessoren lag man daneben. Anhand eines Diagramms lässt sich derweil ein detaillierterer Blick auf die Compute-Engine des Prozessors werfen.

SW26010-Pro Compute Engine Quelle: via nextplatform.com SW26010-Pro Compute Engine

Die darin enthaltenen Rechenkerne sind in insgesamt sechs Gruppen mit achtmal acht Kernen (Compute Processing Element, CPE) unterteilt und verfügen über ein großes Management-Processing-Element (MPE) nebst DDR4-Speicherinterface (16 GiByte, 51,4 GB/sec). In jedem CPE finden sich derweil 256 KiByte an L2-Cache und insgesamt vier Logik-Blöcken, die Unterstützung für FP64- und FP32-Berechnungen einerseits und FP16 sowie BF16 andererseits bieten. Verbunden sind die sechs CPEs derweil über ein Ring-Interconnect mit zwei Netzwerk-Interfaces.

Was die Performance eines einzelnen SW26010-Pro angeht, stehen hier 14,03 PetaFLOPS bei FP64- oder FP32-Kalkulationen bereit, während 55,3 PetaFLOPS für FP16- beziehungsweise BF16-Berechnungen erzielt werden. Was die Konfiguration des OceanLight-Systems angeht, spricht man von einer bekannten getesteten Größe von 107.520 Nodes mit jeweils einem SW26010-Pro pro Node und damit in Summe 41,93 Millionen Rechnenkernen verteilt auf 105 Rechner-Kabinette.

Vermuteter Takt von 2,22 GHz und Skalierbarkeit auf bis zu 160 Kabinette

Die Funktionsweise des Systems wird anhand eines weiteren Diagramms verdeutlicht. Die einzelnen Nodes werden in einer Supernode zusammengefasst, die wiederum in einer 3x oversubcribed und non-blocking Fat-Tree-Topologie verbunden sind. Der Interconnect seit laut dem Paper proprietär, gleichwohl man bei nextplatform.com annimmt, dass es sich womöglich um eine angepasste Version des InfiniBands handelt, wie es im originalen TaihuLight-System zum Einsatz kam. Hinsichtlich der Taktraten der einzelnen SW26010-Pro-Chips lassen sich zwar keine harten Fakten finden, auf Basis der geschilderten Eckdaten mitsamt Performance-Angaben lässt sich jedoch eine Geschwindigkeit von 2,22 GHz ausrechnen, mit denen die Prozessoren arbeiten dürften.

Sunway OceanLight Architektur Quelle: BaGuaLu Sunway OceanLight Architektur

Nimmt man nun die bisher getestete Ausstattung von 107,250 Nodes zur Grundlage, errechnet sich eine theoretische Peak-Performance von 1,51 ExaFLOPS. Angenommen wird allerdings, dass das OceanLight-System auch bis zu 160 Kabinetten ausgeweitet werden könne, was letztlich 163,840 Nodes und 2,3 ExaFLOPS Peak bei F64- und FP32-Berechnungen bedeuten wird, während bei 120 Kabinetten 1,72 ExaFLOPS Peak im Raum stünden.

Das im Paper zentral thematisierte BaGuaLu-Modell werkelte derweil auf einem OceanLight-Supercomputer mit 96.000 Nodes und 37,44 Millionen Kernen in Summe bei 14,5 Billionen Parametern. Würde man besagte Parameter auf BF16 oder FP16 umstellen, wären mit dem System bereits 29 Billionen Parameter kalkulierbar, während ein Setup mit 160 Kabinetten hier mit 49,5 Billionen Parametern aufwarten würde. Wie die 174 Billionen Parameter, die im Paper erwähnt werden, zu erreichen sind, ist man sich im Bericht von nextplatform.com nicht so sicher. Eine solche Zahl wäre zumindest theoretisch erzielbar, würde man Unterstützung für INT8- und INT4-Datenformate hinzufügen. Mit INT4 wären gemäß der eigenen Rechnung 198 Billionen Parameter erzielbar.

0
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 07/2026 play5 07/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk