Intel Architecture Day 2021: Technik-Details zu Xe, Arc und dem Multi-Chip-Monster Ponte Vecchio
Auf dem just abgehaltenen Architecture Day gab Halbleitergigant Intel einige Fakten zu seinem ambitionierten Xe-Projekt preis. PCGH war selbstverständlich anwesend und fasst die ersten Informationen zu den GPU-Interna von Xe HPG/HPC zusammen. Vorhang auf für Alchemist alias Arc - und das Profi-Schlachtschiff Ponte Vecchio!
Auf dieser Seite
Der 19. August ist ein besonderes Datum für Intel. Vor genau 22 Jahren verkündete der Prozessor-Marktführer seinen Rückzug aus dem Geschäft der dedizierten Grafikkarten. Richtig gelesen, Intel zankte sich eineinhalb Jahre mit 3dfx, Ati, Nvidia, Matrox, S3 & Co., räumte das Feld aufgrund des überschaubaren Erfolgs jedoch wieder. Kurz danach verschwanden auch die meisten anderen 3D-Pioniere.
Sieht man vom Projekt Larrabee ab, war es lange still um Intels Grafik-Ambitionen. Damit ist nun Schluss: Die Kalifornier arbeiten seit rund einer halben Dekade an "Xe", einer von Grund auf neuen, hochgradig skalierbaren GPU-Architektur. Xe steht für einen Neustart, den sich Intel einiges kosten lässt. Einige der hellsten Köpfe der Halbleiterindustrie tüfteln in den Intel-Laboren überall auf der Welt, angeführt vom Ex-Radeon-Chef Raja Koduri. Dieser verkündete gestern sichtlich stolz, dass das Projekt die Zielgerade ansteuert. Anfang 2022 erscheinen nicht nur die ersten Gaming-Grafikkarten auf Xe-Basis, sondern auch diverse andere Super(computing)lative. In diesem Artikel geht es um die Grafik-Innovationen - alles Wissenswerte um die CPU-Fortschritte lesen Sie im Artikel Intel Architecture Day 2021: So arbeitet Alder Lake.
Quelle: Intel (Screenshot: PCGH)
Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (196)
Unter der Xe-Haube
"Intel hatte fast eine Dekade lang ein Problem." Zugegeben, wir reißen Raja Koduris Worte aus dem Zusammenhang, sie passen aber zu gut, um sie liegenzulassen. Während sich Intels Grafik-Guru auf den Rückstand der Rechenleistung gegenüber dem (nicht explizit genannten) Mitbewerber Nvidia bezieht, lässt sich die Aussage universell für den Mangel einer konkurrenzfähigen GPU-Architektur anwenden. Die Messlatte war hoch, sodass Intel einen wahren Moonshot brauchte - ein ehrgeiziges Projekt, das alle Probleme auf einmal beseitigen kann. Ob das in der Praxis tatsächlich klappt, muss sich erst zeigen, die Intel-Verantwortlichen sind sich ihrer Sache jedoch sicher: Xe HPC, kurz für High Performance Computing, soll Nvidias Top-Lösungen im Profi-Bereich schlagen. Um das zu erreichen, zieht Intel alle verfügbaren Register.
Xe HPG: High Performance Gaming
Widmen wir uns aus naheliegenden Gründen zunächst den Gaming-Ablegern, welche Intel als Xe HPG bezeichnet - oder neuerdings und für Spieler deutlich greifbarer als Alchemist. Erste Gaming-Grafikkarten mit Alchemist-GPU sollen im ersten Quartal 2022 unter der Marketing-Bezeichnung "Arc" erscheinen. 2022 heißt es folglich nicht mehr bloß "Radeon gegen Geforce", sondern vor allem "Arc gegen den Rest".
Bisher sprach man im Kontext der Intel-Grafikchips von Execution Units, kurz EU. Xe räumt damit auf, fortan heißt dieses kleine und fortschrittlich ausgelegte GPU-Untermodul Xe Core. Im Falle von Xe HPG enthält jeder Xe Core 16 Vector-Engines und 16 Matrix-Engines, die notwendigen Load-/Store-Einheiten, den First-Level- und Instruction Cache. Während sich die Vektor-Einheiten um typische Shader-Berechnungen kümmern, wie sie auch Spiele erfordern, entsprechen die Matrix-Einheiten Nvidias Tensor-Cores. Intel hat damit im Gaming-Bereich Ähnliches vor, nämlich Xe-Super-Sampling - alle bekannten Informationen zu XeSS lesen Sie hier. Wie viele FP32-ALUs jede Vektor-Einheit beinhaltet, ist derzeit unbekannt (unser Tipp: 8).
Quelle: Intel (Screenshot: PCGH)
Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (198)
Wie AMDs Compute Units und Nvidias Shader-Multiprozessoren sind auch Intels Xe Cores Rudeltiere. Finden sich mehrere Xe Cores zusammen, bilden sie zusammen ein sogenanntes Render Slice (Stück/Scheibe). Im Falle von Xe HPG besteht ein Slice aus vier Xe-Cores, ein jeder mit anschließender Raytracing-Einheit sowie acht Textureinheiten, einer Geometrie- und Rasterizer-Unit sowie insgesamt 16 ROPs. Intel gibt an, dass jeder Raytracing-Kern drei Funktionen beherrscht: Ray Traversal, Triangle Intersection und Bounding Box Intersection. Die Tatsache, dass die Basisstruktur, die Bounding Volume Hierarchy (BVH), von Intels Raytracing-Kernen beschleunigt wird, lässt trotz der zahlenmäßig wenigen Einheiten aufhorchen. Dieses Feature beherrscht bisher nur Nvidia, AMDs RDNA-2-Chips führen diese Berechnungen auf den regulären Shader-Einheiten aus, was Leistung kostet.
Zusammen mit einem einzelnen, mutmaßlich mächtigen Dispatcher/Scheduler sowie anschließendem Level-2-Cache ergibt sich ein Konstrukt, das am ehesten mit einem Nvidia Graphics Processing Cluster (GPC) vergleichbar ist. Intel zeigt in der Präsentation einen Xe-HPG-Grafikchip mit acht Render-Slices, die sich gemeinsam und angebunden über ein Memory Fabric eine bisher unbekannte Menge an Level-2-Cache teilen. Möglich sind 4 oder 8 MiByte, diese Details verschweigt die Präsentation aber ebenso wie die Anzahl und Breite der Speicher-Controller. Bislang geht man von GDDR6-Support aus, doch Details bleibt Intel schuldig. Immerhin die Fertigung des Rechenkerns ist offiziell bestätigt: Xe HPG läuft im N6 (Node 6) bei der taiwanischen Foundry TSMC vom Band. Intel gibt an, dass Xe HPG (DG2) gegenüber Xe LP (DG1/Mobile) große Sprünge macht, Takt und Effizienz seien jeweils um den Faktor ~1,5 höher.
Quelle: Intel (Screenshot: PCGH)
Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (197)
Xe HPC: High Performance Computing
Die Profi-Variante von Xe setzt andere Schwerpunkte als das Gaming-Produkt - AMD und Nvidia verfahren genauso. Hier zählen vor allem die wissenschaftlichen Berechnungen, angefangen bei simplen Integer-Formaten für Deep Learning, bis hin zu Double Precision. Im Falle von Xe HPC enthält jeder Xe Core nur 8 Vector-Engines und 8 Matrix-Engines (dafür mit doppelter Breite ggü. HPG), Load-/Store-Einheiten sowie einen mit 512 KiByte sehr üppigen First-Level- und Instruction Cache. Gleich ist die einfach vorhandene Raytracing-Einheit pro Xe Core. Die von den Matrix-Units unterstützten Formate TF32, FP16, BF16 und INT8 erinnern nicht zufällig an den Ampere GA100, schließlich will Intel mit Xe HPC im Profi-Segment angreifen. Wie üblich, berechnen die Matrizenmultiplikatoren besagte Datenformate um Vielfache schneller als die Vektor-Einheiten, welche pro Takt 256 FP32- oder FP64-Operationen stemmen - die volle FP64-Rate macht deutlich, dass es sich um eine Profi-GPU handelt. Weniger anspruchsvolle FP16-Kalkulationen erfolgen (wie bei AMDs Navi-Chips) unterdessen mit einer 2:1 Rate.
Im Falle von Xe HPC besteht ein Slice aus 16 Xe-Cores sowie insgesamt 8 MiByte L1-Zwischenspeicher - hier wird Intel deutlich konkreter als beim Gaming-Derivat. Bis zu vier HPC-Slices lassen sich zu einem Stack (Stapel) zusammenschließen, woraus sich 64 Xe-Kerne und 64 Raytracing-Einheiten ergeben. Wie beim Gaming-Chip teilt sich auch ein HPG-Stack über ein Memory Fabric einen Level-2-Cache (unbekannter Größe). Die Kommunikation nach draußen erfolgt über vier Speicher-Controller, welche High Bandwidth Memory gemäß HBM2e-Norm ansteuern. Und natürlich lässt sich auch ein Stack nochmals verheiraten - zu einem 2er-Stack mit 8 Slices, 128 Rechenmodulen sowie acht Speicher-Controllern. Dies wird erst mithilfe von Intels EMIB-Packaging möglich.
Ponte Vecchio
Im Grunde haben wir die wohl beeindruckendste Konstruktion bereits vorweg genommen. Gemeint ist Ponte Vecchio, die wohl komplexeste Sammlung von Mikrochips auf einem Substrat. Das System on a Chip (SOC) besteht aus mehr als 100 Milliarden Transistoren mit sage und schreibe 47 verschiedenen Komponenten (Tiles), welche mit fünf verschiedenen Fertigungsverfahren (Nodes) hergestellt, gestapelt und durchkontaktiert werden. Konkret genannt werden drei Fertigungsarten: Das Compute Tile nutzt TSMCs N5 (Node 5), das Base Tile nutzt die Fertigung Intel 7 und das Link Tile entstammt TSMCs N7 (Node 7). Die Skalierbarkeit erlaubt es Intel, die Leistung(saufnahme) beinahe beliebig zu skalieren und somit Kundenwünsche zu erfüllen. Das derzeit im A0-Stepping lauffähige SOC erreicht laut Intel eine Rechenleistung von 45 TFLOPS bei einfacher Präzision - das ist mehr, als vor einigen Monaten noch zu lesen war; zwischenzeitlich wurde auch die Fertigung verfeinert.
Quelle: Intel (Screenshot: PCGH)
Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (201)
Ausblick: Arc Gaming-Grafikkarten
Zwar gab Intel sehr viele Informationen und eine ungewohnt detaillierte Roadmap der zukünftigen Pläne preis, viele wichtige Parameter sind jedoch unbekannt. Da wären die Taktraten, die Leistungsaufnahme, die Schlagkraft pro Recheneinheit und viele weitere Dinge, die eine Grafikkarte auszeichnen. Ein gutes halbes Jahr vor dem Marktstart ist es für die meisten dieser Informationen noch zu früh, derzeit werden die ersten Samples an Partner und potenzielle Kunden verteilt. Auch die Treiber-Entwicklung läuft auf Hochtouren; Intel gibt an, dass man den Core Driver signifikant überarbeitet habe. Neben der Hardware dürfte dessen Qualität zu den wichtigsten Faktoren gehören, wie gut die Arc-Grafikkarten bei der Kundschaft ankommen.
Wir gehen davon aus, dass Intel in den kommenden Wochen und Monaten häppchenweise weitere Informationen veröffentlichen wird, um das Interesse am Kochen zu halten. Der nächste Halt für größere Informations-Brocken dürfte das Innovation Event sein, das Intel am 27. und 28. Oktober abhalten wird. PCGH bleibt selbstverständlich am Ball und wird über alle Entwicklungen rund um Xe/Arc berichten. Was halten Sie von Intels Offensive? Diskutieren Sie mit! Die 195 Seiten starke Präsentation aller Intel-Neuheiten finden Interessenten in der Bildergalerie.



Es steht die Aussage von intel im Raum, dass sie 45 Tflops bei FP32 schaffen und das habe ich mit der Mi100 verglichen, da die Mi200 ja angeblich aus zweich Chiplets bestehen soll und man die Leistung schon mit zwei mal Mi100 übertreffen würde, nicht mehr und nicht weniger.
Andere Vergleichswerte hab ich leider keine gefunden, sonst hätte man die im Vergleich zur bestehenden Konkurrenz einordnen können, nur da man nicht weiß, was die neuen leisten werden, fraglich.
Aber da intel selbst den Wert bei FP32 angibt und du das Design ja so abfeierst, finde ich das ehrlich gesagt etwas enttäuschend und bin gespannt, welcher der drei Ableger in welchem Bereich vorne sein wird.
Nimmt man "nur" 45,0 TFlops als FP32-Messergebnis des A0-Samples an und ignoriert das Größer-Zeichen und nimmt die Durchsatzwerte der Architektur von Sheet 170, dann erhält man folgende Leistungswerte:
Ponte Vecchio A0-Sample , rd. 1,37 GHz
FP64 & FP32 = 45,0 TFlops (per Definition)
BF16 ~ 720 TFlops
INT8 ~ 1440 TOPS (bzw. 1,4 PetaOps)
Zum Vergleich die MI100:
FP32 = 23,1 TFlops
FP64 = 11,5 TFlops
BF16 = 92,3 TFlops
INT8 = 184,6 TOPS
Mit einer einfachen Verdoppelung bei CDNA2 käme AMD also nicht allzu weit. Hier muss architektonisch noch was drauf und idealerweise würde man gleich auch noch den N5 nutzen.
Für ein vollständiges Bild noch ein Blick auf den ursprünglich veröffentlichten A100 mit 108 SMs und 40 GiB:
FP32 = 19,5 TFlops
FP64 = 9,7+ TFlops *)
BF16 = 312 TFlops
INT8 = 624 TOPS
*) Das "+" resultiert hier daraus, dass die Tensor Cores v3 ebenso über FP64-MMA-Funktionalität verfügen und im Peak bis zu 19,5 TFlops in FP64 erreichen. Die Leistung wird man zweifellos nie vollumfänglich in einen Algorithmus einbauen können, aber nVidia's Libs sind darauf ausgelegt die Tensor Cores wenn möglich auch für FP64 zu nutzen, so dass man im Idealfall den Basis-Peakwert von 9,7 TFlops noch erweitern kann.
Und nein, wenig verwunderlich ist einzig, dass du wieder der Meinung bist, dass hier ein x-beliebiger Konkurrent deines Lieblingsbrands in den Himmel gelobt wird. Das ist schlicht symptomatisch für dich, dass du überall Feindbilder siehst. Das hier ist nichts weiter als die Wiedergabe der Leistungswerte, soweit bekannt, geteasert und kolportiert, nicht mehr und nicht weniger.
Fakt ist zur Mi200 wissen wir nur, dass sie aus 2 Chiplets besteht. Was diese für Änderungen erfahren haben und welche Leistung sie bringen wissen wir nicht. Aber gut, dass du dann schon mal daraus ableiten kannst, dass das nichts wird.
Ich sehe ehrlich gesagt nicht, dass die Xe ihren Konkurrenten deutlich überlegen sein wird, sondern, dass wie in der Vergangenheit auch, wohl jeder seinen Anwendungsfall haben wird, wo er besser und schlechter wie die Konkurrenz ist und es sich die Waage halten wird.
Aber die Entscheidungsträger von Frontier waren bestimmt nur Deppen und haben sich für das deutlich unterlegene Design entschieden.
Soweit man es zur MI200 weiß, wird sich das leistungstechnisch grob verdoppelt zzgl. architektonischer Verbesserungen. Weiterhin "weiß" man gemäß bisheriger Leaks, dass sich an der relativen AI-Leistung im Design anscheinend nicht allzu viel ändern wird, d. h. man wird es vermutlich selbst schwer haben bzgl. nVidia's A100 in diesem Bereich (der architektonische FP16-Durchsatz soll angeblich unverändert bleiben, einzig das BF16 scheint man nun von 1/2 auf 1, sprich auf ein 1:1-Verhältnis anzuheben.).
Und schon wieder muss man sich fragen, warum du es für notwendig erachtest unbeteiligte Dritte zu beleidigen. Es mag ja sein, dass du wirtschaftlich zu unbedarft bist um zu verstehen, dass viel Faktoren bei einer derartigen Anschaffung eine Rolle spielen und nicht nur absolute Leistung, aber es macht nun wirklich wenig Sinn jedes Mal anderen Dummheit zu unterstellen.
Entsprechend weiß man jetzt schon, dass Ponte Vecchio sich im oberen FP64-Bereich bewegt, der für die MI200 überhaupt theoretisch infrage kommt.
Und darüber hinaus hast du bei deiner ganzen Paranoia meine Aussage zu Perf/Watt gleich komplett ignoriert, vermutlich weil du mal wieder nur rot gesehen hast und es dir gerade nicht in deine eingefahrene Schiene passte.
Aktuell weiß man weder was zur generellen Effizienz der Architektur noch zum konkreten Fertigungsprozess (N7, N6, N5 ?), d. h. der Punkt Perf/Watt ist immer noch weitestgehend offen und in einer derartigen Betrachtung könnte CDNA2 imme rnoch gut dastehen. Wobei man letzten Endes hier aber auch keine Wunder erwarten darf, denn Xe's Compute Tile wird bereits im N5 gefertigt.
Es steht die Aussage von intel im Raum, dass sie 45 Tflops bei FP32 schaffen und das habe ich mit der Mi100 verglichen, da die Mi200 ja angeblich aus zweich Chiplets bestehen soll und man die Leistung schon mit zwei mal Mi100 übertreffen würde, nicht mehr und nicht weniger.
Andere Vergleichswerte hab ich leider keine gefunden, sonst hätte man die im Vergleich zur bestehenden Konkurrenz einordnen können, nur da man nicht weiß, was die neuen leisten werden, fraglich.
Aber da intel selbst den Wert bei FP32 angibt und du das Design ja so abfeierst, finde ich das ehrlich gesagt etwas enttäuschend und bin gespannt, welcher der drei Ableger in welchem Bereich vorne sein wird.
Fakt ist zur Mi200 wissen wir nur, dass sie aus 2 Chiplets besteht. Was diese für Änderungen erfahren haben und welche Leistung sie bringen wissen wir nicht. Aber gut, dass du dann schon mal daraus ableiten kannst, dass das nichts wird.
Ich sehe ehrlich gesagt nicht, dass die Xe ihren Konkurrenten deutlich überlegen sein wird, sondern, dass wie in der Vergangenheit auch, wohl jeder seinen Anwendungsfall haben wird, wo er besser und schlechter wie die Konkurrenz ist und es sich die Waage halten wird.
Aber die Entscheidungsträger von Frontier waren bestimmt nur Deppen und haben sich für das deutlich unterlegene Design entschieden.
Mit Blick auf Hopper kann man derzeit noch gar nichts sagen, nur dass nVidia sich sicherlich nicht die Butter vom Brot nehmen lassen will und hier könnte man swecks maximaler Skalierungsmöglichkeit gar u. U. noch auf den N4 setzen. Man wird sehen, wie sich das in 2Q22 darstellen wird.
MSI Arc 1900K 16GB, Gigabyte Arc 1800K 12GB, etc.
Wobei ich nicht verstehe, wieso sich intel im HPC Bereich so feiert, sie müssen sich ja erstmal gegen die neuen Lösungen der Konkurrenz behaupten und ich bezweifle, dass sich nvidia die Butter vom Brot wird nehmen lassen.
Auch AMD sehe ich in der FP32 Rechenleistung vorne. Bereits die Mi100 schafft 23,1 Tflops und da bei CDNA2 ja zwei Chiplets zum Einsatz kommen werden, sind wir ja schon wenn man die Mi100 nimmt bei 46 und ich bezweifle doch sehr, dass es keine Verbesserung geben wird.
Ist aufjedenfall spannend, wenn dann alle drei die Karten auf dem Tisch haben, bisher ist ja nur intel sehr fleißig mit dem Marketing. Ist jetzt die Frage ist es gut, dass die anderen beiden schweigen oder eher schlecht?
Darüber hinaus haben die anderen Player aktuell nicht viel zu erklären. nVidia's Hopper wird voraussichtlich erst zur nächsten GTC vorgestellt und AMD ist gerade in den Vorbereitungen seine MI200 auszuliefern, die jedoch vorerst größtenteils and den Frontier gehen dürfte. Wenn die das Design offiziell freigeben, werden die dieses sicherlich auch in größerer Runde vorstellen und das wird absehbar noch in diesem Jahr geschehen (denn man darf annehmen, dass der Frontier sich schon mit ersten Testergebnissen in der November-Liste der Top500 zeigen wird).
Darüber hinaus, der MI100 ist hier übrigens das vollkommen falsche Vergleichsobjekt, da das mit Ponte Vecchio nicht einmal ansatzweise vergleichbar ist. Hier fehlt es an allem und btw. FP32 ist nicht wirklich relevant für ein HPC-Design. Xe-HPC wird augenscheinlich selbst die MI200 leistungstechnisch in allen relevanten Belangen übertreffen, stellenweise gar deutlich und zudem scheint sich nun überraschenderweise herauszustellen, dass Xe-HPC anscheinend dennoch eine vollwertige GPU-Architektur ist, d. h. die kann man selbst fürs Cloud-basierte Rendering verwenden (Virtualisierung/Partitionierung ist on-board), da die auch über Raytracing-Einheiten verfügt.
Je nachdem welchen Node der MI200 verwendet, könnte es aber sein, dass das Design in einer Perf/Watt-Betrachtung noch mithalten können wird (immerhin soll ein Ponte Vecchio-Package 600 W ziehen dürfen).
Mit Blick auf Hopper kann man derzeit noch gar nichts sagen, nur dass nVidia sich sicherlich nicht die Butter vom Brot nehmen lassen will und hier könnte man swecks maximaler Skalierungsmöglichkeit gar u. U. noch auf den N4 setzen. Man wird sehen, wie sich das in 2Q22 darstellen wird.
MfG
Raff
Jetzt zum eigentlichen Thema ^^
Nach Rocket Lake muss Intel sich bei mir erstmal wieder rehabilitieren. Die CPUs haben mich so bitter enttäuscht das ich von Intel erstmal gar nichts mehr erwarte.
MfG
Raff
Wirklich, versuch das mal durchzuargumentieren, ich werde es dir problemlos widerlegen.