Intel Architecture Day 2021: Technik-Details zu Xe, Arc und dem Multi-Chip-Monster Ponte Vecchio

Auf dem just abgehaltenen Architecture Day gab Halbleitergigant Intel einige Fakten zu seinem ambitionierten Xe-Projekt preis. PCGH war selbstverständlich anwesend und fasst die ersten Informationen zu den GPU-Interna von Xe HPG/HPC zusammen. Vorhang auf für Alchemist alias Arc - und das Profi-Schlachtschiff Ponte Vecchio!

News 19.08.2021 um 15:00 Uhr Raffael Vötter Als bevorzugte Quelle auf Google hinzufügen

Quelle: Intel (Screenshot: PCGH)

Auf dieser Seite

1 Unter der Xe-Haube
1. 1.1 Xe HPG: High Performance Gaming
2. 1.2 Xe HPC: High Performance Computing
2 Ponte Vecchio
3 Ausblick: Arc Gaming-Grafikkarten

Der 19. August ist ein besonderes Datum für Intel. Vor genau 22 Jahren verkündete der Prozessor-Marktführer seinen Rückzug aus dem Geschäft der dedizierten Grafikkarten. Richtig gelesen, Intel zankte sich eineinhalb Jahre mit 3dfx, Ati, Nvidia, Matrox, S3 & Co., räumte das Feld aufgrund des überschaubaren Erfolgs jedoch wieder. Kurz danach verschwanden auch die meisten anderen 3D-Pioniere.

Sieht man vom Projekt Larrabee ab, war es lange still um Intels Grafik-Ambitionen. Damit ist nun Schluss: Die Kalifornier arbeiten seit rund einer halben Dekade an "Xe", einer von Grund auf neuen, hochgradig skalierbaren GPU-Architektur. Xe steht für einen Neustart, den sich Intel einiges kosten lässt. Einige der hellsten Köpfe der Halbleiterindustrie tüfteln in den Intel-Laboren überall auf der Welt, angeführt vom Ex-Radeon-Chef Raja Koduri. Dieser verkündete gestern sichtlich stolz, dass das Projekt die Zielgerade ansteuert. Anfang 2022 erscheinen nicht nur die ersten Gaming-Grafikkarten auf Xe-Basis, sondern auch diverse andere Super(computing)lative. In diesem Artikel geht es um die Grafik-Innovationen - alles Wissenswerte um die CPU-Fortschritte lesen Sie im Artikel Intel Architecture Day 2021: So arbeitet Alder Lake.

Quelle: Intel (Screenshot: PCGH) Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (196)

Unter der Xe-Haube

"Intel hatte fast eine Dekade lang ein Problem." Zugegeben, wir reißen Raja Koduris Worte aus dem Zusammenhang, sie passen aber zu gut, um sie liegenzulassen. Während sich Intels Grafik-Guru auf den Rückstand der Rechenleistung gegenüber dem (nicht explizit genannten) Mitbewerber Nvidia bezieht, lässt sich die Aussage universell für den Mangel einer konkurrenzfähigen GPU-Architektur anwenden. Die Messlatte war hoch, sodass Intel einen wahren Moonshot brauchte - ein ehrgeiziges Projekt, das alle Probleme auf einmal beseitigen kann. Ob das in der Praxis tatsächlich klappt, muss sich erst zeigen, die Intel-Verantwortlichen sind sich ihrer Sache jedoch sicher: Xe HPC, kurz für High Performance Computing, soll Nvidias Top-Lösungen im Profi-Bereich schlagen. Um das zu erreichen, zieht Intel alle verfügbaren Register.

Xe HPG: High Performance Gaming

Widmen wir uns aus naheliegenden Gründen zunächst den Gaming-Ablegern, welche Intel als Xe HPG bezeichnet - oder neuerdings und für Spieler deutlich greifbarer als Alchemist. Erste Gaming-Grafikkarten mit Alchemist-GPU sollen im ersten Quartal 2022 unter der Marketing-Bezeichnung "Arc" erscheinen. 2022 heißt es folglich nicht mehr bloß "Radeon gegen Geforce", sondern vor allem "Arc gegen den Rest".

Bisher sprach man im Kontext der Intel-Grafikchips von Execution Units, kurz EU. Xe räumt damit auf, fortan heißt dieses kleine und fortschrittlich ausgelegte GPU-Untermodul Xe Core. Im Falle von Xe HPG enthält jeder Xe Core 16 Vector-Engines und 16 Matrix-Engines, die notwendigen Load-/Store-Einheiten, den First-Level- und Instruction Cache. Während sich die Vektor-Einheiten um typische Shader-Berechnungen kümmern, wie sie auch Spiele erfordern, entsprechen die Matrix-Einheiten Nvidias Tensor-Cores. Intel hat damit im Gaming-Bereich Ähnliches vor, nämlich Xe-Super-Sampling - alle bekannten Informationen zu XeSS lesen Sie hier. Wie viele FP32-ALUs jede Vektor-Einheit beinhaltet, ist derzeit unbekannt (unser Tipp: 8).

Quelle: Intel (Screenshot: PCGH) Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (198)
Wie AMDs Compute Units und Nvidias Shader-Multiprozessoren sind auch Intels Xe Cores Rudeltiere. Finden sich mehrere Xe Cores zusammen, bilden sie zusammen ein sogenanntes Render Slice (Stück/Scheibe). Im Falle von Xe HPG besteht ein Slice aus vier Xe-Cores, ein jeder mit anschließender Raytracing-Einheit sowie acht Textureinheiten, einer Geometrie- und Rasterizer-Unit sowie insgesamt 16 ROPs. Intel gibt an, dass jeder Raytracing-Kern drei Funktionen beherrscht: Ray Traversal, Triangle Intersection und Bounding Box Intersection. Die Tatsache, dass die Basisstruktur, die Bounding Volume Hierarchy (BVH), von Intels Raytracing-Kernen beschleunigt wird, lässt trotz der zahlenmäßig wenigen Einheiten aufhorchen. Dieses Feature beherrscht bisher nur Nvidia, AMDs RDNA-2-Chips führen diese Berechnungen auf den regulären Shader-Einheiten aus, was Leistung kostet.

Zusammen mit einem einzelnen, mutmaßlich mächtigen Dispatcher/Scheduler sowie anschließendem Level-2-Cache ergibt sich ein Konstrukt, das am ehesten mit einem Nvidia Graphics Processing Cluster (GPC) vergleichbar ist. Intel zeigt in der Präsentation einen Xe-HPG-Grafikchip mit acht Render-Slices, die sich gemeinsam und angebunden über ein Memory Fabric eine bisher unbekannte Menge an Level-2-Cache teilen. Möglich sind 4 oder 8 MiByte, diese Details verschweigt die Präsentation aber ebenso wie die Anzahl und Breite der Speicher-Controller. Bislang geht man von GDDR6-Support aus, doch Details bleibt Intel schuldig. Immerhin die Fertigung des Rechenkerns ist offiziell bestätigt: Xe HPG läuft im N6 (Node 6) bei der taiwanischen Foundry TSMC vom Band. Intel gibt an, dass Xe HPG (DG2) gegenüber Xe LP (DG1/Mobile) große Sprünge macht, Takt und Effizienz seien jeweils um den Faktor ~1,5 höher.

Quelle: Intel (Screenshot: PCGH) Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (197)

Xe HPC: High Performance Computing

Die Profi-Variante von Xe setzt andere Schwerpunkte als das Gaming-Produkt - AMD und Nvidia verfahren genauso. Hier zählen vor allem die wissenschaftlichen Berechnungen, angefangen bei simplen Integer-Formaten für Deep Learning, bis hin zu Double Precision. Im Falle von Xe HPC enthält jeder Xe Core nur 8 Vector-Engines und 8 Matrix-Engines (dafür mit doppelter Breite ggü. HPG), Load-/Store-Einheiten sowie einen mit 512 KiByte sehr üppigen First-Level- und Instruction Cache. Gleich ist die einfach vorhandene Raytracing-Einheit pro Xe Core. Die von den Matrix-Units unterstützten Formate TF32, FP16, BF16 und INT8 erinnern nicht zufällig an den Ampere GA100, schließlich will Intel mit Xe HPC im Profi-Segment angreifen. Wie üblich, berechnen die Matrizenmultiplikatoren besagte Datenformate um Vielfache schneller als die Vektor-Einheiten, welche pro Takt 256 FP32- oder FP64-Operationen stemmen - die volle FP64-Rate macht deutlich, dass es sich um eine Profi-GPU handelt. Weniger anspruchsvolle FP16-Kalkulationen erfolgen (wie bei AMDs Navi-Chips) unterdessen mit einer 2:1 Rate.

Im Falle von Xe HPC besteht ein Slice aus 16 Xe-Cores sowie insgesamt 8 MiByte L1-Zwischenspeicher - hier wird Intel deutlich konkreter als beim Gaming-Derivat. Bis zu vier HPC-Slices lassen sich zu einem Stack (Stapel) zusammenschließen, woraus sich 64 Xe-Kerne und 64 Raytracing-Einheiten ergeben. Wie beim Gaming-Chip teilt sich auch ein HPG-Stack über ein Memory Fabric einen Level-2-Cache (unbekannter Größe). Die Kommunikation nach draußen erfolgt über vier Speicher-Controller, welche High Bandwidth Memory gemäß HBM2e-Norm ansteuern. Und natürlich lässt sich auch ein Stack nochmals verheiraten - zu einem 2er-Stack mit 8 Slices, 128 Rechenmodulen sowie acht Speicher-Controllern. Dies wird erst mithilfe von Intels EMIB-Packaging möglich.

Ponte Vecchio

Im Grunde haben wir die wohl beeindruckendste Konstruktion bereits vorweg genommen. Gemeint ist Ponte Vecchio, die wohl komplexeste Sammlung von Mikrochips auf einem Substrat. Das System on a Chip (SOC) besteht aus mehr als 100 Milliarden Transistoren mit sage und schreibe 47 verschiedenen Komponenten (Tiles), welche mit fünf verschiedenen Fertigungsverfahren (Nodes) hergestellt, gestapelt und durchkontaktiert werden. Konkret genannt werden drei Fertigungsarten: Das Compute Tile nutzt TSMCs N5 (Node 5), das Base Tile nutzt die Fertigung Intel 7 und das Link Tile entstammt TSMCs N7 (Node 7). Die Skalierbarkeit erlaubt es Intel, die Leistung(saufnahme) beinahe beliebig zu skalieren und somit Kundenwünsche zu erfüllen. Das derzeit im A0-Stepping lauffähige SOC erreicht laut Intel eine Rechenleistung von 45 TFLOPS bei einfacher Präzision - das ist mehr, als vor einigen Monaten noch zu lesen war; zwischenzeitlich wurde auch die Fertigung verfeinert.

Quelle: Intel (Screenshot: PCGH) Intel Architecture Day 2021 Intel Xe Arc Gaming GPUs Pressdeck Full Presentation (201)

Ausblick: Arc Gaming-Grafikkarten

Zwar gab Intel sehr viele Informationen und eine ungewohnt detaillierte Roadmap der zukünftigen Pläne preis, viele wichtige Parameter sind jedoch unbekannt. Da wären die Taktraten, die Leistungsaufnahme, die Schlagkraft pro Recheneinheit und viele weitere Dinge, die eine Grafikkarte auszeichnen. Ein gutes halbes Jahr vor dem Marktstart ist es für die meisten dieser Informationen noch zu früh, derzeit werden die ersten Samples an Partner und potenzielle Kunden verteilt. Auch die Treiber-Entwicklung läuft auf Hochtouren; Intel gibt an, dass man den Core Driver signifikant überarbeitet habe. Neben der Hardware dürfte dessen Qualität zu den wichtigsten Faktoren gehören, wie gut die Arc-Grafikkarten bei der Kundschaft ankommen.

Wir gehen davon aus, dass Intel in den kommenden Wochen und Monaten häppchenweise weitere Informationen veröffentlichen wird, um das Interesse am Kochen zu halten. Der nächste Halt für größere Informations-Brocken dürfte das Innovation Event sein, das Intel am 27. und 28. Oktober abhalten wird. PCGH bleibt selbstverständlich am Ball und wird über alle Entwicklungen rund um Xe/Arc berichten. Was halten Sie von Intels Offensive? Diskutieren Sie mit! Die 195 Seiten starke Präsentation aller Intel-Neuheiten finden Interessenten in der Bildergalerie.

Bildergalerie

Artikel teilen

Intel Architecture Day 2021: Technik-Details zu Xe, Arc und dem Multi-Chip-Monster Ponte Vecchio Auf dem just abgehaltenen Architecture Day gab Halbleitergigant Intel einige Fakten zu seinem ambitionierten Xe-Projekt preis. PCGH war selbstverständlich anwesend und fasst die ersten Informationen zu den GPU-Interna von Xe HPG/HPC zusammen. Vorhang auf für Alchemist alias Arc - und das Profi-Schlachtschiff Ponte Vecchio!

Per E-Mail versenden

- Kommentare (11)
  Zur Diskussion im Forum
  
  Von gerX7a BIOS-Overclocker(in)
  
  Zitat von Bärenmarke
  
  Richtig lesen will gelernt sein, aber wundert mich jetzt ehrlich gesagt auch mal wieder weniger, dass intel mal wieder in den Himmel gelobt wird.
  Es steht die Aussage von intel im Raum, dass sie 45 Tflops bei FP32 schaffen und das habe ich mit der Mi100 verglichen, da die Mi200 ja angeblich aus zweich Chiplets bestehen soll und man die Leistung schon mit zwei mal Mi100 übertreffen würde, nicht mehr und nicht weniger.
  Andere Vergleichswerte hab ich leider keine gefunden, sonst hätte man die im Vergleich zur bestehenden Konkurrenz einordnen können, nur da man nicht weiß, was die neuen leisten werden, fraglich.
  Aber da intel selbst den Wert bei FP32 angibt und du das Design ja so abfeierst, finde ich das ehrlich gesagt etwas enttäuschend und bin gespannt, welcher der drei Ableger in welchem Bereich vorne sein wird.
  
  Die "> 45 TFlops" beziehen sich gerade mal auf ein A0-Sample, d. h. das wird offensichtlich noch etwas mehr werden. Weitaus Wesentlicher ist jedoch, dass das Design FP32 nur als eine Art Kompatibilitätsmodus implementiert und dies voraussichtlich über die FP64-Einheiten mitberechnet wird, denn in dem Design haben FP32 und FP64 ein 1:1 Durchsatzverhältnis, d. h. die Aussage "> 45 TFlops" gilt auch gleichermaßen für den FP64-Durchsatz, d. h. bereits der für das A0-Sample geteaserte Wert ist bereits viermal so hoch wie bei der MI100.
  Nimmt man "nur" 45,0 TFlops als FP32-Messergebnis des A0-Samples an und ignoriert das Größer-Zeichen und nimmt die Durchsatzwerte der Architektur von Sheet 170, dann erhält man folgende Leistungswerte:
  Ponte Vecchio A0-Sample , rd. 1,37 GHz
  
  FP64 & FP32 = 45,0 TFlops (per Definition)
  BF16 ~ 720 TFlops
  INT8 ~ 1440 TOPS (bzw. 1,4 PetaOps)
  
  Zum Vergleich die MI100:
  
  FP32 = 23,1 TFlops
  FP64 = 11,5 TFlops
  BF16 = 92,3 TFlops
  INT8 = 184,6 TOPS
  
  Mit einer einfachen Verdoppelung bei CDNA2 käme AMD also nicht allzu weit. Hier muss architektonisch noch was drauf und idealerweise würde man gleich auch noch den N5 nutzen.
  Für ein vollständiges Bild noch ein Blick auf den ursprünglich veröffentlichten A100 mit 108 SMs und 40 GiB:
  
  FP32 = 19,5 TFlops
  FP64 = 9,7+ TFlops *)
  BF16 = 312 TFlops
  INT8 = 624 TOPS
  
  *) Das "+" resultiert hier daraus, dass die Tensor Cores v3 ebenso über FP64-MMA-Funktionalität verfügen und im Peak bis zu 19,5 TFlops in FP64 erreichen. Die Leistung wird man zweifellos nie vollumfänglich in einen Algorithmus einbauen können, aber nVidia's Libs sind darauf ausgelegt die Tensor Cores wenn möglich auch für FP64 zu nutzen, so dass man im Idealfall den Basis-Peakwert von 9,7 TFlops noch erweitern kann.
  
  Und nein, wenig verwunderlich ist einzig, dass du wieder der Meinung bist, dass hier ein x-beliebiger Konkurrent deines Lieblingsbrands in den Himmel gelobt wird. Das ist schlicht symptomatisch für dich, dass du überall Feindbilder siehst. Das hier ist nichts weiter als die Wiedergabe der Leistungswerte, soweit bekannt, geteasert und kolportiert, nicht mehr und nicht weniger.
  
  Zitat von Bärenmarke
  
  Ach gut, dass du das ohne Offenlegung der Daten schon weißt, das die Xe natürlich in allen Belangen überlegen sein wird, aber wen wundert das eigentlich noch.
  Fakt ist zur Mi200 wissen wir nur, dass sie aus 2 Chiplets besteht. Was diese für Änderungen erfahren haben und welche Leistung sie bringen wissen wir nicht. Aber gut, dass du dann schon mal daraus ableiten kannst, dass das nichts wird.
  Ich sehe ehrlich gesagt nicht, dass die Xe ihren Konkurrenten deutlich überlegen sein wird, sondern, dass wie in der Vergangenheit auch, wohl jeder seinen Anwendungsfall haben wird, wo er besser und schlechter wie die Konkurrenz ist und es sich die Waage halten wird.
  Aber die Entscheidungsträger von Frontier waren bestimmt nur Deppen und haben sich für das deutlich unterlegene Design entschieden.
  
  Lol, und du meinst, du bist da in diesem Sinne auch nur einen Deut besser, wo du doch anscheined mit absoluter Gewissheit zu wissen scheinst, dass diese Annahe falsch ist? Ach muss das schön sein, zu wissen, dass man immer Recht hat.
  
  Soweit man es zur MI200 weiß, wird sich das leistungstechnisch grob verdoppelt zzgl. architektonischer Verbesserungen. Weiterhin "weiß" man gemäß bisheriger Leaks, dass sich an der relativen AI-Leistung im Design anscheinend nicht allzu viel ändern wird, d. h. man wird es vermutlich selbst schwer haben bzgl. nVidia's A100 in diesem Bereich (der architektonische FP16-Durchsatz soll angeblich unverändert bleiben, einzig das BF16 scheint man nun von 1/2 auf 1, sprich auf ein 1:1-Verhältnis anzuheben.).
  Und schon wieder muss man sich fragen, warum du es für notwendig erachtest unbeteiligte Dritte zu beleidigen. Es mag ja sein, dass du wirtschaftlich zu unbedarft bist um zu verstehen, dass viel Faktoren bei einer derartigen Anschaffung eine Rolle spielen und nicht nur absolute Leistung, aber es macht nun wirklich wenig Sinn jedes Mal anderen Dummheit zu unterstellen.
  
  Zitat von Bärenmarke
  
  Man kann zur Mi200 und zur Nvidia Lösung nichts sagen, da die Infos schlicht und ergreifend fehlen. Und das CDNA2 nach Ryzen und RDNA ebenfalls sehr effizient sein wird, liegt eigentlich ziemlich auf der Hand...
  
  Zur A100 und MI100 weiß man schon alles relevante, Hopper ist noch zu weit weg und bei der MI200 hält man zurzeit noch den Deckel drauf, obwohl die bereits an ausgewählte ausgeliefert wird. Was man jedoch durchaus kann, ist von den bekannten Systemen zurückrechnen, so bspw. von Australiens Setonix. Die Zusammensetzung deutet grob auf eine FP64-Leistung von etwa 40 - 50 TFlops pro Karte hin, was im besseren Fall grob gleichwertig sein könnte. Bzgl. der AI-Performance, wie schon erklärt, scheint es bisher eher darauf hinauszulaufen, dass man mit der Konkurrenz nicht mithalten können wird.
  
  Entsprechend weiß man jetzt schon, dass Ponte Vecchio sich im oberen FP64-Bereich bewegt, der für die MI200 überhaupt theoretisch infrage kommt.
  
  Und darüber hinaus hast du bei deiner ganzen Paranoia meine Aussage zu Perf/Watt gleich komplett ignoriert, vermutlich weil du mal wieder nur rot gesehen hast und es dir gerade nicht in deine eingefahrene Schiene passte.
  Aktuell weiß man weder was zur generellen Effizienz der Architektur noch zum konkreten Fertigungsprozess (N7, N6, N5 ?), d. h. der Punkt Perf/Watt ist immer noch weitestgehend offen und in einer derartigen Betrachtung könnte CDNA2 imme rnoch gut dastehen. Wobei man letzten Endes hier aber auch keine Wunder erwarten darf, denn Xe's Compute Tile wird bereits im N5 gefertigt.
  
  Zitieren
  
  Von gerX7a BIOS-Overclocker(in)
  
  Zitat von Bärenmarke
  
  Richtig lesen will gelernt sein, aber wundert mich jetzt ehrlich gesagt auch mal wieder weniger, dass intel mal wieder in den Himmel gelobt wird.
  Es steht die Aussage von intel im Raum, dass sie 45 Tflops bei FP32 schaffen und das habe ich mit der Mi100 verglichen, da die Mi200 ja angeblich aus zweich Chiplets bestehen soll und man die Leistung schon mit zwei mal Mi100 übertreffen würde, nicht mehr und nicht weniger.
  Andere Vergleichswerte hab ich leider keine gefunden, sonst hätte man die im Vergleich zur bestehenden Konkurrenz einordnen können, nur da man nicht weiß, was die neuen leisten werden, fraglich.
  Aber da intel selbst den Wert bei FP32 angibt und du das Design ja so abfeierst, finde ich das ehrlich gesagt etwas enttäuschend und bin gespannt, welcher der drei Ableger in welchem Bereich vorne sein wird.
  
  Die "> 45 TFlops" beziehen sich gerade mal auf ein A0-Sample, d. h. das wird offensichtlich noch etwas mehr werden. Weitaus Wesentlicher ist jedoch, dass das Design FP32 nur als eine Art Kompatibilitätsmodus implementiert und dies voraussichtlich über die FP64-Einheiten mitberechnet wird, denn in dem Design haben FP32 und FP64 ein 1:1 Durchsatzverhältnis, d. h. die Aussage "> 45 TFlops" gilt auch gleichermaßen für den FP64-Durchsatz, d. h. bereits der für das A0-Sample geteaserte Wert ist bereits viermal so hoch wie bei der MI100.
  Nimmt man "nur" 45,0 TFlops als FP32-Messergebnis des A0-Samples an und ignoriert das Größer-Zeichen und nimmt die Durchsatzwerte der Architektur von Sheet 170, dann erhält man folgende Leistungswerte:
  Ponte Vecchio A0-Sample , rd. 1,37 GHz
  
  FP64 & FP32 = 45,0 TFlops (per Definition)
  BF16 ~ 720 TFlops
  INT8 ~ 1440 TOPS (bzw. 1,4 PetaOps)
  
  Zum Vergleich die MI100:
  
  FP32 = 23,1 TFlops
  FP64 = 11,5 TFlops
  BF16 = 92,3 TFlops
  INT8 = 184,6 TOPS
  
  Mit einer einfachen Verdoppelung bei CDNA2 käme AMD also nicht allzu weit. Hier muss architektonisch noch was drauf und idealerweise würde man gleich auch noch den N5 nutzen.
  Für ein vollständiges Bild noch ein Blick auf den ursprünglich veröffentlichten A100 mit 108 SMs und 40 GiB:
  
  FP32 = 19,5 TFlops
  FP64 = 9,7+ TFlops *)
  BF16 = 312 TFlops
  INT8 = 624 TOPS
  
  *) Das "+" resultiert hier daraus, dass die Tensor Cores v3 ebenso über FP64-MMA-Funktionalität verfügen und im Peak bis zu 19,5 TFlops in FP64 erreichen. Die Leistung wird man zweifellos nie vollumfänglich in einen Algorithmus einbauen können, aber nVidia's Libs sind darauf ausgelegt die Tensor Cores wenn möglich auch für FP64 zu nutzen, so dass man im Idealfall den Basis-Peakwert von 9,7 TFlops noch erweitern kann.
  
  Und nein, wenig verwunderlich ist einzig, dass du wieder der Meinung bist, dass hier ein x-beliebiger Konkurrent deines Lieblingsbrands in den Himmel gelobt wird. Das ist schlicht symptomatisch für dich, dass du überall Feindbilder siehst. Das hier ist nichts weiter als die Wiedergabe der Leistungswerte, soweit bekannt, geteasert und kolportiert, nicht mehr und nicht weniger.
  
  Zitat von Bärenmarke
  
  Ach gut, dass du das ohne Offenlegung der Daten schon weißt, das die Xe natürlich in allen Belangen überlegen sein wird, aber wen wundert das eigentlich noch.
  Fakt ist zur Mi200 wissen wir nur, dass sie aus 2 Chiplets besteht. Was diese für Änderungen erfahren haben und welche Leistung sie bringen wissen wir nicht. Aber gut, dass du dann schon mal daraus ableiten kannst, dass das nichts wird.
  Ich sehe ehrlich gesagt nicht, dass die Xe ihren Konkurrenten deutlich überlegen sein wird, sondern, dass wie in der Vergangenheit auch, wohl jeder seinen Anwendungsfall haben wird, wo er besser und schlechter wie die Konkurrenz ist und es sich die Waage halten wird.
  Aber die Entscheidungsträger von Frontier waren bestimmt nur Deppen und haben sich für das deutlich unterlegene Design entschieden.
  
  Lol, und du meinst, du bist da in diesem Sinne auch nur einen Deut besser, wo du doch anscheined mit absoluter Gewissheit zu wissen scheinst, dass diese Annahe falsch ist? Ach muss das schön sein, zu wissen, dass man immer Recht hat.
  
  Soweit man es zur MI200 weiß, wird sich das leistungstechnisch grob verdoppelt zzgl. architektonischer Verbesserungen. Weiterhin "weiß" man gemäß bisheriger Leaks, dass sich an der relativen AI-Leistung im Design anscheinend nicht allzu viel ändern wird, d. h. man wird es vermutlich selbst schwer haben bzgl. nVidia's A100 in diesem Bereich (der architektonische FP16-Durchsatz soll angeblich unverändert bleiben, einzig das BF16 scheint man nun von 1/2 auf 1, sprich auf ein 1:1-Verhältnis anzuheben.).
  Und schon wieder muss man sich fragen, warum du es für notwendig erachtest unbeteiligte Dritte zu beleidigen. Es mag ja sein, dass du wirtschaftlich zu unbedarft bist um zu verstehen, dass viel Faktoren bei einer derartigen Anschaffung eine Rolle spielen und nicht nur absolute Leistung, aber es macht nun wirklich wenig Sinn jedes Mal anderen Dummheit zu unterstellen.
  
  Zitat von Bärenmarke
  
  Man kann zur Mi200 und zur Nvidia Lösung nichts sagen, da die Infos schlicht und ergreifend fehlen. Und das CDNA2 nach Ryzen und RDNA ebenfalls sehr effizient sein wird, liegt eigentlich ziemlich auf der Hand...
  
  Zur A100 und MI100 weiß man schon alles relevante, Hopper ist noch zu weit weg und bei der MI200 hält man zurzeit noch den Deckel drauf, obwohl die bereits an ausgewählte ausgeliefert wird. Was man jedoch durchaus kann, ist von den bekannten Systemen zurückrechnen, so bspw. von Australiens Setonix. Die Zusammensetzung deutet grob auf eine FP64-Leistung von etwa 40 - 50 TFlops pro Karte hin, was im besseren Fall grob gleichwertig sein könnte. Bzgl. der AI-Performance, wie schon erklärt, scheint es bisher eher darauf hinauszulaufen, dass man mit der Konkurrenz nicht mithalten können wird.
  
  Entsprechend weiß man jetzt schon, dass Ponte Vecchio sich im oberen FP64-Bereich bewegt, der für die MI200 überhaupt theoretisch infrage kommt.
  
  Und darüber hinaus hast du bei deiner ganzen Paranoia meine Aussage zu Perf/Watt gleich komplett ignoriert, vermutlich weil du mal wieder nur rot gesehen hast und es dir gerade nicht in deine eingefahrene Schiene passte.
  Aktuell weiß man weder was zur generellen Effizienz der Architektur noch zum konkreten Fertigungsprozess (N7, N6, N5 ?), d. h. der Punkt Perf/Watt ist immer noch weitestgehend offen und in einer derartigen Betrachtung könnte CDNA2 imme rnoch gut dastehen. Wobei man letzten Endes hier aber auch keine Wunder erwarten darf, denn Xe's Compute Tile wird bereits im N5 gefertigt.
  
  Zitieren
  
  Von Bärenmarke BIOS-Overclocker(in)
  
  Zitat von gerX7a
  
  Darüber hinaus, der MI100 ist hier übrigens das vollkommen falsche Vergleichsobjekt, da das mit Ponte Vecchio nicht einmal ansatzweise vergleichbar ist. Hier fehlt es an allem und btw. FP32 ist nicht wirklich relevant für ein HPC-Design.
  
  Richtig lesen will gelernt sein, aber wundert mich jetzt ehrlich gesagt auch mal wieder weniger, dass intel mal wieder in den Himmel gelobt wird.
  Es steht die Aussage von intel im Raum, dass sie 45 Tflops bei FP32 schaffen und das habe ich mit der Mi100 verglichen, da die Mi200 ja angeblich aus zweich Chiplets bestehen soll und man die Leistung schon mit zwei mal Mi100 übertreffen würde, nicht mehr und nicht weniger.
  Andere Vergleichswerte hab ich leider keine gefunden, sonst hätte man die im Vergleich zur bestehenden Konkurrenz einordnen können, nur da man nicht weiß, was die neuen leisten werden, fraglich.
  Aber da intel selbst den Wert bei FP32 angibt und du das Design ja so abfeierst, finde ich das ehrlich gesagt etwas enttäuschend und bin gespannt, welcher der drei Ableger in welchem Bereich vorne sein wird.
  
  Zitat von gerX7a
  
  Xe-HPC wird augenscheinlich selbst die MI200 leistungstechnisch in allen relevanten Belangen übertreffen, stellenweise gar deutlich und zudem scheint sich nun überraschenderweise herauszustellen, dass Xe-HPC anscheinend dennoch eine vollwertige GPU-Architektur ist, d. h. die kann man selbst fürs Cloud-basierte Rendering verwenden (Virtualisierung/Partitionierung ist on-board), da die auch über Raytracing-Einheiten verfügt.
  
  Ach gut, dass du das ohne Offenlegung der Daten schon weißt, das die Xe natürlich in allen Belangen überlegen sein wird, aber wen wundert das eigentlich noch.
  Fakt ist zur Mi200 wissen wir nur, dass sie aus 2 Chiplets besteht. Was diese für Änderungen erfahren haben und welche Leistung sie bringen wissen wir nicht. Aber gut, dass du dann schon mal daraus ableiten kannst, dass das nichts wird.
  Ich sehe ehrlich gesagt nicht, dass die Xe ihren Konkurrenten deutlich überlegen sein wird, sondern, dass wie in der Vergangenheit auch, wohl jeder seinen Anwendungsfall haben wird, wo er besser und schlechter wie die Konkurrenz ist und es sich die Waage halten wird.
  Aber die Entscheidungsträger von Frontier waren bestimmt nur Deppen und haben sich für das deutlich unterlegene Design entschieden.
  
  Zitat von gerX7a
  
  Je nachdem welchen Node der MI200 verwendet, könnte es aber sein, dass das Design in einer Perf/Watt-Betrachtung noch mithalten können wird (immerhin soll ein Ponte Vecchio-Package 600 W ziehen dürfen).
  Mit Blick auf Hopper kann man derzeit noch gar nichts sagen, nur dass nVidia sich sicherlich nicht die Butter vom Brot nehmen lassen will und hier könnte man swecks maximaler Skalierungsmöglichkeit gar u. U. noch auf den N4 setzen. Man wird sehen, wie sich das in 2Q22 darstellen wird.
  
  Man kann zur Mi200 und zur Nvidia Lösung nichts sagen, da die Infos schlicht und ergreifend fehlen. Und das CDNA2 nach Ryzen und RDNA ebenfalls sehr effizient sein wird, liegt eigentlich ziemlich auf der Hand...
  
  Zitieren
  
  Von gerX7a BIOS-Overclocker(in)
  
  Zitat von Bunny_Joe
  
  Mich würde ja interessieren obs nur GPUs direkt von Intel geben wird oder ob sie auch mit Partnern zusammenarbeiten werden?
  
  MSI Arc 1900K 16GB, Gigabyte Arc 1800K 12GB, etc.
  
  MLiD erklärte, dass Intel min. mit einem exklusiven Partner für HPG zusammenarbeitet, der jedoch nicht zu den üblichen Verdächtigen gehört, was auch erklärt, warum man aus den Kreisen der GPU-Hersteller bisher kaum was zu Xe zu hören bekam.
  
  Zitat von Bärenmarke
  
  Da bin ich ja mal sehr gespannt, sobald es die ersten unabhängigen Tests geben wird.
  Wobei ich nicht verstehe, wieso sich intel im HPC Bereich so feiert, sie müssen sich ja erstmal gegen die neuen Lösungen der Konkurrenz behaupten und ich bezweifle, dass sich nvidia die Butter vom Brot wird nehmen lassen.
  Auch AMD sehe ich in der FP32 Rechenleistung vorne. Bereits die Mi100 schafft 23,1 Tflops und da bei CDNA2 ja zwei Chiplets zum Einsatz kommen werden, sind wir ja schon wenn man die Mi100 nimmt bei 46 und ich bezweifle doch sehr, dass es keine Verbesserung geben wird.
  Ist aufjedenfall spannend, wenn dann alle drei die Karten auf dem Tisch haben, bisher ist ja nur intel sehr fleißig mit dem Marketing. Ist jetzt die Frage ist es gut, dass die anderen beiden schweigen oder eher schlecht?
  
  Intel feiert sich wie alle anderen Hersteller auch, das ist völlig normales Marketing. Darüber hinaus haben sie dafür aber auch einen soliden Unterbau, denn technisch ist deren Design nicht nur kurz- sondern absehbar auch mittelfristig das fortschrittlichste Design am Markt.
  Darüber hinaus haben die anderen Player aktuell nicht viel zu erklären. nVidia's Hopper wird voraussichtlich erst zur nächsten GTC vorgestellt und AMD ist gerade in den Vorbereitungen seine MI200 auszuliefern, die jedoch vorerst größtenteils and den Frontier gehen dürfte. Wenn die das Design offiziell freigeben, werden die dieses sicherlich auch in größerer Runde vorstellen und das wird absehbar noch in diesem Jahr geschehen (denn man darf annehmen, dass der Frontier sich schon mit ersten Testergebnissen in der November-Liste der Top500 zeigen wird).
  Darüber hinaus, der MI100 ist hier übrigens das vollkommen falsche Vergleichsobjekt, da das mit Ponte Vecchio nicht einmal ansatzweise vergleichbar ist. Hier fehlt es an allem und btw. FP32 ist nicht wirklich relevant für ein HPC-Design. Xe-HPC wird augenscheinlich selbst die MI200 leistungstechnisch in allen relevanten Belangen übertreffen, stellenweise gar deutlich und zudem scheint sich nun überraschenderweise herauszustellen, dass Xe-HPC anscheinend dennoch eine vollwertige GPU-Architektur ist, d. h. die kann man selbst fürs Cloud-basierte Rendering verwenden (Virtualisierung/Partitionierung ist on-board), da die auch über Raytracing-Einheiten verfügt.
  Je nachdem welchen Node der MI200 verwendet, könnte es aber sein, dass das Design in einer Perf/Watt-Betrachtung noch mithalten können wird (immerhin soll ein Ponte Vecchio-Package 600 W ziehen dürfen).
  Mit Blick auf Hopper kann man derzeit noch gar nichts sagen, nur dass nVidia sich sicherlich nicht die Butter vom Brot nehmen lassen will und hier könnte man swecks maximaler Skalierungsmöglichkeit gar u. U. noch auf den N4 setzen. Man wird sehen, wie sich das in 2Q22 darstellen wird.
  
  Zitieren
  
  Von blautemple Kokü-Junkie (m/w)
  
  Zitat von PCGH_Raff
  
  Wow, dieses Interesse! Wie dem auch sei: Jetzt inklusive aller 195 Seiten Präsentation.
  
  MfG
  Raff
  
  Erstmal, super Artikel.
  
  Jetzt zum eigentlichen Thema ^^
  Nach Rocket Lake muss Intel sich bei mir erstmal wieder rehabilitieren. Die CPUs haben mich so bitter enttäuscht das ich von Intel erstmal gar nichts mehr erwarte.
  
  Zitieren
  
  Von CD LABS: Radon Project Lötkolbengott/-göttin
  
  Zitat von PCGH_Raff
  
  Wow, dieses Interesse! Wie dem auch sei: Jetzt inklusive aller 195 Seiten Präsentation.
  
  MfG
  Raff
  
  Dass hier kaum etwas zu geschrieben wird, verwundert mich auch....
  
  Zitat von PCGH_Raff
  
  Erstens ist längst raus, dass man mit Partnern mehr verkauft, (...)
  
  Nein, das ist nicht raus. Es gibt keine Erfahrungen, die sich auf die aktuelle Situation von Intel sinnvoll übertragen lassen würden und erst recht keine theoretischen Gesetzmäßigkeiten.
  Wirklich, versuch das mal durchzuargumentieren, ich werde es dir problemlos widerlegen.
  
  Zitat von PCGH_Raff
  
  (...) außerdem arbeitet Intel bereits bei DG1 mit Partnern zusammen (wenn auch wenige).
  
  Das hingegen halte ich für ein gewichtiges Indiz dafür, dass Intel mit Partnern zusammenarbeiten wird.
  
  Zitieren
  
  Direkt zum Diskussionsende