Meteor Lake: Intel fährt bereits Windows, Chrome und Linux hoch
Während der Besprechung der Quartalsergebnisse ließ CEO Pat Gelsinger verlautbaren, dass die Meteor-Lake-CPUs auf Intel-4-Basis erfolgreich Windows, Chrome und Linux hochgefahren haben. Schon 2021 wurde der Compute-Die für die 14. Core-Generation Meteor Lake fertiggestellt.
Nächstes Jahr wird nach Angaben von Intel die nächste CPU-Generation Meteor Lake den Markt unsicher machen und folgt damit Alder Lake aus dem vergangenen Jahr und Raptor Lake, welche dieses Jahr ihren Einstand feiern soll. Auch, wenn der Release noch ziemlich weit entfernt ist, so hat Intel es schon vollbracht, mit der Hilfe von Meteor Lake Betriebssysteme hochzufahren. "Meteor Lake auf Intel-4-Basis hat jetzt erfolgreich Windows, Chrome und Linux hochgefahren", erklärte Intel-CEO Pat Gelsinger im Rahmen der Quartalsergebnisverkündung. Dem fügte er hinzu: "Die Geschwindigkeit, mit der das Team diesen Meilenstein erreichen konnte, ist ein deutliches Zeichen für die Gesundheit von Meteor Lake und unserer Intel-4-Prozessortechnologie."
Meteor Lake in der Entwicklungsphase
Der Tape-In des Compute-Dies der 14. Core-Prozessorgeneration erfolgte bereits vergangenes Jahr, weshalb es zu diesem Zeitpunkt nur folgerichtig sei, die Meteor-Lake-CPUs in tatsächlichen Alltagssituationen zu testen, wie etwa beim Hochfahren von Betriebssystemen. Meteor Lake soll Intels erste Mainstream-PC-Plattform werden, die auf ein Multi-Chiplet-Design setzt. Das Schlüsselelement bei Meteor Lake ist der Compute-Die, der im Intel-4-Fertigungsprozess (7 nm) hergestellt wird und nach Angaben von Tom's Hardware über eine unbekannte Anzahl an Ocean-Cove-P- und E-Kernen verfügen soll.
Dazu passend: Intel Meteor Lake: GPU-Tiles sollen aus 3nm-Fertigung von TSMC stammen
Ansonsten gebe es noch einen GPU-Die und einen I/O-SoC-Die, wovon Zweiterer unter anderem diverse Controller (Speicher, PCI Express, Thunderbolt, etc.) beherbergen soll. Für diese Dies soll sowohl Intels 20A-Fertigungsverfahren als auch TSMCs externe Fertigung in 3 Nanometern vorgesehen sein. Die CPUs der 14. Core-Generation Meteor Lake werden laut Intel irgendwann im Jahr 2023 erscheinen, ein exakter Zeitraum ist dafür noch nicht genannt worden.
Quelle: via Tom's Hardware


Was wieder so ein wenig meine obige Aussage treffen würde, es wird viel erzählt und dann doch wieder nicht genutzt?
AMD verfolgt zurzeit einen etwas anderen Ansatz. Anstatt spezialisiertere *) Hardwareeinheiten erweitert man hier die ALUs um zusätzliche Funktionalität, sodass diese auch derartige Matrixoperationen effizienter ausführen können. Im Kontext der MI100 sprach man hier von der Matrix Core Technology. Vereinfacht gesprochen gibt es ein wenig mehr Verdrahtungen und diese helfen den Durchsatz derartiger Spezialoperationen etwas zu steigern, können aber nicht mit dedizierten Hardwareineheiten mithalten. **) AMDs Instinct-Karten sind aktuell bzgl. der FP64-Performance eine gute Wahl, sind aber bei ML-Workloads immer noch schnell genug, sodass man auch diese gelegentlich auf diesen laufen lassen kann. Würde man dagegen primär ML-Workloads für eine Ausschreibung ins Auge fassen, wird man immer eher zu nVidia und anderen Speziallösungen schauen und einzig der Preis würde aktuell die Instinct-Karten in einer Auswahl halten können, denn bspw. nVidia langt hier ordentlich zu. Eine H100 soll angeblich bei um die 30.000 US$ liegen, wobei das jedoch mehr über den Markt insgesamt als über nVidia aussagt.
*) Das "spezialisiert" sollte man bspw. im Kontext nVidia nicht zu eingeschränkt sehen, denn deren Tensor Cores sind mittlerweile für eine Vielzahl an Datentypen und Funktionen über die Jahre erweitert worden, sowohl mit Blick auf unterschiedliche ML-Algorithmen wie auch auf HPC mit Blick auf FP64. (Die Tensor Cores der ersten Generation hat nVidia bereits Ende 2017 mit Volta eingeführt.)
**) Eine weitere Analogie wäre SMT. Man will mehr Durchsatz, ein zweiter Rechenkern hilft und bietet potentiell den doppelten Durchsatz, benötigt aber auch die doppelte Chipfläche und zusätzliche Energie. SMT ist ein Mittelweg. Zusätzliche Verdrahtungen in Form hinzugefügter Schattenregister, Flags zum Taggen, einigen Caches, Thread-Management und dem Vervielfältigen von nur einigen wenigen, ausgewählten Funktionseinheiten und man erhält dennoch mehr Performance für einen Bruchteil der Kosten eines kompletten, zusätzlichen Rechenkerns. Zwar ist man weit von einem verdoppelten Durchsatz entfernt, benötigt aber auch nur einen Bruchteil mehr an Chipfläche und Logik und bei vielen Anwendungen überwiegt die Mehrperformance den Mehraufwand.
Für bestimmte Workloads jedoch ist der Bedarf ungebrochen hoch und ein "Mittelweg" wäre ein zu großer Kompriomiss und es helfen am Ende tatsächlich nur mehr Rechenkerne.
Einen vergleichbaren Ansatz zu CDNA verfolgt AMD zurzeit auch bei RDNA, d. h. etwas mehr Logik in den Shadern um derartige Operationen zusätzlich beschleunigen zu können aber keine dedizierten Hardwareeinheiten.
nVidia's und Intel's dedizierte Matrix-Einheiten haben dagegen als eigenständige Einheiten zudem den Vorteil, dass sie parallel zu den Shadern betrieben werden können. Der Nachteil ist natürlich, dass diese auch pauschal signifikant mehr Chipfläche belegen und wahrscheinlich auch trotz Power Gating auf das energetische Budget schlagen.
Für das was aktuell im Consumer-Segment jedoch sinnvoll benötigt wird, dürfte AMDs RDNA-Auslegung mehr als ausreichen. Zudem hat AMD bisher nicht die Marktanteile um ihre Consumer-Chips durch pauschal mehr Chipfläche in der Fertigung verteuern zu können. Man darf gespannt sein, ob was mit RDNA3 kommt, ich würde aber weiterhin davon ausgehen, dass AMD MMA-Operationen auch hier weiterhin auf den Shadern belassen wird, weil schlicht anderes derzeit wichtiger für ihre Produkte ist.
nVidia dagegen bedient mit seinen "Consumer-GPUs" ebenso den professionellen sowie Datacenter-Markt, muss also natürlichicherweise seine Chipdesigns etwas anders auslegen um möglichst effizient/kosten-/margenoptimiert fertigen zu können.
*) Eine ähnlich gelagerte, ältere Optimierung/Erweiterung der Shader ist die DP4A-Funktionalität, ein 4-element vector dot product. DP4A multipliziert INT8-Vektoren und akkumuliert diese in einem INT32, eine Funktionalität, die nVidia mit Pascal und AMD mit Vega10 einführte (wobei AMD den Begriff/Namen bisher nicht zu verwenden scheint).
Aktuell interessant ist diese mit Blick auf Intel's XeSS-Upscaling (mittels ML). Auf Intel-Hardware verwendet Intel seine eigenen, spezialisierten XMX-Einheiten, Tensor Core-Äquivalente, nur weniger funktionsreich. Zusätzlich bietet Intel einen Fallback auf eine Implementation, die für das Inferencing des neuronalen Netzes stattdessen auf DP4A zurückgreift, sodass kompatible Nicht-Intel-Hardware ebenfalls XeSS über die Shader prozessieren kann (hier dann komplett über die Shader). Frühe Performance-Diagramme zu XeSS von Intel zeigen nur geringe leistungstechnische Einbußen auf DP4A-Hardware (was für die Verbreitung von deren XeSS natürlich auch wichtig ist).
Den Umstand sollte man zudem nicht damit verwechseln, dass dedizierte HW-Einheiten "nichts" bringen. Es ist lediglich so, dass der Inferencing-Teil nur einen kleineren Teil des Upscaling-Algorithmus ausmacht. Entsprechend darf man jetzt spekulieren ob nVidia auch DLSS auf Fremdhardware freigeben könnte
Die Geburtsstunde von letzterer als neues und eigenständiges Fachgebiet war der Sommer 1956 am Dartmouth College, an dem McCarthy, Minsky, Shannon , Rochester, .... zusammenkamen. Wenig später bereute McCarthy jedoch, dass sein Namensvorschlag "Künstliche Intelligenz" für das neue Fachgebiet angenommen und etabliert wurde, da der häufig zu Missverständnissen führt.
Und spricht man im Sinne des Marketing und Vertriebs von KI bekommt das gleich noch eine gänzlich andere Dimension, da man damit vielfach zu suggerieren versucht auf magische Weise alle Probleme eines Kunden wie von Geisterhand zu lösen. Beispielsweise frühere komplexe Mail/CRM-Systeme routeten Anfragen aufgrund manuell eingestellter und aufwändig zu administrierender Regeln wie Absenderadresse, Domänen, bestimmten Schlagworten im Betreff oder dem Mailbody und optional gar noch gezielt verwendeten Tags in der Mail. Heute dagegen lernt das System automatisch was wie und wohin zu routen ist und macht schon automatisierte Vorschläge für Textbausteine für die Antwort-Mail, bestimmt die Dringlichkeit/Priorität, usw. Wie viel "KI" jedoch wirklich dahinter hängt, muss man aber im Detail evaluieren, denn wie ich schon mal in einem anderen Post schrieb, schmücken sich auch viele Unternehmen mit "KI", die keinerlei Technologie implementieren, die hierzu gezählt werden kann, sondern es handelt sich eher um althergebrachte, gepimpte Algorithmen. Wie anderswo auch wird im entsprechenden Kontext natürlich auch hier viel Schmu betrieben.
Und wenn man keinen differenzierten Blick darauf wirft, setzt üblicherweise unsere typische mediale Kost einem natürlich gänzlich andere Flausen und Erwartungshaltungen zu dem Begriff in den Kopf.
Nicht durchgesetzt hat sich zusätzlich zu betreibender und zu bezahlender Aufwand für eine dedizierte Karte, die sich rein auf schöner fahrende Fahrzeuge, ballistisch korrekter fliegende Objekte, usw. beschränkt und die sich daher absehbar nur seh langsam im Markt verbreiten würde und zum typischen Henne-Ei-Problem führt. Am Ende ein ähnliches Bild wie bspw. mit den letzten, komplexen Sound-Prozessoren und bspw. AMDs TrueAudio.
Das was man derzeit bieten kann ist offensichtlich gut genug für die breite Masse, die andere Prioritäten wie mehr grafische Qualität als deutlich wichtiger erachtet und daher eher auf "visuelle Reize" reagiert und entsprechend passt sich der Markt hier an.
Beispielsweise die Physikberechnungen machen typischerweise nur einen Bruchteil der gesamten Rechenlast einer Game-Engine aus und liegen typischerweise bei grob um die 10 %. Da könnte man leicht noch mehr auf modernen Systemen implementeieren und genauer simulieren lassen, nur läuft man dann gleich in das nächste Problem rein, nämlich dass sich ein Titel auf einem HighEnd-System komplett anders spielen würde als auf bspw. einer Konsole oder einem Entry-Level-PC und das fänden weder die Entwickler, noch deren Vertrieb/Marketing noch am Ende bspw. Sony/Microsoft lustig.
Ein Beispiel: Die aktuelle Konsolen-"HighEnd"-Generation, die noch über Jahre den Markt dominieren wird, verfügt gerade mal über acht langsame Zen2-Kerne, die auf der Microsoft-Konsole unter Vermeidung von AVX2 bestenfalls 3,8 GHz erreichen. Im Kontext dessen, was hier im Forum diskutiert wird also eine geradezu lahmer Esel. Auf aktuell hochkernigen und hochtaktenden CPUs könnte man da viel mehr asynchrone Physik-Threads parallel betreiben und die Spielewelt deutlich detailierter simulieren. Ein simples Beispiel wäre die Simulation einer Stadt wie in Cyberpunk 2077 mit massig Crowd. Mit mehr Ressourcen kann man die einzelnen Individuen bzgl. ihrer Ziele besser simulieren, die detailierter auf externe Reize reagieren und kann bspw. umfangreichere Kollisionserkennungen und Wegfindungen implementieren nicht nur relativ zur statischen Umgebung sondern auch zu anderen NPCs. Der Nebeneffekt wäre, da Publisher mit einem derartigen Entwicklungsaufwand (Toptitel kosten heutzutage 100+ Mio US$ in der Entwicklung) natürlich einen möglichst großen Markt abgrasen wollen, dass das Endergebnis auf dem HighEnd-PC viel glaubwürdiger wäre und sich besser, immersiver, was-auch-immer anfühlen würde. Selbst wenn man mit dem bisherig Gelieferten auf den Konsolen zufrieden war, würde das einen Keil zwischen die Plattformen treiben. Und von komplett neuen Spielmechaniken will ich erst gar nicht anfangen. Der gleiche Titel könnte sich auf einem HighEnd-PC wie ein gänzlich anderes Spiel anfühlen. Das will aber natürlich aus vertriebstechnischer Sicht "keiner".
An einem solchen Punkt sind wir gerade angekommen, mit der allmählichen Etablierung von 8 CPU-Kernen und der Verfügbarkeit umfangreich überarbeiteter neuer Engines, die diese neueren Plattformen effizienter nutzen können. (Letzteres spielt nicht nur auf die Unreal- oder Unity-Engine an, denn selbstredend auch die diversen Inhouse-Engines unterlaufen größere Überarbeitungen.) Das Grundlegende Problem bleib aber bestehen, denn auf bspw. einem 5950X mit einer 6900 XT könnte man, wenn man ähnlich gezielt auf derartige Leistungsreserven hin entwickeln würde wie auf den Konsolen natürlich weitaus mehr realisieren. Und in wenigen Monaten wird es mit Raptor Lake einen 24 Kerner im Consumer-Markt geben und mit einer RTX 4090 ein neues GPU-Topmodell, das gleich in vielerlei Hinsicht neue Maßstäbe setzen wird.
Und mit der sich verbreiternden HW-Basis werden auch die Anwendungen automatisch kommen.
In Games wird da über die Jahre sicherlich auch noch einges kommen, nur werden in diesem Kontext vornehmelich die Konsolen erst mal den Markt ausbremsen, so wie im vergangenen Jahrzehnt. Mit dem was man zu denen beworben hat und verspricht inkl. Raytracing hat man schon mehr oder weniger alle Ressourcen auf der Hardware vollends "vorverplant". Da bleibt kaum Raum für ein paar zusätzlich parallel laufenden NNs für "intelligentere" NPCs und bessere Wegfindung, etc., zumal hier 4K und mehr Fps auch wieder für die Masse das ausschalggebendere Kriterium sein dürften.
Anekdote am Rande: Schon vor Jahren erklärte einer der großen FahrSim-Entwickler mal (ich habe schon vergessen welcher es war, jedenfalls ein großer, bekannter) in einem Interview, dass sie für ihren damalig neuen Titel auch mit evolutionären Algorithmen experimentiert haben (kein ML) und damit sehr gute Erfolge verzeichnen konnten. Der Knackpunkt war nur, dass die NPC-Fahrer am Ende so gut fuhren, dass das "Spielen" schon in regelrechte Arbeit ausartete und eigentlich einen hochkonzentrierten, trainierten Rennsportler erforderte um da noch mitfahren zu können, also nichts, was man als Spiel der breiten Masse vorwerfen und wohlmöglich noch gewinnbringend verkaufen könnte.
Dagegen metallisch, glänzend, reflektierender, realistischer Lack geht natürlich immer und sorgt für einen WOW-Effekt.
Intels EMIB der aktuellen Generation ist bspw. AMDs aktuellem IF überlegen und soll ein Chiplet- bzw. Tile-basiertes Design ermöglichen, dass sich vielmehr nach einem monolitischen Design anfühlt, wobei das "Anfühlen" hier rein messtechnischer Natur ist und nichts mit bspw. übermäßigen Fps-Unterschieden in Games zu tun hat.
Beispielsweise zu Sapphire Rapids SP erklärt man, dass die Latenzen zwischen den Kernen und dem I/O mit ihrem EMIB weitaus homogener über die gesamte CPU hinweg sein sollen als auf den aktuellen Epyc's (Milan), was schlicht an deren Interconnect-Technologie liegt. Entsprechend darf man für Meteor Lake auch ein gutes Design erwarten. Und AMD schläft schließclich auch nicht und entwickelt in Verbindung mit Zen4 auch ihren IF weiter.
Will man das Gedankenspiel weiter treiben könnte man jedoch folgendermaßen fortfahren:
Meteor Laske wir mit Intel 4 einen Prozess nutzen, der dem aktuellen Intel 7 deutlich überlegen ist.
MTL wird umfangreiche überarbeitete Kernarchitekturen für die P- und E-Kerne für noch mehr IPC bieten.
EMIB und Foveros kommen nicht nur im Massenmarkt an sondern auch noch gleich in verbesserten Iterationen.
Hier nicht relevant aber MTL wird eine deutlich größere/leistungsstärkere i/tGPU, gefertigt in TSMCs N3 aufweisen,
Am Ende könnte man also spekulieren, selbst wenn es nicht vollständig kompensierbare Nachteile aufgrund des Aufbaus gibt, könnten die vielfältigen Zugewinne diese absehbar mit Leichtigkeit ausgleichen.
Darüber hinaus kommt hinzu, dass die Interconnect/Packaging-Technologien für Intel auch kein Neuland sind. Beispielsweise EMIB wird seit 2008 entwickelt, bspw. Kaby Lake-G nutzte es schon im Massenmarkt, Lakefield in 2019/20 war der Foveros-Testpilot, zugleich auch für Intel's Hybrid Technology, Sapphire Rapids SP nutzt EMIB für eine aus vier Tiles bestehende Server-CPU, die optional gar noch direkt HBM2 anbindet auf dem Package und der Beschleuniger Ponte Vecchio (Xe-HPC) hat bisher kein Gegenstück in der Industrie bzgl. der Fertigung und ist das mit Abstand komplexeste Design, dass gleich umfangreichen Gebrauch von EMIB und Foveros macht.
Zumindest bzgl. der aufgeteilten Fertigung gibt es jedenfalls keinen Grund hier irgendwelche Vorbehalte zu haben. Am Ende bleibt es aber, wie immer, bei einem Abwarten und Tee trinken bis die ersten Messergebnisse verfügbar sind ...
Nur erschließt sich mir für den normalen Home Desktop Nutzer hier keinen Sinn? Ich wüsste nicht, was ich damit anfangen sollte. Im Serversegment von beiden Herstellern mit Sicherheit sehr clever um das Produktportfolio zu erweitern, aber generell?
Wobei man hier auch sagen muss, dass intel extrem geschlafen hat. Sie haben Altera ja schon länger übernommen und hätten da wesentlich mehr drauß machen können um nvidia Parolie bieten zu können. Da FPGAs hier einfach überlegen sind (gibt es genügend Material im Netz darüber), nur muss man halt sehr viel in SW und Tooling investieren, wobei das nvidia ja auch getan hat.
Aber vermutlich hatte man das einfach nicht als wichtig genug erachtet gehabt, weil die Resourcen um dies auf die Beine zu stellen hätten sie ja gehabt und wären dann vermutlich auch deutlich Marktführer in diesem Segment.
Wobei ich da gleich mal eine interessante Frage habe, hat AMD auch solche Einheiten? Oder wie kann es sein, dass meine 6900XT derartig viel schneller als eine 3080 ist in der Berechnung bei Topaz? Nutzt Topaz hinterher gar nicht die Tensor Cores?
Was wieder so ein wenig meine obige Aussage treffen würde, es wird viel erzählt und dann doch wieder nicht genutzt?
War das nur eine zusätzliche Anmerkung oder verwechselst du hier was, denn mit Intelligenz oder gar Bewustsein hat ML nichts zu tun. (Auch wenn das in einzelnen aktuellen Applikationen stellenweise danach aussehen mag.)
Aber ja, deshalb dauert der Prozess eben 1.5 bis 2 Jahre