Samsung stattet HBM-Speicher mit künstlicher Intelligenz aus
Bei Samsung gibt es HBM2-Speicher künftig auch mit einer KI. Verbaut ist eine PCU mit 300 MHz, die 1,2 Teraflops Rechenleistung hat und als Koprozessor die primäre Logikeinheit beim Datentransfer entlasten soll.
Will man im Desktop-Markt etwas verkaufen, schreibt das Marketing Gaming auf die Box. Im Server-Bereich derweil ist AI-Learning das Schlagwort. Auch bei Samsungs neuem HBM-2-Speicher, der einen integrierten KI-Prozessor bekommt. Der hat bis zu 1,2 Teraflops Rechenleistung und kann so als Koprozessor zur CPU, GPU, ASIC oder FPGA agieren. HBM-PIM heißt die Technik, wobei PIM für Processing In Memory steht. Der Koprozessor im Speicher soll sich vor allem darum kümmern, dass die Daten zwischen Speicherchip und Logikchip schneller und effizienter verschoben werden, da es nicht selten der Fall ist, dass das Datenmanagement mehr Rechenzeit in Anspruch nimmt als die eigentliche Operation.
In Rechenzentren gelten vor allem zwei Eckwerte - erreichbare Rechenleistung bei welcher Leistungsaufnahme. Und hier rechnet Samsung vor, dass man mit dem AI-HBM bis zur doppelten Performance bei 70 Prozent weniger Leistungsaufnahme erreichen kann. Vor allem aber soll sich der neue Speicher nahtlos in Systeme integrieren lassen, da keine Änderungen an bestehender Hardware nötig sind und der betrieb auch komplett ohne Software abläuft. Nicht einmal Speichercontroller müssten auf die neuen Chips angepasst werden. Dadurch könnte eine wesentlich schnellere Marktdurchdringung erreicht werden, wie die Adaption minimalen Aufwand erfordert.
Der Erfolg hängt damit maßgeblich davon ab, wie viel der Leistung aus dem Marketing-Versprechen tatsächlich Praxisanwendungen übrig bleiben und ob sich das gegen die Anschaffungskosten rechnet. Validierungen laufen bereits und sollen bis Sommer abgeschlossen sein.
Quelle: Samsung
Samsung stattet HBM-Speicher mit künstlicher Intelligenz aus (2)
Samsung zeigt sogar Details des Chips, auf denen die Programmable Computing Unit (PCU) mit 300 MHz zu erkennen ist - jeder Speicherbank ist eine Einheit zugeteilt. Das Host-System kann die Einheiten mit Kommandos steuern, die bereits für die Kommunikation mit Speicher etabliert sind. Natürlich gibt es nicht nur Vorteile: Die PCUs brauchen wertvolle Fläche und damit reduziert sich die Kapazität pro Die um die Hälfte. Samsung löst das Problem, indem man die Stacks anders zusammensetzt. Gefertigt werden die Dies in 20 nm mit 2,4 Gb/s Durchsatz pro Pin. Die Lösung soll laut Samsung die Bandbreite mit KI-Modul gegenüber normalem HBM vervierfachen.
Das wäre auch für Grafikkarten interessant, aber die Technik ist schon ohne KI-Anteil für den Moment nicht wirtschaftlich genug. Der kurze Ausflug von AMD währte nicht lange und bevor die Preise in der HBM-Produktion nicht deutlich sinken, wird er weiter auf die Karten beschränkt sein, die in Rechenzentren verschwinden. Neben den Kosten ist auch zu berücksichtigen, dass eine PCU mit 300 MHz Leistung braucht und diese teils in Wärme umwandelt. In Zukunft kann das Thema aber durchaus auch für Spieler interessant werden, so wie Nvidia Raytracing- und Tensor-Einheiten salonfähig machte.
Quelle: Samsung

Wie schon mal zuvor versucht zu erklären, versuchst du eher dem Herstelle die Perspektive seiner Kunden aufzuwingen, nur geht so etwas nicht, weil die Interessen hier gegenläufig sind. Der Kunde will bestmögliche Produkte mit maximaler Qualität für den niedrigsten Preis, dagegen der Hersteller will schlicht Produkte, die im Markt konkurrenzfähig (oder gar (teilweise) führend sind) und will diese zu einem möglichst hohen Preis verkaufen um möglichst viel Gewinn zu erwirtschaften. Der Markt bringt alle Beteiligten zusammen und irgendwo "einigt" man sich dann implizit, was zu einem konkreten Marktpreis führt, für den dennoch ausreichend viele Konsumenten kaufen und bei dem der Hersteller dennoch wirtschaftlich fertigen und ausreichend Gewinn erwirtschaften kann.
Und btw ... die Titan-Serie war schon immer nur von extrem geringer Bedeutung für den Consumer-GPU-Markt und daran hatte sich bis zum Schluss(?) nichts geändert, denn die letzten beiden Modelle waren gar weitaus deutlicher im semiprofessionellen Bereich verankert.
Und dass nVidia langfristig plant ist vollkommen offensichtlich, den andernfalls wären die niemals der GPU-Marktführer geworden ... und sie wollen das, was jede Firma will ... ihre Produkte in hohen Stückzahlen absetzen und ordentlich Gewinn erwirtschaften ... und dafür bedarf es derzeit ganz offensichtlich keines HBM-Speicher auf den Consumer-Produkten (und da scheinen sich aktuell gar alle drei großen PC-Hersteller einig zu sein).
B) Bei Apple? Und was was bitteschön willst du mit "mindestens 64 GiB" VRAM auf einer Consumer-GPU? Der Großteil des Marktes weis nicht einmal mit 1/4 davon was anzufangen. Mir scheint eher du hängst zu unreflektiert an dem Mantra "viel hilft viel". Das mag in einigen Szenarien gar zutreffen, nur ist das zumeist vielfach ebenso untrennbar mit einem "viel kostet viel" verknüpft und dieser Parameter zwingt dann zu Kompromissen, da eben nicht unbeschränkte finanzielle Ressourcen auf seiten der Konsumenten zur Verfügung stehen.
Dafür hat Nvidia nachhaltig mit der Titan-Reihe gesorgt. Alle paar Generationen wurden ein paar Preisschranken-Vorstellungen torpediert, nahezu jedes Mal mit cleveren Argumenten, die dann in den Foren rauf- und runterdiskutiert werden konnten.
Entsprechend traue ich der Nvidia-Führungsschicht auch durchaus zu, im Bereich des Speichers langfristig zu denken. Sie müssen es nur wollen.
Dass sie in acht Jahren (iPhone 5 → iPhone 12 (Mini)) gerade einmal eine Vervierfachung der RAM- und Flash-Kapazitäten hingelegt haben, hat dem ganzen Speichermarkt heftig zugesetzt. Im Bereich der Macs sind sie sogar noch regider vorgegangen und ihr Verhalten hat natürlich hammerhart abgefärbt. Wie auch im Blogbeitrag gesagt: Selbst eine Verdoppelung alle zwei Jahre wäre noch langsamer als das, was Moores Law vorgibt...
(und schon mit einer Verdoppelung alle zwei Jahre wäre man statt bei vierfacher bei sechszehnfacher Kapazität)
Ein deutlicher Effizienzsprung bei den Speicher-Dies (bzw. hier Bereichen, da ja nun unterschiedliche Funktionseinheiten auf einem Die sind) wäre nur bei einem Fertigungswechsel (Full-Node-Sprung) in einer derartigen Größenordnung möglich, aber das auch nur bei gleichartigem Modus Operandi, denn die PCUs werden, weil hier komplexe Rechenoperationen vollzogen werden, mehr Strom ziehen, wenn sie genutzt werden, als die Speicherzellen.
*) Denkbar wäre nur, da die kolportierte AI-Leistung relativ gering ist, dass ein solcher Stack vielleicht durch den Entfall von 2 GiB-Kapazität und die vergleichsweise geringe Rechenleistung einigermaßen verbrauchsneutral realisert werden kann, also dass der HBM-PIM vielleicht selbst bei Berechnugnen nur so viel wie ein regulärer HBM-Stack mit 8 GiB verbraucht?
Darüber hinaus wird man abwarten müssen, wie sich das entwickelt. Beispielsweise nVidia's Tensor Cores sind weitaus flexibler und anscheinend leistungsfähiger. Aktuell werden hier in den Prototypchips bis zu 1,2 TFlops kolportiert. Das ist nicht übermäßig viel, wobei für 300 MHz vielelicht auch ein gutes Ergebnis?
Wie genau das jedoch einzuordnen ist, bleibt dennoch abzuwarten mit Blick auf erste konkrete Produkte, denn bspw. ein A100 erreicht mit seinen 400 W immerhin 312 TFlops FP16 bzw. bloat16-Performance, d. h. man würde geschlagene 260 HBM-PIM-BGAs benötigen für eine äquivalente Leistung (wenn die sich denn in der Größenordnung linear skalieren lässt?). Mit den bisher vorliegenden Informationen ergibt sich hier noch kein schlüssiges Gesamtbild. Beispielsweise ein 8 GiB-HBM2E-Stack zieht um die 5 W. Da mag man sich nicht ausrechnen wollen, was 260 Chips ziehen.
Selbst wenn die von bspw. THW kolportierten 1,2 TFlops sich nur auf ein einzelnes Die beziehen, wären das dennoch nur maximal 4,8 TFlops für einen HBM-PIM-Stack, was immer noch nur eine überschaubare Leistung wäre ... hier fehlen einfach noch Details für eine sinnvolle Einordnung.
Wenn ein Produkt(bestandteil) in einem bestimmten Markt (vorerst) nicht wirtschaftlich einsetzbar ist, dann ist das schlicht so. Da kann ich einem Hersteller doch keinen Vorwurf machen, dass er das Produkt dennoch zu verbauen hat, damit es endlich mal genutzt wird und damit hoffentlich der Produktpreis über die Zeit sinken wird. Das ist ein abwegiger Schluss und was dagegen überhaupt nicht abwegig ist, ist, dass dann stattdessen die eigentlich Käufer über viel zu hohe Produktpreise jammern werden, weil man ja unbedingt auf teuere Bauteile wie HBM setzen musste.
Was du eigenltich verlangst ist im Klartext: Verbaut mit bitte höherwertige Komponenten in euren Produkten und bezahlt das bitteschön auch aus eurer eigenen Tasche, denn ich bin selbstredend nicht bereit deshalb mehr für die Produkte zu bezahlen ... und wenn Du vielleicht doch, der Markt im allgemeinen ist es sicherlich hier nicht und dann wird der wieder auf die günstigeren Produkte der Konkurrenz ausweichen und der experimentierfreudige Hersteller ist gekniffen. Das kostet schlicht unnötigerweise Marge und die wird keiner ohne triftigen Grund aufgeben.
Btw ... AMD hat eher versucht mangelnde architektonische Leistungen mit einem schnellen Speicherinterface zu kompensieren in den letzten Jahren und mit Vega 10 hat man dann auch alle Consumer-Experimente bzgl. HBM eingestellt. Beispeispielsweise konnte man zu Vega lesen, dass AMD vermutlich weitaus mehr Stückzahlen über Apple aufgrund der festen Verträge absetzen konnte, als die selbst in Form eigener GPUs imstande waren zu verkaufen (Vega 64 und 56).
Und Vega 20 war primär ein Datacenterdesign (und zudem auch weitestgehend nur ein Shrink), dass man lediglich auf der Consumer-Schiene kurzzeitig zweitverwertete und insbesondere hier konnte man schnell sehen, dass die zu hohen Fertigungskosten dem Ganzen auch ein schnelles Ende bereiteten, denn kaum hatten sich die Preise in sinnvolle Regionen bewegt, setzte AMD die Karte EOL, aber mit Vega 20 lief es anscheint im Datacenter ohnehin nicht gut, denn man suchte sich anschließend dann Apple als Drittverwerter und stampfte dann bspw. die MI60 ein, weil man die Instinct-Karten auf dem freien Markt wohl kaum loswurde.
Und noch mal, keine Hersteller hat hier Interesse primär etwas "anzukurbeln". Oberste Maxime ist wirtschaftlich zu fertigen um einen hohen Gewinn zu erzielen. Wenn keine äußere Zwänge vorliegen, wird man sich dem nicht wiedersetzen und aktuell kann man bspw. die Bandbreitenbedürfnisse, die man für HighEnd-GPUs hat offensichtlich günstiger mit GDDR6 zuwegebringen, nVidia mit einem breiteren SI und schnelleren Modulen und AMD derzeit gar mit einem noch schmaleren SI, das man mittels eines großen L3-Caches zu kompensieren versucht. Das ist am Ende schlicht ein Ausbalancieren zwischen technischen Bedürfnissen, Fertigungskosten und einer hohen Marge, die jedes Unternehmen anstrebt.
Wenn die Zeit reif ist, wird man HBM sicherlich im oberen HighEnd einziehen sehen, keine Frage, aber das scheint weiterhin noch ein wenig auf sich warten zu lassen. Die Speicherkapazität wird aktuell vorerst absehbar im Cosumer-Segment nicht weiter steigen, denn mit bspw. den 16 GiB von AMD hat man schon einen Wert jenseits dessen erreicht, was der Großteil der Konsumenten auch in den nächsten Jahren benötigen wird (und bspw. die Konsolen können eh nicht weiter wachsen). Es bleibt also (vorerst) einzig die wachsenden Bandbreitenanforderung als Triebfeder. Bei AMD würde ich gar ausschließen, dass RDNA3 mit HBM kommt, denn die könnten auch leicht auf ein 320 Bit-SI gehen, würden damit (zwangsweise) 20 GiB im HighEnd anbieten, könnten in Verbindunng mit schnellerem Speicher aber ihre aktuelle Bandbreite von 448 GiB/s auf bspw. 640 GiB/s erhöhen (theoretisch gar bis zu 720 GiB/s mit 18 Gbps) und könnten weiterhin mit einem großen L3 das Defizit kompensieren. Die sind damit in dieser Gen relativ gut gefahren, ich denke daher das wird man min. noch eine weitere Gen so fortsetzen.
Bei nVidia kann man das für 2022 dagegen noch nicht so genau absehen. Micron hat noch einiges mit ihrem OC-Speicher vor, ein minimal breiteres SI wäre denkbar, auch nVidia könnte seinen L2 deutlich vergrößern (der A100 hat monströse 40 MiB, L2 wohlgemerkt oder man könnte auch hier einen L3 implementieren) und hier wäre vielleicht dieses Mal die Wahrscheinlichkeit zumindest etwas höher, dass man dem Grenzwert für eine HBM-Implementation im HighEnd näher kommt oder diesen vielleicht gar erstmals überschreitet? Man wird sehen.
Die von Samsung in den Raum gestellten bis zu 70 % Power Savings resultieren aus einem Vergleich gegen ein äquivalentes Komplettdesign herkömmlicher Bauweise, d. h. ein AI-Chip um den herum man Speicherbausteine reiht, weil hier mittlerweile aufgrund der beträchtlichen Speicherkapazitäten die Energiekosten für den Informationstransport aus dem Speicher und in den Speicher zurück mittlerweise so hoch werden, dass die klare Beschränkungen auferlegen. (So sind bestimmte Designs gemäß heute üblicher Anfoerungen gar nicht mehr ohne HBM realisierbar, da das mit GDDR das verfügbare Power Budget sprengen würde.)
Most of today’s computing systems are based on the von Neumann architecture, which uses separate processor and memory units to carry out millions of intricate data processing tasks. This sequential processing approach requires data to constantly move back and forth, resulting in a system-slowing bottleneck especially when handling ever-increasing volumes of data.
Instead, the HBM-PIM brings processing power directly to where the data is stored by placing a DRAM-optimized AI engine inside each memory bank — a storage sub-unit — enabling parallel processing and minimizing data movement. When applied to Samsung’s existing HBM2 Aquabolt solution, the new architecture is able to deliver over twice the system performance while reducing energy consumption by more than 70%. The HBM-PIM also does not require any hardware or software changes, allowing faster integration into existing systems.
Natürlich ist unklar, worauf sich die 70% beziehen: Ob auf den HBM-Stack oder auf das ganze System. (HBM+CPU/ GPU+Boards) Auf das ganze System wäre aber nur noch beeindruckender, daher gehe ich mal ganz schwer davon aus, dass nur der Stack gemeint ist.
Nvidia setzt sich nur nicht für HBM ein, bekämpft es aber nicht. Apple wäre so ein Verhalten eher zuzutrauen. (siehe den Blogbeitrag: https://extreme.pcgamesha...)
AMD hat alles in ihrer Macht stehende getan, um die Adaption von HBM zu beschleunigen. Blöderweise stand aber keiner der Chips und keine der Karten unter einem guten Stern: Fiji, Polaris, Vega 10, Vega 20 sind ja allesamt nicht gerade als Highlights bekannt, entstammen ja auch allesamt ohnehin keiner Architektur, die als Radeon-Glanzstunde bekannt ist. Auch kein LowLight, aber eben auch kein Highlight. Das hat natürlich auch den Effekt auf die HBM-Produktion eingedämmt. Da diese entsprechend nicht massenmarktstauglich gewachsen ist, musste für die aktuelle Gen was anderes her.
Will man etwas ankurbeln, dann muss man roadmaptauglich agieren. Im Falle von Apple wäre das zum Beispiel anzukündigen, dass sich die RAM- und Flashausstattung der iPhones alle zwei Jahre verdoppeln wird. Der Effekt würde durchschlagen, der wellenartige Rückbau von Fertigungskapazitäten stoppen. Im Falle von einem GPU-Hersteller wäre das so etwas wie "ab dem nächsten Jahr werden alle unsere kommenden High-End-Chips auf HBM setzen, in zwei Jahren auch der Großteil der Midrange", promt kann die Produktion anziehen.
BTW: Ich setze seit etwa anderthalb Jahrzehnten ausschließlich Geforces ein...