HBM3-Speicher: SK Hynix plant mit 896 GB/s und GDDR6 mit 27 Gbps
Der südkoreanische Speicherchiphersteller SK Hynix hat für seine kommenden HBM3-Produkte die Spezifikationen erneut aktualisiert, die Ende Februar näher vorgestellt werden sollen.
Nachdem SK Hynix Mitte letzten Jahres für den in Entwicklung befindlichen Stapelspeicher HBM3 (High Bandwidth Memory 3) eine Bandbreite von bis zu 665 GB/s pro Stack anvisierte und im vergangenen Oktober 12-Hi-Packages mit einer Geschwindigkeit von 820 GB/s in Aussicht stellte, soll es nun noch schnelleren HBM3-DRAM mit einer Bandbreite von 896 GB/s geben. Dieser soll auf der ISSCC 2022 (IEEE International Solid-State Circuits Conference) am 24. Februar näher vorgestellt werden, berichtet Vidoecardz.com.
Entsprechend der noch anstehenden Vorstellung sind viele Details noch nicht bekannt, aber der Titel der Präsentation bestätigt bereits die Geschwindigkeit und die Speicherkonfiguration: Demnach soll es sich ebenfalls um 12-schichtigen HBM3-DRAM mit einer Kapazität von 196 Gbit (24 GB) handeln. Dies soll dem Bericht nach durch TSV (Through Silicon Via), automatische Kalibrierung und Optimierungen durch maschinelles Lernen erreicht werden. Unklar sei dabei auch noch, ob es sich bei diesem Speichertyp um einen Prototyp auf dem Papier handelt oder ob SK Hynix beabsichtigt, hier die Massenproduktion anzugehen.
Die ersten HBM3-Spezifikationen von SK Hynix beinhalteten eine Datenrate von 5,2 Gbit/s pro Pin (665 GB/s), die ein paar Monate später um 23 Prozent auf 6,4 Gbit/s (819 GB/s) erhöht wurde. Der neueste 7-GBit/s-Speicher würde eine zusätzliche Steigerung von 10 Prozent gegenüber der letzten Spezifikation aus dem Oktober bedeuten.
Darüber hinaus plant das Unternehmen laut der Event-Ankündigung T-Coil-basierten 27-Gbit/s-GDDR6-Speicher mit Merged-MUX TX, optimierten WCK Operations und alternativem Datenbus zu diskutieren. Dieser wäre schneller als Samsungs 24-Gbit/s-Speicher, der sich gerade in der Testphase befindet. Dabei hätte SK Hynix' Speicher mit 16 Gbit die gleiche Kapazität wie Samsungs GDDR6 und Microns GDDR6X.
Quelle: news.skhynix.com
HBM3-Speicher: SK Hynix plant mit 896 GB/s und GDDR6 mit 27 Gbps

Zweitens: Ich stelle klar bzw. drücke mich klarer aus. Ich meine nicht das es technisch nicht funktioniert oder vollkommen nutzlos ist.
Ich rede vom Gaming weil sau viele Leute immer anfangen mit das würde in Games so mega gut laufen aber wenn ich die zugrunde liegende Funktionsweise betrachte und dann schaue wie viel Spieleleistung aber meist mit Timings rausgeholt werden kann.
Für Server und auch Workstations kann ich mir das gut vorstellen wenn da sehr speicherhungrige und Bandbreiten lastige Anwendungen anstehen.
Sapphire Rapids ist ja auch keine Consumer CPU.
*) Auf der anderen Seite muss man sich aber auch Fragen, ob die Wiederbelebung oder Neuschaffung der HEDT-Plattform überhaupt noch wirtschaftlich sinnvoll ist. Mit einem mittlerweile bestätigten 24-Kern Raptor Lake im Consumer-Segment und von oben gedeckelt durch die neuen Xeon-W's bleibt da nicht mehr allzu viel Marktpotential meines Dafürhaltens, aber man kann halt schlecht abschätzen wie solche Firmen in derart turbulenten Zeiten Halo-Produkte und Werbeeffekte einschätzen und gewichten. (AMD hat ja gerade mit der wechselhaften Vorstellung zum gepimpten 5800X3D gezeigt, wie problematisch derartige Faktoren zu bewerten sind.)
Darüber hinaus, wie ich schon erklärte, es ist aktuell schwer abzuschätzen wie die Effekte bzgl. einem spezifischen Workload wie Gaming sein werden, denn wir reden hier nicht von einem kleinen bisserl mehr Bandbreite, wie bei DDR, vollkommen egal ob v4 oder v5, sondern wir reden hier potentiell von der 8- bis 12-fachen Speicherbandbreite. Aktuell habe zumindest ich da keinerlei Ableitungsmöglichkeiten, sodass ich da gespannt auf Tests warte, wenn sich denn die Möglichkeit tatsächlich ergeben sollte ...
6303X Ø0.025 ±0.003
Ignorier das alles und beschränke dich einfach auf die hohe dreistellige Bandbreite pro einzelnem HBM-Chip und behalte im Hinterkopf, dass ein einzelnes DDR4/5-Modul gerade mal um die 25 - 35 GiB/s hinbekommt. Das sind schon immense Unterschiede, wobei die Latenz aber eine andere Frage ist, wobei etwaige Nachteile bein Random-Zugriff jedoch teilweise wieder durch die extrem höhere Bandbreite wettgemacht werden dürften.
Zur Konkretisierung: Ein HBM-BGA-Baustein kann nach aktueller Spec aus bis zu 12 Lagen (stacked chips, verbunden mit TSV's) bestehen und damit bis zu 24 GiB Gesamtspeicherkapazität realisieren.
Die Angabe Gigabits pro Pin pro Sekunde bezieht sich auf die Basis 2 (nicht 10). Ein Chip verfügt zudem über 1024 Pins (ein 1024-Bit-Interface) und entsprechend erreicht ein einzelner 3,2 Gbps-HBM2E-Chip hier rd. 410 GiB/s. (Also so viel wie eine aktuelle Mittelklasse-GPU mit ihren acht GDDR6-BGAs (256 Bit-SI); bspw. Epyc oder der Threadripper Pro erreichen mit ihren 8 Speicherkanälen gerade mal die Hälfte der Bandbreite eines solchen einzelnen Chips.)
Rambus stellte bereits Mitte August seine HBM3-IP (PHY + Controller) vor, die bis zu 8,4 Gbps an Bandbreite realisieren können soll.
Abschl. Anmerkung zum Namen: Das aktuelle "E" in HBM2E gibt es gemäß Spezifikation gar nicht. Hierbei handelt es sich lediglich um einen Marketingbegriff, der erstmals von Samsung eingesetzt wurde. Konkret sind dies schlicht schnellere BGAs gemäß der offiziellen HBM2-Spezifikation und der nächste Schritt in der Standardisierung ist HBM3.
Weil es gerade passt: Der schnelle GDDR6-Speicher von Micron, den Ampere nutzt, ist ebenso wenig GDDR6X *) sondern schlicht eine proprietäre Eigenentwicklung mit PAM4-Signalisierung, die einen deutlich höheren Pro-Pin-Takt verkraftet. **) Ob die JEDEC das jemals als Standard übernehmen wird, ist unklar. Vereinfachend spricht die Presse jedoch bei Ampere zur Abgrenzung immer von "GDDR6X".
*) Aktuell gibt es von der JEDEC keine GDDR6X-Spezifikation, so wie es bspw. von denen GDDR5X gibt.
**) Hier in konkreten Produkten aktuell bis zu 19,5 Gbps bei 32 (Daten-)Pins pro Micron-OC-GDDR6-BGA. Mainstream-GDDR6 gemäß JEDEC-Spec begnügt sich derzeit mit 14 Gbps, im HighEnd gibt es auch mal 16 Gbps, 18 Gbps stellen bisher das reguläre Limit, werden aktuell aber von keinem GPU-Hersteller in einem Produkt genutzt. (Zur Vereinfachung pro BGA: 14 Gbps ~ 56 GiB/s, 16 Gbps ~ 64 GiB/s, 19 Gbps ~ 76 GiB/s. )
Wie oben schon erklärt funktioniert das sehrwohl, da Intel das schon mit Sapphire Rapids SP realisiert hat und auch dem allgemeinen Vernehmen nach AMD mit Genoa angeblich nachziehen soll.
Bei Intel's SPR hat ein CPU-Tile einen HBM2E-Controller um einen HBM2E-BGA anzubinden. Die CPU besteht typischerweise aus vier Tiles und die HBM2E-Modelle können entsprechend 4 BGAs ansteuern, wobei man hier von nur 64 GiB (8 Stacks) und nicht etwa 96 GiB (12 Stacks) Gesamtkapazität ausgeht. Anzunehmenderweise wird man hier den Speicher jedoch mit einer vergleichsweise niedrigen Taktung fahren, also obwohl es HBM2E ist, werden die BGAs möglicherweise mit etwas wie 1,6 - 2,4 Gbps betrieben werden, weil mehr einfach Overkill wäre und dennoch aufs thermische Budget der CPU schlagen würde. Mit 2,4 Gbps würde die CPU eine HBM-Bandbreite von um die 1228 GiB/s oder 1,20 TiB/s aufweisen, was ungefähr derzeit dem vier- bis fünffachen einer typischen Serverspeicherbandbreite entspricht. Intel sieht in dem Design unterschiedliche Betriebsmodi vor. Einerseits kann der HBM2E als transparenter L4$ fungieren, andererseits kann er aber auch als separater Speicherpool direkt angesprochen werden. Eine Server-App könnte somit normal über das DRAM laufen und kritische Bereiche gezielt über den bis zu 64 GiB großen HBM-Speicherpool laufen lassen. Daneben konnte man auch lesen, dass die CPUs gar auch ohne DRAM/DIMMs betrieben können werden sollen, d. h. hier fungiert das HBM2E dann zwangsweise als Hauptspeicher. Ich würde aber vermuten, dass nur wenige Server derart spezifisch ausgerichtet sein werden, sodass man denen DRAM vorenthält (vielleicht fürs Number Crunshing?, bei bspw. ML benötigt man schon wieder viel Speicher für große Netzte und hier würde man den HBM2E als L4$ nutzen um die mittlere Speicherbandbreite insgesamt deutlich anzuheben).
Auf der anderen Seite beflügelten diese Eckdaten Überlegungen zu einem HEDT-Ableger mit nur bspw. 2 CPU-Tiles, 32 GiB HBM2E und bspw. einer Speicherbandbreite von 600 GiB/s, also gut dem 10-fachen, was aktuell die allerschnellsten Consumer-Plattformen mit DDR5 zustande bringen.
Am Ende aber vermutlich nur Fantasterein. Ein optimierter und größerer Cache wird hier vermutliche das beste P/L-Verhälsnis für Consumer & Enthusiasten bieten, so wie AMDs V-Cache oder die von Intel zu Raptor Lake bereits kolportierten "Cache-Optimierungen", die in eine ähnliche Kerbe schlagen werden (aktuell nur noch nicht im Detail konkretisiert wurden).
Zweitens: Ich stelle klar bzw. drücke mich klarer aus. Ich meine nicht das es technisch nicht funktioniert oder vollkommen nutzlos ist.
Ich rede vom Gaming weil sau viele Leute immer anfangen mit das würde in Games so mega gut laufen aber wenn ich die zugrunde liegende Funktionsweise betrachte und dann schaue wie viel Spieleleistung aber meist mit Timings rausgeholt werden kann.
Für Server und auch Workstations kann ich mir das gut vorstellen wenn da sehr speicherhungrige und Bandbreiten lastige Anwendungen anstehen.
Sapphire Rapids ist ja auch keine Consumer CPU.
DDR4/5-DIMMs führen 288 Kontakte/"PINs" nach außen, haben aber nur 64 Datenenleitungen.
GDDR6-BGAs haben 180 Kontakte ("Balls"), aber nur 32 Datenleitungen/Kontakte, die hier halt extrem hoch getaktet sind, was auch erklärt warum GDDR6 so stromhungrig ist, einerseits bei den BGAs selbst aber ebenso beim PHY. (GDDR5 arbeitete noch mit 170 / 32 Kontakten.)
HBM2/3 arbeitet mit 1024 Datenleitungen. Wie viele Kontakte hier elektrisch insgesamt nach außen geführt werden, konnte ich bisher nicht in Erfahrung bringen und Nachzählen ist da so eine Sache, s. o.