AMD Instinct MI200: Professionelle Grafikkarte mit "Multi-Chip-Module" angeblich noch 2021
Angeblich wird AMD den Nachfolger der Instinct MI100 noch im Jahr 2021 veröffentlichen. Details über die professionelle "Grafikkarte" bleiben weiter im Verborgenen, laut Gerüchten setzt AMD aber auf einen "Multi-Chip-Module"-Ansatz.
AMD hatte die Instinct MI 100 Ende 2020 als eigenen Angaben nach schnellste HPC-GPU vorgestellt. Wie nun der bekannte Leaker "Komachi" meldet, erscheint der Nachfolger noch im Jahr 2021. Hinter einer Instinct MI 200 dürfte abermals CDNA stecken, AMDs GPU-Architektur für Compute-lastige Workloads. Wie die Umsetzung im Detail aussieht, steht allerdings noch in den Sternen. Möglicherweise setzt AMD bei der Instinct MI 200 bereits auf CDNA 2. Falls dem so wäre, würden die Chips laut älteren Folien in einem "Advanced Node" gefertigt, beispielsweise in TSMCs "N7P" oder "N7+".
Es hat außerdem den Anschein, dass AMD auf einen "Multi-Chip-Module"-Ansatz setzt. So sagt es zumindest das Gerücht von Leaker "Komachi", wo man das Ganze als MCM abkürzt. Anfang des Jahres war bereits ein Patent aufgetaucht, in dem AMD einen modular aufgebauten Grafikprozessor beschreibt, ähnlich dem Chiplet-Design aktueller Ryzen-Prozessoren. Schon damals wurde gemunkelt, dass ein solcher Aufbau zunächst professionellen Lösungen vorbehalten sein wird.
Release angeblich Ende 2021
In welcher Form AMD den Instinct MI200 tatsächlich auf den Markt bringt, bleibt freilich abzuwarten. Angeblich erscheint die HPC-GPU Ende 2021 zusammen mit Eypc-Prozessoren der Trento-Generation - einer mutmaßlichen Variante Milans (Zen 3), die noch vor Genoa (Zen 4) auf den Markt kommen soll.
Ebenfalls interessant: Geforce RTX 3060: Angeblich erste Dollar-Preise der Custom-Designs, Gebrauchtkarten schon im Umlauf?
Bei AMDs aktueller Instinct MI 100 kommt ein Chip mit 120 Compute Units zum Einsatz, was 7.680 Stream-Prozessoren ergibt. AMD taktet den Chip mit 1.502 MHz "Peak-Clock" und nennt: 184,6 TFlops Peak Half Precision (FP16) Performance, 23,1 TFlops Peak Single Precision (FP32) Performance sowie 11,5 TFlops Peak Double Precision (FP64) Performance. Die auf vier Stacks verteilten 32 GiByte HBM-2-Speicher haben einen Takt von 1,2 GHz und ein 4.096 Bit breites Speicherinterface.
Quelle: Twitter

Hier bleibt abzuwarten, ob das "nur" ein hochskaliertes CNDA-Design sein wird oder aber ggf. bereits CDNA2. Und ebenfalls bleibt abzuwarten, ob das tatsächlich ein MCM sein wird oder ob hier vorerst einfach nur zwei Chips auf einer Karte verbaut werden, wie es AMD schon bei der Vega20/Apple-Karte (Radeon Pro Vega II Duo) in 2019 machte.
Ergänzend zu "endlich die Hardwarebeschleunigung für KI-Upscaling": AMD bewirbt zwar in Verbindung mit CDNA/der MI100 etwas namens "new Matrix Core Technology", das die Matrix-Operationen beschleunigt, jedoch weiß ich nicht genau, was das technisch im Detail ist. Sieht man sich rein die Leistungswerte an, ist es jedenfalls mit den Tensor Cores v3 nicht einmal ansatzweise vergleichbar, d. h. es werden vermutlich ein paar architektonische Optimierungen sein, jedoch keine dedizierten Hardwareeinheiten.
Anmerkung zum Prozess: Da die MI100 bereits mit 300 W spezifiziert ist, wird das MI200-Desing voraussichtlich den N6 (5 EUV-Lagen, der Rest mittels DUV) verwenden, da der N7P hier zu wenig Möglichkeiten bzgl. Power Savings bietet und der N7+ kann kategorisch ausgeschlossen werden, da der Prozess inkompatibel bzgl. seiner Design Rules ist, d. h. AMD hätte hier aufwändig und umfangreich neuimplementieren müssen und es wäre zudem eine Einbahnstraße; ein mit Blick auf deren beschränkte Ressourcen eher auszuschließender Entwicklungsschritt.
Ergänzender Hinweis: Der Titel ist zudem (Click-generierenderweise?) irreführend, denn hierbei handelt es sich um keine "Grafikkarte", sondern um einen reinen Rechenbeschleuniger. Die Karten verfügen über keinerlei Videoausgänge und im Gegensatz zu Vega 20 würden die hier auch nachgerüstet nichts helfen, da der CDNA-Architektur wesentliche Bestandteile der 3D/Rasterpipeline fehlen.
Um die Zahlen in Relation zu setzen:
MI200
FP16 - 184 TFlop/s
FP32 - 23 TFlop/s
RTX 3090
FP16 - 71 TFlop/s
FP32 - 36 TFlop/s