AMD Instinct MI350P: CDNA 4 mit 144 GiB HBM3E im PCIe-Slot
AMD macht seinen CDNA-4-Grafikprozessor mit der Instinct MI350P jetzt auch erstmals für Workstation-PCs sowie Systeme mit PCIe-Steckplatz verfügbar und schickt neben 8.192 FP32-Shadereinheiten auch gleich 144 GiB HBM3e-Speicher ins Rennen.
AMD macht seinen aktuellen CDNA-4-Grafikprozessor ("GFX1250"), welcher bisher einzig auf der Instinct MI355X und Instinct MI350X in der Form eines OAM-Moduls zum Einsatz kam, jetzt auch erstmals in Workstation-PCs und Systemen mit einem herkömmlichen PCIe-Steckplatz verfügbar. Die neue Instinct MI350P adressiert hierbei vorrangig Anwendungsbereiche mit KI-Agenten ("Agentic AI") und liefert eine Rechenleistung von bis zu 4,6 PetaFLOPS bei MXFP4 und MXFP6. Keine Beschleunigerkarte für den PCIe-Steckplatz ist derzeit performanter.
Geboten werden ein CDNA-4-Grafikprozessor mit 128 Compute Units ("CUs") sowie 8.192 Shadereinheiten ("FP32"), welcher von 144 GiB HBM3E-Grafikspeicher flankiert wird und damit einer halben Instinct MI355X entspricht, welche über 256 CUs sowie 16.384 FP32-Shadereinheiten verfügt. Die TBP ("Total Board Power") wird dabei ebenfalls deutlich reduziert und beträgt 600 anstatt 1.000 bzw. 1.400 Watt.
Das Dual-Slot-Design wird über den umstrittenen 12VHPWR-Anschluss der zweiten Generation ("12V-2×6") mit Energie versorgt und über PCIe 5.0 ×16 an das System angebunden. Die Abmessungen entsprechen mit einer Länge von 26,7 cm den "kompakteren" Consumer-Grafikkarten, während die Kühlung "semi-passiv" bewerkstelligt wird und den Luftstrom im Server-Gehäuse voraussetzt.
Wenngleich die Instinct MI350P auch in Workstation-PCs und theoretisch sogar Desktops eingesetzt und genutzt werden kann, zielt das Design doch insbesondere auf Server-Gehäuse ab, welche über einen entsprechenden Luftstrom verfügen. Selbst der Energiesparmodus ("TDP-down"), der mit einer maximalen Energieaufnahme von 450 Watt einhergeht, dürfte in herkömmlichen Systemen nur sehr schwer zu kühlen sein. Der Preis versetzt Desktop-Nutzern ohnehin den Todesstoß.
Konkurrenz für die Nvidia H200 NVL
Die AMD Instinct MI350P positioniert sich als Konkurrenz zur Nvidia H200 NVL, welche derzeit zu Preisen ab etwa 32.000 Euro gehandelt wird. Wenngleich AMD noch keinen Preis für seinen neuen KI-Beschleuniger genannt hat, ist mit einem offiziellen Preis von 20.000 bis 25.000 Euro für Enterprise-Kunden zu rechnen.
Weitere Informationen zu AMD Instinct MI350P liefern die offizielle Website sowie das Datenblatt (PFD).
Ihre Meinung ist gefragt!
Wie stehen Sie zu diesem Thema? Die PCGH-Redaktion freut sich über Ihre fundierte Meinung in den Kommentaren zu dieser Meldung. Um zu kommentieren, müssen Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie bisher noch keinen Account haben, könnten Sie sich hier unverbindlich registrieren. Beachten Sie beim Kommentieren aber bitte die geltenden Forenregeln.
Quelle: AMD

das Teil hätte als RX 9090 xt
eine ernsthafte Konkurrenz für die 5090 bedeutet
Einerseits wird sie in FP4 und FP6 stärker sein als eine H200NVL, die das Ganze dann in FP8 machen muss. Und es ist eine FP4 Karte mit ordentlich Bandbreite die PCIE unterstützt; damit ein extremer Pluspunkt ggü. Blackwell. SM100 gibts nicht per PCIE.
Andererseits bleibts halt leider auch bei PCIE was das IO angeht. Da ist selbst die alte H200 mit Dual oder Quad NVLink bei 900GB/s in einer komplett anderen Hausnummer unterwegs, sobald über mehr als eine Karte hinaus berechnet werden muss.
Damit ist es eine extreme Nische die bedient wird: mxfp4 und mxfp6 Modelle die samt weights und kv vollständig in 144GB passen.
Zum Vergleich: ein Modell das mit weights auch in 96GB VRAM passt, performt auf einer RTX6000 Pro (SM120) im
Prefill etwa 10-20% besser und in der Inferenz etwa halb so stark iVz der gut 3-fach so teuren MI350P.
Wild wird es dann bei einem Modell, das mit weights und kv cache die 144GB der MI350P belegt, verglichen mit 2 RTX6000 in TP=2: denn zu etwa 60% des Preises einer MI350P hat man dann die 1.5-1.6 fache pp Leistung und nur etwa 15% weniger Inferenz.
Das oben stehende gilt für dense Modelle. Bei sparse/MoE Modellen sieht es besser aus für die AMD Karte. Aber die sind dann typischerweise derart groß, dass auch FP4 nicht mehr auf eine Karte passen wird. Und dann schlägt das fehlende Infinity Fabric wieder zu.
Und da haben wir noch gar nicht ROCm vs CUDA diskutiert.