AMD-Zen-2-I/O-Chip unter dem Mikroskop: Die-Shots interpretiert

Bilder der Feinstruktur von Silizium-Chips sehen spannend aus. Leider erklären AMD, Intel und Nvidia ungern, was man da sieht. Wir versuchen ein weiteres Mal, diese Lücke zu füllen, und analysieren diesmal den I/O-Chip der Ryzen-3000-CPUs, dessen Aufbau auch bei X570 und TRX40 genutzt wird.

Special 28.01.2020 um 11:44 Uhr Torsten Vogel Als bevorzugte Quelle auf Google hinzufügen

Quelle: Fritzchens Fritz auf Flickr

In diesem Artikel

Zum Jahresausgang wagten wir ein Experiment: Unsere Analyse der Ryzen-3000-CPU-Chiplests bot keine Messergebnisse aus PCGH-Tests, auch keine Fakten aus gesicherten Quellen und nicht einmal so-gesichert-wie-eben-möglich Gerüchte über kommende Hardware. Stattdessen nahmen wir uns die hochauflösenden Aufnahmen von Ryzen-3000-CPU-Chiplets, die Fritzchens Fritz dankenswerter Weise auf seinem Flickr-Kanal zur freien Verwendung (CC0) bereitstellt, und analysierten sie rein anhand öffentlicher Daten und unserem internen Wissen. Das Ergebnis kann als doppelter Erfolg gelten: Abgesehen eines vermeidbaren Fehlers bei der L1-Cache-Interpretation, der in der angeregten PCGHX-Diskussion geklärt werden konnte, lagen wir mit unseren Ausführungen scheinbar goldrichtig und auch bei den Lesern kam der ungewöhnliche Artikel gut an. Zeit also für eine Fortsetzung!

Zen-2-Die-Shots: Die I/O-Chips

Unser heutiges Opfer ist die zwei Hälfte der Ryzen-3000-CPUs. Zur Erinnerung: AMDs aktuelle Desktop-Generation vereint zwei in Fertigung und Funktion verschiedene Chips unter dem gemeinsamen Heatspreader zu einem Prozessor - eine Bauweise, die unter den gesockelten Desktop-CPUs sonst nur noch Intels Clarkdale (1. Generation Core i3-500 und i5-600) nutzt. Für die eigentliche Rechenarbeit ist der beziehungsweise sind die sogenannten CCDs mit jeweils acht physischen Kernen (je nach Modell teilweise deaktiviert) zuständig, die je nach Modell in einfacher bis achtfacher Ausführung verbaut werden. Ihnen fehlen aber, außer einem proprietären Infinity-Fabric-Link, jegliche Kommunikationskanäle nach außen. Die gesamte Verbindung des Prozessors mit dem restlichen System übernimmt der zusätzlich vorhandene I/O-Chip. Dies entspricht weitestgehend der Arbeitsteilung in einer klassischen Front-Side-Bus-Architektur (bis Sockel A beziehungsweise 775 genutzt), nur dass die "Northbridge" nicht mehr auf dem Mainboard, sondern im Prozessor-Package sitzt.

Quelle: Fritzchens Fritz auf Flickr Den 7-nm-CCD rechts oben im Matisse-Package (Ryzen 5 3000, Ryzen 7 3000 und, mit zwei CCDs, Ryzen 9 3000) haben wir das letzte mal analysiert. Heute widmen wir uns dem größeren 12-nm-Teil aktueller AMD-CPUs. Über die Funktion einer Northbridge (CPU-Anbindung an Arbeitsspeicher und System-Bus) übernehmen die I/O-Chips aber auch noch einige klassische South-Bridge-Funktionen, damit die Zen-2-CPUs prinzipiell als System-on-a-Chip ohne zusätzlichen Chipsatz- beziehungsweise I/O-Hub eingesetzt werden können. Obwohl die I/O-Chips für die Systemleistung von untergeordneter Bedeutung sind, weisen sie also weitaus mehr verschiedene Funktionen und einen komplexeren Aufbau auf als die CPU-Chiplets selbst. Das erschwert die Zuordnung der Funktionsblöcke in unserer Analyse deutlich, AMD erleichtert uns die Arbeit aber auf anderem Wege: Einerseits gibt es zwei verschiedene I/O-Chips. Wir konzentrieren uns auf den kleineren, für Sockel-AM4-Prozessoren (Codename Matisse) genutzten. Als Hilfestellung werfen wir aber auch einen Blick auf den für Threadripper und Epyc (Codename Rome) genutzten großen Bruder, der viele Funktionen in vierfacher Anzahl bereitstellen muss. Andererseits nutzt AMD den gleichen Bauplan, um in einem leicht geänderten Fertigungsprozess die X570- und TRX40-I/O-Hubs zu produzieren. AMD bestätigte uns auf Nachfrage, dass hierbei auch für letzteren keine Anpassungen vorgenommen wurden. Selbst der im Einsatz als I/O-Hub nutzlose Speichercontroller ist noch enthalten, sodass wir umgekehrt davon ausgehen können, dass bereits der I/O-Chip in den Ryzen-3000-CPUs auch alle Schnittstellen für den Einsatz als TRX40 in sich trägt.

Zen-2-Die-Shots: Das Infinity Fabric

Ehe wir die einzelnen Verbindungen herausarbeiten, noch ein Hinweis: Wie schon im letzten Artikel empfehlen wir einen Download der Originaldateien aus Fritzchens Fritz' Flickr-Kanal, um unsere Schritte besser nachvollziehen zu können. Neben der bereits verlinkten Aufnahme des Rome-I/O-Chips und des im Zentrum unserer Aufmerksamkeit stehenden Matisse-Gegenstücks, verweisen wir teilweise auch auf den monolithischen Chip aus der Summit-Ridge-Vorgängergeneration. Benutzer mobiler oder alter Systeme sollten in allen Fällen bei der Qualitätsauswahl an die Leistungsfähigkeit des Systems denken. Als .jpg gespeichert beansprucht der Rome-I/O-Shot zwar "nur" 185 MiB, im Browser geöffnet werden daraus jedoch schnell 1 GiB (Opera Classic) bis über 3 GiB (Chrome) Arbeitsspeicherbelegung laut Task-Manager. Wohlgemerkt: Nur zur Darstellung des einen Bildes mit allen Details. Und dabei zeigt es auch dieses Mal noch keine einzelnen Transistoren, sondern (wie alle mit Lichtmikroskopen aufgenommenen "Die-Shots"), nur die Verschaltungsstrukturen ganzer Zellen von Transistoren zu komplexeren Funktionseinheiten.

Die erste dieser Einheiten sticht uns an der Unterkante der zu analysierenden Aufnahme ins Auge und das gleich doppelt. Wer zusätzlich den Rome-I/O-Chip vor Augen hat, sieht sie gar achtfach: In jedem Quadranten an Ober- und Unterkante, ein Stück vom linken und rechten Rand entfernt. Dieser zahlenmäßige Unterschied ist hierbei der deutlichste Hinweis, denn wie bereits dargelegt, muss der Matisse-I/O-Chip maximal zwei CPU-Chiplets anbinden, benötigt also zwei Infinity-Fabric-Links, während es im Epyc-Segment deren acht sind. Bestärkt wird diese Zuordnung der Struktur durch AMD-Marketing-Folien für Threadripper, die bezüglich derartiger technischer Details zwar meist unzuverlässig sind, die IF-Verbindungen allerdings an passender Stelle einzeichnen, sowie durch das Gegenstück auf den CPU-Chiplets. Der in unserem letzten Artikel als (physischer) IF-Link identifizierte Bereich weist zwar einen komplett anderen Grobaufbau, allerdings die gleiche Anzahl von unterscheidbaren Feinstrukturen auf und natürlich muss jede Datenleitung von oder zum I/O-Chip ihr Pendant im CPU-Chiplet-Silizium finden. Bei Threadripper und Epyc passt die Positionierung auf dem I/O-Chip zudem 1:1 zur Anordnung der CPU-Chiplets auf dem gemeinsamen Substrat - jede andere Interpretation würde nicht nur die Länge der performance-kritischen IF-Links problematisch verlängern, sondern vor allem auch zu Überkreuzungen mit RAM- oder PCI-Express-Leiterbahnen und damit Interferenzen führen. Quelle: Fritzchens Fritz/PC Games Hardware Infinity-Fabric-I/O-Link? Check. Aber ob die halb umschlossnen, kleinen Rechtecke die kompletten Controller sind, können wir nicht sagen. Am CCD-seitigen Ende der Verbindung gibt es keine 1:1 Kopie; der in Frage kommende Bereich ist fast so groß wie der komplette Link. Was wir, auch aufgrund der stark unterschiedlichen Bauform (die Vorgängergeneration bietet eine dritte, komplett abweichende Ansicht) auch diesmal nicht sagen können: Handelt es sich bei dem markierten Bereich nur um die physischen I/O-Einheiten, die die Datensignale auf eine für die vergleichsweise langen Datenwege zum Nachbar-Chip benötigte Stärke heben? Oder ist auch der komplette Controller enthalten? Gegen letztere Annahmen spricht die Zusammensetzung beinahe nur aus sich wiederholenden, also einzelnen Datenleitungen zugeordneten Bereichen, während für eine übergeordnete Kontrolllogik nur ein sehr kleiner, diffuser Bereich in Frage kommt. Möglicherweise haben also auch benachbarte Chip-Flächen Bezug um IF-Link.

Zen-2-Die-Shots: Der RAM-Controller

Die zweite offensichtliche Struktur schließt sich neben den IF-Links an und beansprucht den Großteil der linken Chip-Kante. Wir zählen zwei sehr lange, identisch aufgebaute Balken, die jeweils einen komplexen Zentralbereich und darüber fünf, darunter vier replizierte Untereinheiten aufweisen. Auf dem Rome-I/O-Chip wird diese Struktur drei weitere Male wiederholt, ebenfalls entlang der Außenkanten. Im Vergleich mit Threadripper würde uns das zunächst ratlos lassen, denn hier ist grob die Hälfte der I/O-Fähigkeiten deaktiviert, bei Epyc findet sich aber nur eine weitere Funktion, die von zwei auf acht wächst: Die Zahl der Speicherkanäle. Und tatsächlich entspricht sogar die Feinunterteilung mit neun logischen Elementen dem typischen Aufbau eines DDR4-RAM-Moduls mit ECC. Zwecks Fehlererkennung verfügen diese nämlich nicht über die für Desktop-Arbeitsspeicher typischen acht Speicher-Chips je Rank, sondern zusätzlich über einen neunten, der Paritätsinformationen zu den anderen acht speichert. Selbst die bunt gemischten I/O-Einheiten zwischen den neun Daten-Interfaces spiegeln den Aufbau eines SD-DIMM-Moduls wider, in dessen Zentrum sich typischerweise Kontroll- und Informationsfunktionen auf einem oder mehreren getrennten Chips finden, beispielsweise das SPD-ROM. Die I/O-Einheiten für die DDR4-Signale physisch einem RAM-Modul ähneln, ist für ihre Funktion natürlich kein muss, es vermeidet aber erneut Überkreuzungen im anschließenden Fanout auf Prozessor-Substrat und Mainboard, denn letztlich müssen die zugehörigen Leiterbahnen auf die Breite eines DDR4-Slots aufgefächert werden.
Quelle: Fritzchens Fritz/PC Games Hardware So einfach können Die-Shot-Analysen sein: Der I/O-Bereich von AMDs DDR4-Interface spiegelt sogar den Aufbau eines ECC-DIMMs wieder, der Controller schließt sich bei Epyc, Threadripper und Ryen 1:1 an.
Dank der 1:1-Übernahme des RAM-Layouts von Epyc samt ECC-Unterstützung können wir aber nicht nur die physischen Sende- und Empfangseinheiten für die DDR4-I/O-Signale identifizieren. Unmittelbar daneben, zur Chip-Mitte hin, finden wir in allen Fällen einen immer gleich aufgebauten Bereich (beim Rome-I/O-Chip je nach Quadranten gespiegelten). Dieser enthält reichlich diffuse Kontrollllogik, unterteilt in zwei gespiegelten Pärchen. Unsere naheliegende Analyse: Dies ist der eigentliche DDR4-Dual-Channel-Controller des AM4-I/O-Chips, der über die benachbarten I/O-Links mit der Außenwelt kommuniziert. Die größeren SP3-Server-Prozessoren bauen ihr Octa-Channel-Interface also aus vier Copy-&-Paste-Dual-Channel-Controllern auf, bei TRX4-Threadrippern ist die Hälfte davon deaktiviert.

Artikel teilen

AMD-Zen-2-I/O-Chip unter dem Mikroskop: Die-Shots interpretiert Bilder der Feinstruktur von Silizium-Chips sehen spannend aus. Leider erklären AMD, Intel und Nvidia ungern, was man da sieht. Wir versuchen ein weiteres Mal, diese Lücke zu füllen, und analysieren diesmal den I/O-Chip der Ryzen-3000-CPUs, dessen Aufbau auch bei X570 und TRX40 genutzt wird.

Per E-Mail versenden

- Kommentare (11)
  Zur Diskussion im Forum
  
  Von Leo-Nardo Komplett-PC-Käufer(in)
  
  Danke für das Video, ich fand es hochinteressant. Den ersten Teil kannte ich noch nicht, werde ihn mir jetzt aber auch noch gönnen.
  
  Zitieren
  
  Von Leo-Nardo Komplett-PC-Käufer(in)
  
  Danke für das Video, ich fand es hochinteressant. Den ersten Teil kannte ich noch nicht, werde ihn mir jetzt aber auch noch gönnen.
  
  Zitieren
  
  Von PCGH_Torsten Kokü-Junkie (m/w)
  
  Zitat von Der_Unbekannte
  
  Trotzdem bleiben es Mutmaßungen, und nichts anderes. Ich kann es absolut nicht leiden, wenn man Mutmaßungen als Fakten verkaufen will.
  
  Zitat von Artikel
  
  keine Fakten aus gesicherten Quellen
  
  Zitat von Artikel
  
  analysiert rein anhand öffentlicher Daten und unserem internen Wissen
  
  Zitat von Artikel
  
  möchten an dieser Stelle aber noch einmal darauf hinweisen, dass es sich nur um eine Interpretation handelt. Die zugrundeliegende Logik ist schlüssig, aber wir können Fehler in einigen Annahmen nicht ausschließen
  
  Mehr als meine "Mutmaßungen" zu kennzeichnen kann ich nicht machen. Lesen muss jeder selber. Oder alternativ das Video schauen.
  
  An dieser Stelle der Hinweis, dass man im Artikel auch etwas zur Anbindung von Audio-Codec und Super-I/O findet, die rein gar nichts mit PCI-Express zu tun haben. Über die Ressourcen-Nutzung und -Austattung von X299- und X399-Platinen, die wenig mit deinen Theorien zu gemein hat, haben wir ebenfalls zahlreiche Artikel veröffentlicht. Und nein, die sind keine schwachsinnigen Mutmaßungen, sondern harte Fakten. Auch hier gilt: Lesen hilft beim Wissen.
  
  Zitieren
  
  Von Der_Unbekannte Freizeitschrauber(in)
  
  Trotzdem bleiben es Mutmaßungen, und nichts anderes. Ich kann es absolut nicht leiden, wenn man Mutmaßungen als Fakten verkaufen will. Ist das gleiche, wie die Leute, die die ganze Zeit etwas von Zen2+ geredet haben, ohne handfeste Informationen darüber.
  
  Jetzt kommt mal meine Mutmaßung: Ich sage, dass AMD die 32 Lanes fest aufgeteilt hat: 16 in Grafik, 4 für M2 und Sata, 8 (ja richtig gehört, konnten wir an TRX40 sehen) für CPU/Chipset Link, wo 4 bisher noch reserviert sind (eventuell mit X670 verfügbar, man will den Kunden ja Gründe für neue Boards über X570 geben) und 4 weitere Dinge für "Sonstige" Sachen.
  
  AMD scheint, was ihre Lane-Konfiguration anbetrifft, die Lane-Konfig strikt einzuhalten,das kann man an den APUs sehen, die 8 ihrer Grafik-Lanes für die integrierte GPU verwenden und somit 8 Lanes für die normalen Grakas bleiben (16 Lanes entsprechen der Sektion "Grafik").
  
  Nun zu den sonstigen Dingen: Ich habe hier ein altes Bedienhandbuch von MSI für ihr X370 Gaming Plus Board vor mir liegen, die ein ganz interessantes Block-Diagramm bezüglich der Lane-Verteilung aufgezeichnet haben (nachsehbar im Internet, ebenso bei ihren X470 Boards kann man das Block Diagramm sehen).
  
  Interessant hierbei ist, dass Sowohl Audio, als auch der NV6795 SuperIO Chip in die CPU führt, NICHT durch den Chipsatz, und um diese Dinge anzubinden, werden logischerweise weitere Lanes benötigt. Wenn man MSI glauben schenken darf, und wenn man diese Informationen kombiniert, dann gelangt man zu der Annahme, dass 4 Lanes für spezielle Anschlüsse und Funktionalität reserviert wurden, die man nicht auf den ersten Blick sieht.
  
  Man darf nicht vergessen, AM4 ist ein sehr flexibler Sockel, bzw. muss es sogar sein, daher kann ich mir vorstellen, dass AMD die Lane-Verteilung vorgegeben hat, insbesondere im Hinblick auf X300, der an sich auch kein Chipsatz ist.
  
  Warum nun auf TR und EPYC alle Lanes zur Verfügung gestellt wurden, kann ebenso begründet werden: Bei TR werden die meisten Anschlüsse der Boards von der CPU versorgt, womit der X399, in gewissen Maßen auch der TRX40 gar nicht vollständig genutzt wird, da man so viele Anschlüsse gar nicht auf das Board bringt (Kann man am heftigsten bei Intel sehen, wo der X299 bis zu 24 weitere Lanes liefert und die Boards ausstattungsmäßig, von Quad Channel und den CPU Lanes abgesehen, eine ähnliche Konnektivität wie Z370/Z390 hat, womit sehr viele Lanes des Chipsatzes ungenutzt sein müssen).
  
  Somit können gewisse Teile hier vom Chipsatz übernommen werden. Ebenso gibt es keinen Grund, die Lanes hier zu reservieren bei HEDT, da es ein Nischensockel ist, der keine Flexibilität benötigt.
  
  Was EPYC anbetrifft, hier geht es um Server, der ohnehin komplett andere Anforderungen hat. Deshalb ist hier ein Vergleich wenig zielführend.
  
  Macht deutlich mehr Sinn, als "Sockel unterdimensioniert". Man entwickelt keinen dicken SUV, und lässt dann aus Kostengründen die hinteren Sitze und den Kofferraum weg, obwohl man die Karosserie und das Design darauf mit entwickelt hat.
  
  Zitieren
  
  Von PCGH_Torsten Kokü-Junkie (m/w)
  
  Ein Pin, der aufgrund seiner Lage nicht für ein weitere unabhängiges Hochfrequenzsignal genutzt werden kann, hilft einem auch nicht weiter. Und du magst einen Blick auf den einzigen anderen Hersteller von gesockelten Prozessoren in auch nur halbwegs vergleichbarer Größe für "schwachsinnig" halten, aber solange AMD nicht feinsäuberlich darlegt, ob sie gegebenenfalls aus reiner Boswilligkeit Ausstattung deaktiviert haben, ist der Vergleich zwischen Techniken mit ähnlicher Zielsetzung der beste Weg zu einer Schlussfolgerung.
  
  Zitieren
  
  Von Der_Unbekannte Freizeitschrauber(in)
  
  Nur weil Intel zu LGA gewechselt ist, heißt das rein gar nichts. Intel ist nicht das Maß der Dinge. Macht trotzdem keinen Sinn.
  
  So viele Pins kosten die 4 Lanes gar nicht. Ich habe die genaue Zahl nicht mehr im Kopf, aber ich meine, dass man um die 30 - 50 Pins für 8 Lanes mehr bräuchte, und das halte ich bei 1331 Kontakten für sehr unwahrscheinlich, dass diese nicht implementiert wurden. (Ist auch etwas her, ich habe mich damals mit Zen1 näher beschäftigt)
  
  Gleichzeitig, woher willst du wissen, dass Sockel AM4 bereits jeden erdenklichen Pin nutzt? Selbst Intel nutzte auf 1151 nicht alle Pins, einige waren "reserved", genauso wie Sockel 2066, die jetzt freigeschaltet wurden.
  
  Um eines zu verdeutlichen: Ich sage nicht, dass wir die zusätzlichen Lanes je auf AM4 zu sehen bekommen, ich sage, dass es seitens AMD andere Gründe gibt, da die Aussage "Sockel hat zu wenig Pins" einfach zu widersinnig, unlogisch und teilweise sogar schwachsinnig anmuted, wenn man einen Zukunftssicheren Sockel über mehrere Generationen bringen will und auch muss, der sich mit Intel und allen Eventualitäten (auch ausstattungsmäßig) messen können muss.
  
  Zitieren
  
  Direkt zum Diskussionsende