Radeon RX 8000: Aufbau von eingestelltem Navi 4C geleakt - mit 13 bis 20 Chiplets [Gerücht]

News 15.08.2023 um 13:15 Uhr Valentin Sattler Als bevorzugte Quelle auf Google hinzufügen

Quelle: AMD (Screenshot: PCGH)

Angeblich sollte die GPU Navi 4C als Teil der Radeon-RX-8000-Serie über 13 bis 20 Chiplets verfügen - die Entwicklung wurde aber bereits eingestellt. Trotzdem dürfte AMDs Fokus darauf liegen, auch GPUs in Zukunft immer weiter zu zerteilen.

Sofern AMD dem bisherigen Release-Zeitraum treu bleibt, dürfte das Unternehmen nächstes Jahr die ersten RX-8000-Grafikkarten auf den Markt bringen. Wie schon bei den Polaris-Grafikkarten 2016 und den Navi-10-Grafikkarten 2019 sollen High-End-Nutzer dabei aber angeblich erneut außen vor sein: Aktuelle Gerüchte sprechen dafür, dass AMD die Entwicklung der großen RDNA4-GPUs eingestellt hat.

Navi 4C - Ein Gigant

Dasselbe berichtet nun auch der für seine Leaks bekannte Youtube-Kanal Moore's Law Is Dead. In einem aktuellen Video zeigt er den angeblichen Aufbau eines Chips namens Navi 4C. Gleichzeitig wird betont, dass dieser veröffentlicht werden kann, weil AMD die Entwicklung eingestellt hat. Zudem sollen auch die größten RDNA4-GPUs Navi 41 und Navi 42 eingestellt worden sein. Dabei ist aber unklar, inwiefern hier eine Verbindung zu Navi 4C besteht - möglicherweise handelt es sich um dieselben Produkte.

Quelle: Moore's Law Is Dead Navi 4C sollte angeblich über 13 bis 20 Chiplets verfügen und diese auf mehreren Interposern verteilen.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

Falls der Leak von Moore's Law Is Dead korrekt ist, wäre der Entwicklungsstopp bei Navi 4C in jedem Fall ein Grund zur Trauer - denn der Chip wäre wohl gigantisch geworden. Während Navi 31 aktuell auf einen GPU-Chip und sechs Speicherchips auf einem Interposer setzt, hätte Navi 4C dieses Konzept noch deutlich weiter treiben sollen. Für die schnellsten RX-8000-Grafikkarten hätte es demnach nicht nur einen, sondern mehrere Interposer gegeben.

Ein Bild in dem Video zeigt einen Aufbau, bei dem auf dem Package drei Interposer (Active Interposer Dies, AID) und die Speicherchips untergebracht sind. Auf den AIDs sollen sich dann wiederum mehrere Shader-Chips (Shader Engine Die, SED) befinden. In der Seitenansicht sind dabei drei SEDs pro AID zu sehen, in die Tiefe könnten es aber womöglich noch mehr sein. Insgesamt geht Moore's Law Is Dead dabei davon aus, dass Navi 4C insgesamt auf 13 bis 20 Chiplets gekommen wäre.

Quelle: AMD / Free Patents Online Die gezeigte Struktur wurde schon im März 2023 von AMD patentiert. Beschrieben wird ein Aufbau mit getrennten Interposern, die durch Brückenchips verbunden werden. Dieser starke Fokus auf Chiplets könnte dabei immense Vorteile bieten, da sich kleinere Rechenchips vergleichsweise einfach und kostengünstig fertigen lassen. Andererseits könnten sich dadurch bei der Kommunikation über Chips und Interposer hinweg Probleme ergeben, die möglicherweise zur Einstellung des Projekts geführt haben - falls es denn überhaupt existiert hat.

Auch interessant: Aufwendige Reparatur: Radeon RX 6900 XT wird mit Bohrer und Draht gerettet

In jedem Fall bleibt spannend, wie AMD den aktuellen Chiplet-Ansatz von RDNA3 fortsetzen will. Ob schon bei den Radeon-RX-8000-Grafikkarten mit RDNA4 oder erst später - in jedem Fall dürfte die Aufspaltung in mehrere Chips in Zukunft immer weiter voranschreiten. AMDs Ziel könnte es dabei sein, wie bei den Ryzen-Prozessoren den gesamten Markt mit nur wenigen GPU-Chips abzudecken, die gegebenenfalls einfach mehrfach verbaut werden.

Quelle: via Videocardz / 3D Center

Artikel teilen

Radeon RX 8000: Aufbau von eingestelltem Navi 4C geleakt - mit 13 bis 20 Chiplets [Gerücht] Angeblich sollte die GPU Navi 4C als Teil der Radeon-RX-8000-Serie über 13 bis 20 Chiplets verfügen - die Entwicklung wurde aber bereits eingestellt. Trotzdem dürfte AMDs Fokus darauf liegen, auch GPUs in Zukunft immer weiter zu zerteilen.

Per E-Mail versenden

- Kommentare (39)
  Zur Diskussion im Forum
  
  Von PCGH_Torsten Kokü-Junkie (m/w)
  
  Deine Grundargumente sind ja auch alle nicht verkehrt, aber eben selbst in der Summe nicht so stark.
  
  Und 70 Prozent Yield sind nicht "gut". Sondern meiner Meinung nach eher mies und nahe der Untergrenze, ab der man sich bei Chips mit hoher Marge eine Produktion überlegen kann. AMD soll so einen Wert meiner Erinnerung nach ganz am Anfang der Zen-2-Produktion, mehrere Monate vor Launch gehabt haben. Damals waren sie der erste Nutzer dieser Variation von TSMC N7-Fertigung (mobile Apples waren die einzigen vorangehenden Chips); möglicherweise lief das sogar noch als risk production. Auf alle Fälle nicht mature.
  
  Konkrete Zahlen für letzteres kann ich, als eher im Bereich Plattformen aktiver Redakteur, genauso wenig bieten, wie jeder andere auch. Schätzungen für den immer noch nur eingeschränkt brauchbaren N3 liegen aktuell bei beispielsweise 55 Prozent, das konnte TSMC gar nicht mehr Wafer-weise verkaufen, sondern nur auf Basis funktionierender Chips abrechnen. Für den Beginn der eigentlichen Serienfertigung wurden 80 Prozent versprochen und nach der Serienfertigung ist wenigstens noch einmal eine Halbierung der Fehlerdichte üblich. Also kann man ab 90 Prozent von einem normalem Yield sprechen. (Wobei man natürlich auch die Chipgröße berücksichtigen muss. Seitens der Foundry gibt es nur eine Fehlerdichte, deren Auswirkungen auf den Yield sind auch eine Frage des zu fertigenden Chips, s.u.)
  
  Die letzte nicht geschätzte Zahl direkt vom Hersteller gab es dieses Frühjahr bei einer Intel-Präsentation, allerdings ging es da ums Packaging. Co-EMIB & Co können einen Chip ja auch noch nach der Ausbelichtung schrotten, aber für diese Schritte wurden "high 99.9" versprochen. Eine Angabe, die nicht Teil der auch als IDF-2.0-Werbung gedachten Präsentation war, sondern erst auf Nachfrage im Q&A fiel. Zumindest an dieser Stelle ist so ein Yield also kein erwähnenswertes supergeil-Uber-Feature, sondern einfach Standard für einen an Kunden vermarkteten Prozess.
  
  Zitat von Bärenmarke
  
  Selbstverständlich stimmt ersteres, da man aus einem Wafer deutlich mehr Chiplets bekommt, als würde man riese Monolithen fertigen. Einfache Mathematik, die auch schon oft von anderen Usern vorgerechnet wurde.
  Kannst dir ja ausrechnen wie viel 96 Core Monolithen man aus einem Wafer bekommen würde, ein entsprechender Yield vorausgesetzt.
  
  Ja, ich kann mir das ausrechnen. Du hast es scheinbar nie gemacht. Bei einem wirklich rund laufenden Fertigung (s.o., ich nehme mal eine Fehlerdichte von 0,0001/cm²) und den Standard-Wafer-Parametern des beliebtesten Rechners, ergibt ein 300-mm-Wafer 836 gute 7-×-10-mm-CCDs – 99.99er Yield. Das reicht für 69 96-Kerner.
  Packe ich die gleichen zwölf Kernbereiche zu circa. 5,5 × 10 mm auf einen gemeinsem Chip, füge den gleichen 1,5 × 4 mm Management-Bereich hinzu sowie vier bis fünf Interface-Bereichen (3 würden eigentlich reichen), habe ich einen gigantischen 30 × 23,5 mm 96-Kern-Monolithen. Der käme bei gleicher Defektdichte nur noch auf .93, was aber immer noch 72 Stück prom 300-mm-Wafer bedeutet. Also drei mehr als mit dem Chiplet-Ansatz. (Alle Flächenschätzungen auf Basis von Zen-4-Die-Shots)
  Braucht man 0,4 statt 0,2 mm Abstand zwischen einzelnen Chips zum zersägen, schrumpft die Ausbeute guter Exemplare umgekehrt auf 66 Chiplet-96-Kerner und weiterhin 72 Monolithen. Das wären dann schon 9 Prozent mehr. Sowas kann man, in der Tat, alles ausrechnen. Bevor man gegenteiltige Behauptungen postet.
  
  Bezüglich der Ausbeute lohnen sich Chiplets nur wenn die Fertigung Probleme bereitet. Der Crossover in diesem, sehr extremen Rechenbeispiel*, liegt bei 0,008 Fehlern pro cm². Da schaffen die Chiplets immer noch 831 intakte Exemplare, was weiterhin knapp für 69 CPUs reicht (Yield 99.4), während die Monolithen schon auf 68 CPUs absacken (Yield 94.5). Bei hohen Fehlerraten, z.B. 0,08/cm², wo die Chiplets ihrerseits mäßige 95 Prozent Yield erzielen (=> nicht ganz 66 96-Kerner), brechen die Monolithen dann katastrophal auf 59 Prozent ein (=> 42 komplett intakte Chips). Sowas braucht man sich mit "einfacher Mathematik" aber nicht mehr angucken, da spielen die Verwertungsmöglichkeiten für teildefekte Chips eine zu große Rolle und du hast deine falsche Aussage ausdrücklich auf gute Yields bezogen. 59-Prozent-Prozesse gehören da nicht dazu.
  
  *: Verzichtet man auf Bashing und Cherry Picking und legt das aktuell größte monolithische Design (Sapphire Rapdids MCC) mit seinen 32 Kernen einer realitätsnahen Betrachtung zu Grunde, so verschieben sich die Grenzen deutlich. Mit obigen Daten für die einzelne Bestandteile wäre der (not-so-)"Big Chip"-Ansatz dann maximal 20 × 12,5 mm groß und man hätte mit der sehr guten Fertigung 218 CPUs pro Wafer gegenüber 209 mit Chiplets. Der Crossover träte bei 0,025 Fehler/cm² ein mit 205 intakten Monolithen (94 Prozent Yield) gegen 205,5 Chiplet-CPUs (98 Prozent Yield). Real misst SRP MMC überigens 30 × 25 mm, ist also noch etwas größer als das hypothetische Kernmonster aus der ersten Rechnung, nur passen wegen des antiken Fertigungsprozesses unter der vielen Co-Prozessoren halt keine 96 Rechenkerne drauf. (63 Slices sind aber gar nicht mal weit weg.)
  
  Zu beachten ist in allen Rechnungen, dass die Chiplet-Varianten einen aufwendigen zentralen Hub und ein komplexeres Package brauchen, um vier respektive zwölf Compute-Chips zu vernetzen, während der Monolith seinerseits nach Navi-31-Vorbild als zentraler Knoten zwischen simplen I/O-Bridges dienen kann. Nimmt man noch die Teilverwertung hinzu, dürfte der 32-Kern-Monolith selbst bei 0,1 Fehlern/cm² (171 komplett intakte Chips + teildefekte) mit einer schrottigen 78-Prozent-Yield-Rate noch genauso viel Profit einbringen, wie Chiplets mit 195× 32-Kernen je Wafer. Wer, wie Nvidia, ausschließlich Monolithen anbietet, spart zudem die Entwicklungskosten für die Interfaces und verschiebt die ökonomische Grenze so noch ein weiteres Stück in Richtung Monolith.
  
  Zitat
  
  Das wäre die Frage, ob sie das schon können?
  
  AMD hat mit allen dafür nötigen Techniken spätestens seit Zen 1 und Vega Erfahrung und TSMC sowieso. Die Frage ist nicht, ob sie das können, sondern ob es technisch sinnvoll wäre, so etwas mit der aktuellen Technik zu versuchen. Und meine Antwort darauf habe ich gegeben: Unwahrscheinlich. Monolithen haben einfach zu viele Vorteile.
  
  Zitieren
  
  Von PCGH_Torsten Kokü-Junkie (m/w)
  
  Deine Grundargumente sind ja auch alle nicht verkehrt, aber eben selbst in der Summe nicht so stark.
  
  Und 70 Prozent Yield sind nicht "gut". Sondern meiner Meinung nach eher mies und nahe der Untergrenze, ab der man sich bei Chips mit hoher Marge eine Produktion überlegen kann. AMD soll so einen Wert meiner Erinnerung nach ganz am Anfang der Zen-2-Produktion, mehrere Monate vor Launch gehabt haben. Damals waren sie der erste Nutzer dieser Variation von TSMC N7-Fertigung (mobile Apples waren die einzigen vorangehenden Chips); möglicherweise lief das sogar noch als risk production. Auf alle Fälle nicht mature.
  
  Konkrete Zahlen für letzteres kann ich, als eher im Bereich Plattformen aktiver Redakteur, genauso wenig bieten, wie jeder andere auch. Schätzungen für den immer noch nur eingeschränkt brauchbaren N3 liegen aktuell bei beispielsweise 55 Prozent, das konnte TSMC gar nicht mehr Wafer-weise verkaufen, sondern nur auf Basis funktionierender Chips abrechnen. Für den Beginn der eigentlichen Serienfertigung wurden 80 Prozent versprochen und nach der Serienfertigung ist wenigstens noch einmal eine Halbierung der Fehlerdichte üblich. Also kann man ab 90 Prozent von einem normalem Yield sprechen. (Wobei man natürlich auch die Chipgröße berücksichtigen muss. Seitens der Foundry gibt es nur eine Fehlerdichte, deren Auswirkungen auf den Yield sind auch eine Frage des zu fertigenden Chips, s.u.)
  
  Die letzte nicht geschätzte Zahl direkt vom Hersteller gab es dieses Frühjahr bei einer Intel-Präsentation, allerdings ging es da ums Packaging. Co-EMIB & Co können einen Chip ja auch noch nach der Ausbelichtung schrotten, aber für diese Schritte wurden "high 99.9" versprochen. Eine Angabe, die nicht Teil der auch als IDF-2.0-Werbung gedachten Präsentation war, sondern erst auf Nachfrage im Q&A fiel. Zumindest an dieser Stelle ist so ein Yield also kein erwähnenswertes supergeil-Uber-Feature, sondern einfach Standard für einen an Kunden vermarkteten Prozess.
  
  Zitat von Bärenmarke
  
  Selbstverständlich stimmt ersteres, da man aus einem Wafer deutlich mehr Chiplets bekommt, als würde man riese Monolithen fertigen. Einfache Mathematik, die auch schon oft von anderen Usern vorgerechnet wurde.
  Kannst dir ja ausrechnen wie viel 96 Core Monolithen man aus einem Wafer bekommen würde, ein entsprechender Yield vorausgesetzt.
  
  Ja, ich kann mir das ausrechnen. Du hast es scheinbar nie gemacht. Bei einem wirklich rund laufenden Fertigung (s.o., ich nehme mal eine Fehlerdichte von 0,0001/cm²) und den Standard-Wafer-Parametern des beliebtesten Rechners, ergibt ein 300-mm-Wafer 836 gute 7-×-10-mm-CCDs – 99.99er Yield. Das reicht für 69 96-Kerner.
  Packe ich die gleichen zwölf Kernbereiche zu circa. 5,5 × 10 mm auf einen gemeinsem Chip, füge den gleichen 1,5 × 4 mm Management-Bereich hinzu sowie vier bis fünf Interface-Bereichen (3 würden eigentlich reichen), habe ich einen gigantischen 30 × 23,5 mm 96-Kern-Monolithen. Der käme bei gleicher Defektdichte nur noch auf .93, was aber immer noch 72 Stück prom 300-mm-Wafer bedeutet. Also drei mehr als mit dem Chiplet-Ansatz. (Alle Flächenschätzungen auf Basis von Zen-4-Die-Shots)
  Braucht man 0,4 statt 0,2 mm Abstand zwischen einzelnen Chips zum zersägen, schrumpft die Ausbeute guter Exemplare umgekehrt auf 66 Chiplet-96-Kerner und weiterhin 72 Monolithen. Das wären dann schon 9 Prozent mehr. Sowas kann man, in der Tat, alles ausrechnen. Bevor man gegenteiltige Behauptungen postet.
  
  Bezüglich der Ausbeute lohnen sich Chiplets nur wenn die Fertigung Probleme bereitet. Der Crossover in diesem, sehr extremen Rechenbeispiel*, liegt bei 0,008 Fehlern pro cm². Da schaffen die Chiplets immer noch 831 intakte Exemplare, was weiterhin knapp für 69 CPUs reicht (Yield 99.4), während die Monolithen schon auf 68 CPUs absacken (Yield 94.5). Bei hohen Fehlerraten, z.B. 0,08/cm², wo die Chiplets ihrerseits mäßige 95 Prozent Yield erzielen (=> nicht ganz 66 96-Kerner), brechen die Monolithen dann katastrophal auf 59 Prozent ein (=> 42 komplett intakte Chips). Sowas braucht man sich mit "einfacher Mathematik" aber nicht mehr angucken, da spielen die Verwertungsmöglichkeiten für teildefekte Chips eine zu große Rolle und du hast deine falsche Aussage ausdrücklich auf gute Yields bezogen. 59-Prozent-Prozesse gehören da nicht dazu.
  
  *: Verzichtet man auf Bashing und Cherry Picking und legt das aktuell größte monolithische Design (Sapphire Rapdids MCC) mit seinen 32 Kernen einer realitätsnahen Betrachtung zu Grunde, so verschieben sich die Grenzen deutlich. Mit obigen Daten für die einzelne Bestandteile wäre der (not-so-)"Big Chip"-Ansatz dann maximal 20 × 12,5 mm groß und man hätte mit der sehr guten Fertigung 218 CPUs pro Wafer gegenüber 209 mit Chiplets. Der Crossover träte bei 0,025 Fehler/cm² ein mit 205 intakten Monolithen (94 Prozent Yield) gegen 205,5 Chiplet-CPUs (98 Prozent Yield). Real misst SRP MMC überigens 30 × 25 mm, ist also noch etwas größer als das hypothetische Kernmonster aus der ersten Rechnung, nur passen wegen des antiken Fertigungsprozesses unter der vielen Co-Prozessoren halt keine 96 Rechenkerne drauf. (63 Slices sind aber gar nicht mal weit weg.)
  
  Zu beachten ist in allen Rechnungen, dass die Chiplet-Varianten einen aufwendigen zentralen Hub und ein komplexeres Package brauchen, um vier respektive zwölf Compute-Chips zu vernetzen, während der Monolith seinerseits nach Navi-31-Vorbild als zentraler Knoten zwischen simplen I/O-Bridges dienen kann. Nimmt man noch die Teilverwertung hinzu, dürfte der 32-Kern-Monolith selbst bei 0,1 Fehlern/cm² (171 komplett intakte Chips + teildefekte) mit einer schrottigen 78-Prozent-Yield-Rate noch genauso viel Profit einbringen, wie Chiplets mit 195× 32-Kernen je Wafer. Wer, wie Nvidia, ausschließlich Monolithen anbietet, spart zudem die Entwicklungskosten für die Interfaces und verschiebt die ökonomische Grenze so noch ein weiteres Stück in Richtung Monolith.
  
  Zitat
  
  Das wäre die Frage, ob sie das schon können?
  
  AMD hat mit allen dafür nötigen Techniken spätestens seit Zen 1 und Vega Erfahrung und TSMC sowieso. Die Frage ist nicht, ob sie das können, sondern ob es technisch sinnvoll wäre, so etwas mit der aktuellen Technik zu versuchen. Und meine Antwort darauf habe ich gegeben: Unwahrscheinlich. Monolithen haben einfach zu viele Vorteile.
  
  Zitieren
  
  Von BigBoymann BIOS-Overclocker(in)
  
  Zitat von PCGH_Torsten
  
  Du beanspruchst ja gerne, alles über die niedrigen Produktionskosten von AMD zu wissen. Da kannst du uns doch bestimmt mal vorrechnen, wie man mit 40 Prozent mehr Flächenbedarf (!) dennoch auf einen niedrigeren Gesamtpreis kommt? In einem Prozess mit guten Yield-Raten?
  
  Nönö, ich beanspruche hier mal gar nix!
  
  Ich versuche aber mal die "Leaks und Gerüchte" die bei der Aussage in meinem Kopf rumschwirrten zusammen zu bringen.
  
  1.) Nvidia produziert in einem spezialisierten 5nm Prozess, der wohl etwas teurer ist. Hier habe ich (ohne dies aktuell belegen zu können, Google hilft mir nicht weiter) irgendwas im Kopf bis zu 15% teurer.
  
  2.) Was sind gute Yield Raten? Hier gibt es ja außer Gerüchten nahezu keine aktuellen Infos, daher bediene ich mich (in meinem Kopf) immer an alten Werten und meine da in Erinnerung zu liegen, dass Yields über 70% schon recht ordentlich sind.
  
  3.) AMD produziert ja nur den GCD in 5nm, die Speicherchips laufen ja in einem aktualisierten 7nm Prozess vom Band, dürften daher (analog 1.)) auch ca. 15% teurer sein als 7nm Standard, damit aber wohl immer noch deutlich günstiger als der spezialisierte 5nm Prozess
  
  4.) Packing auf dem Wafer, wobei das zugegebenermaßen vor allem auf die Speicherchips zutrifft, die einen Wafer ja schon sehr ordentlich ausfüllen können. So würden die knapp 300mm² des GCD einen 300mm Wafer mit 198 Stück bestücken, die GCDs passen 1698 Stück / 6 = 283 auf einen Wafer. Bedeutet in meinen Augen, dass man 2,43 Wafer benötigt um 283 GPUs zu realisieren. (immer quadratisch gerechnet, hab leider keine Angaben gefunden, für genauere Ausmaße und natürlich DPW Calculator sonst Standard gelassen).
  
  (edit: mal interessiert wie sich die "Ausbeute" bei kleineren Chips so verhält. Ein 300mm Wafer sollte meinen Berechnungen nach 70.685 mm² Flächeninhalt haben, die GCDs nutzen davon 61.128mm² (86,47%), die GCDs (mit 307mm²) nutzen 60.786 mm² (85,99%), NV nutzt "nur" 59.062 mm² (83,55%). Schon recht erstaunlich, wie sich die Verhältnisse "verschieben", wobei ich gedacht hätte, dass die kleinen prozentual höher liegen sollten (werden sie auch, da ich nicht mehr alle Kommas im Kopf hatte und platt mit 36mm² gerechnet hab)
  Aber soviel ist es dann eben doch nicht, 2% mehr oder weniger.
  
  Nvidia bekommt 156 Chips auf einen Wafer, benötigt also 1,81 Wafer um die gleiche Anzahl an Chips zu produzieren. (Der Vorsprung ist schon beachtlich geschmolzen, nur noch 34,25%).
  
  5.) Zu guter Letzt der Dreisatz,
  Waferpreis 100% = 100 EUR
  1 Wafer in 6nm (85%) = 85 EUR
  1,43 Wafer in 5 nm (100%) = 143 EUR
  In Summe = 228 EUR
  
  zu 1,81 Wafer in 4nm (115%) = 208,15 EUR
  
  Na gut, geb mich geschlagen. Kaum zu schaffen! Auch wenn der Abstand schon deutlich schmilzt, in meinem Kopf (ich hätte ja mal nachrechnen sollen) hat das Ergebnis etwas anders ausgesehen, denke auch, dass der hier berechnete Abstand gar nicht so abwegig ist (evtl. sogar geringer, da der Yield auf die MCDs quasi keinen Einfluss haben dürfte (also marginal), während er beim NV Chip etwas über dem AMD GCD liegt), aber es wird wohl doch so sein, dass AMD teurer produziert als Nvidia.
  
  Zitieren
  
  Von Bärenmarke BIOS-Overclocker(in)
  
  Zitat von PCGH_Torsten
  
  Letzteres stimmt, ersteres nicht: Chiplets verbrauchen pro Funktionseinheit sogar mehr Waferfläche. Man hat viel mehr Keep-Out-Areas entlang der Chipränder, die frei bleiben müssen, und man braucht zusätzliche Interface-Technik auf den Chips, um die Verbindung über das Substrat zu bewerkstelligen. Diese Nachteile bekommst du nur durch die etwas bessere Flächennutzung am Wafer-Rand nicht ausgeglichen. Chiplets lohnen sich erst, wenn von den auf diesem Wege ausbelichteten Schaltungen ein größer Anteil gegen Bares verkauft werden kann. Entweder, weil man nicht mehr so vieles absichtlich deaktivieren muss, um seine Produktpalette fein zu staffeln, oder wenn wegen hoher Defektraten zu viele große Monolithen ganz in den Müll wandern müssten.
  
  Selbstverständlich stimmt ersteres, da man aus einem Wafer deutlich mehr Chiplets bekommt, als würde man riese Monolithen fertigen. Einfache Mathematik, die auch schon oft von anderen Usern vorgerechnet wurde.
  Kannst dir ja ausrechnen wie viel 96 Core Monolithen man aus einem Wafer bekommen würde, ein entsprechender Yield vorausgesetzt.
  Und da ich mehr Einheiten aus dem Wafer bekomme, die ich zudem flexibel kombinieren kann hab ich mir mit Chiplets Waferfläche gespart bzw. fertige günstiger.
  
  Zitat von PCGH_Torsten
  
  Ersteres Aspekt gilt allerdings nur für geringe Stückzahlen/für Hersteller mit niedrigen Marktanteilen. Wenn man erstmal groß im Geschäft ist, hat man zusätzlich zu "deaktivieren" und "zusammenstückeln" auch die Option, auf ohnehin benötigten, zusätzlichen Produktionslinien ein Design in angepasster Größe fertigen zu lassen. Dann bleibt als einziges Argument für symmetrische Chiplets* der Yield übrig. Intel z.B. fertigt für Sapphire Rapids XXC sogar zwei verschiedene Tiles und nutzt keinen davon einem weiteren Produkt, zieht also gar keinen Skalierungs-, sondern nur einen Yield-Vorteil aus der geteilten Bauweise. (Und dabei sind von SPR nicht einmal hohe Stückzahlen zu erwarten.^^)
  
  Ich hab ja auch nicht von intel, sondern von AMD gesprochen ist ja auch keine intel news hier
  Und dass der Ansatz von intel ein völlig anderer ist als der von AMD, darüber brauchen wir denke ich nicht diskutieren.
  
  Zitat von PCGH_Torsten
  
  *: Bei asymmetrischen Kombinationen, z.B. ein CCD und IOD, profitiert man auch ganz allgemein von der Möglichkeit, unterschiedliche Fertigungen zu verwenden. Aber hier ging es ja um eine Aufteilung der Shader-Einheiten auf mehrere Chips gleicher Qualität.
  
  Das wäre die Frage, ob sie das schon können? Ich kann es mir ehrlich gesagt schwer vorstellen, dass sowas schon bei RDNA 4 kommt, ich gehe eher von einem optimierten RDNA 3 Design aus. Aber das sehen wir dann ja, was sie nächstes Jahr liefern werden. Vielleicht werden wir alle überrascht, weil die ganzen Gerüchte sind mir noch zu wage.
  
  Zitieren
  
  Von PCGH_Torsten Kokü-Junkie (m/w)
  
  Zitat von BigBoymann
  
  Dennoch wird die 7900XTX in der Produktion günstiger sein, zum einen kommt "nur" 5nm und nicht ein spezialisierter Prozess zum Einsatz, zum anderen ist der GCD nur 350mm² groß, während die Speicherchips einfacher (daher weniger fehleranfällig) sind und sehr klein.
  
  Du beanspruchst ja gerne, alles über die niedrigen Produktionskosten von AMD zu wissen. Da kannst du uns doch bestimmt mal vorrechnen, wie man mit 40 Prozent mehr Flächenbedarf (!) dennoch auf einen niedrigeren Gesamtpreis kommt? In einem Prozess mit guten Yield-Raten?
  
  Zitat von BigBoymann
  
  Waren das denn wirklich die "größten" Probleme? Lag dies nicht eher an der Methode AFR (alternate Frame Rendering) und der Varianz der einzelnen Bilder, glaube die Latenzprobleme waren seinerzeit gar nicht so im Vordergrund, da ging es letztlich um Bandbreite und Verteilung der RechenleistunG (welche bedingt durch AFR (SFR gab es ja auch, wurde aber nahezu gar nicht genutzt und erzielte eben weit schlechtere Balkendiagramme). Kann mir aber gar nicht vorstellen, dass AFR eine Lösung im Bereich der MCMs sein sollte.
  
  Mein laienhaftes Verständnis hat seit den Ankündigungen um den MCM Ansatz immer wieder im Kopf, dass man hier nicht einfach nur zwei GCDs (oder mehr) nimmt, sondern das man die ganzen Spezialeinheiten "trennt".
  
  AFR war keine Ursache, sondern eine Reaktion auf das Bandbreitenproblem. Die Verbindung zwischen den GPUs war bei Crossfire respektive bei Nvidias SLI zu langsam, als dass sie gemeinsam an vielen, Frame-weiten-Berechnungen damaliger Spiele hätten arbeiten können. Im SFR-Modus führte das dazu, dass im ersten Renderabschnitt teilweise jede GPU für sich die komplette Geometrie und die komplette Beleuchtung redundant selbst berechnet hat und nach hinten raus sämtliche Post-Effekte von nur einer GPU bearbeitet wurden, während die andere Däumchen drehte. Oder, wenn man Bild-übergreifende Effekte wie TAA zum Einsatz kamen, auch dieser Teil des Renderings zweimal durchgeführt werden musste. Nur am auf einzelne Pixel beschränkten Teil der Pipeline wurde effektiv parallel gearbeitet und nach dieser geringen Beschleunigung mussten dann auch noch die Ergebnisse ausgetauscht werden. (Im Prinzip der Technik-Stand von 3dfx' SLI. Nur dass deren Grafikchips in der vor-GPU-Ära halt sowieso nur Pixel-bezogenes berechnet und alles andere der CPU überlassen haben, sodass keine Redundanzen resultierten.)
  
  AFR löst all diese Probleme, in dem die GPUs parallel an unterschiedlichen Aufgabenstellungen arbeiten können und nur ganz am Ende das Gesamtergebnis für Ausgabe und ggf. TAA austauschen müssen. Der Preis dafür waren mehr Lag (wobei wir den jetzt mit DLSS3 auch wieder haben) und Mikroruckler. Neue Multi-Chip-GPUs werden vor dem gleichen Dilemma stehen, können innerhalb eines Packages aber eine viel schnellere Verbindung realisieren. Ob die bei modernen Effekten dennoch zum Flaschenhals wird, bleibt abzuwarten. Chiplets wurden jedenfalls nicht adaptiert und zuletzt brachte selbst die Bündelung verwandter Berechnungen innerhalb monolithischer Chips deutliche Performance-Vorteile, ebenso wie Abkoppelung vom "lahmen" VRAM durch größere Caches. Jetzt jede einzelne von beispielsweise 4×4 Compute-Tiles mit jeder anderen so schnell zu verbinden, dass sie jedes beliebige Ergebnis untereinander deutlich schneller austauschen können, als bisherige monolithisches GPUs Daten aus/in den VRAM transferieren, das ist auch auf einem Silizium-Interposern kein Selbstläufer.
  
  Intel zum Beispiel setzt bei Ponte Vecchio voll auf getrenntes Silizium für nahezu alles und scheint damit, innerhalb des Fertigungsnodes (also verglichen mit etwas älteren Nvidia-/AMD-Angeboten), ein technisch gelungenes Gesamtprodukt für einen Markt abgeliefert zu haben, der schon zu SLI-Zeiten kein Problem mit Multi-GPU-Skalierung hatte. Von den Desktop-Arcs, die auf der gleichen Architektur basieren, oder von Intel-IGPs, die über ein relativ betrachtet extremes Leistungsspektrum skalieren sollen, sind dagegen nicht einmal Gerüchte über Multi-Chip-Designs bekannt. Ab Meteor Lake wird es zwar ein extra IGP-Tile geben, dass beherbergt aber immer die gesamte IGP. Der schon x-fach vorgeschlagene Ansatz, eine Basis-Einheit für Office-Rechner fest in den I/O-Tile zu integrieren und dann für leidliche Gaming-Fähigkeiten in Ultrabooks 1/2/3 extra Tiles mit zusätzlichen Shadern hinzuzufügen, wird nicht umgesetzt. Obwohl die nötige Technik seit Ponte Vecchio in der legendären Schublade liegt und obwohl man mit 10/20/30 davon auch gleich noch eine dedizierte Arc aus der gleichen Produktion ableiten könnte. Stattdessen lässt Intel monolithische IGP-Tiles in verschiedenen Größen für verschiedene Zielmärkte fertigen.
  
  Das kann natürlich auch daran liegen, dass Intel immer mal wieder richtig merkwürdige Entscheidungen trifft, aber ich tippe eher darauf, dass die Performance-Nachteile einer Multi-Chip-GPU viel größer waren als die Fertigungsvorteile. Wenn man pro Wafer-Fläche netto zum Beispiel 5 Prozent mehr Silizium als aktive Recheneinheit verkaufen kann, aber 30 Prozent mehr braucht, um die gleiche effektive Renderleistung zu liefern oder gar 60 Prozent mehr, um das in untertaktetem Zustand bei gleichem Gesamtstromverbrauch zu schaffen, dann lohnen sich Tiles einfach nicht.
  
  Zitieren
  
  Von facehugger Trockeneisprofi (m/w)
  
  Zitat von BigBoymann
  
  Zweifelsohne, die Ankündigung wird AMD "hart" treffen, wenn auch bei Weitem nicht so hart wie viele meinen. Denn wie oft verkauft sich so eine 4080/4090?
  
  Letztere vielleicht gar nicht mal so schlecht. Ja, dat Dingens kostet ein kleines Vermögen und mir ist Nvidia`s Gebaren/Verhalten seit langem auch ein Dorn im Auge. Aber Grakas bauen können die und die 4090 ist die schnellste Pixelschubse am Markt, bietet mit 24GB VRAM ein beruhigendes Polster, die Karte kannst du mit ~300W ohne nennenswerte Verluste betreiben und mit ihr ist endlich wirklicher Spaß in 4K (samt Raytracing) möglich.
  
  Daher sind die knapp 1600€ für manche () im Endeffekt gut angelegtes Geld...
  
  Was AMD angeht: egal welches Chipdesign sie nun auch verwenden, ich bin der letzte der etwas gegen eine "neue" HD7970 hätte
  
  Gruß
  
  Zitieren
  
  Direkt zum Diskussionsende

Hoch

Print / Abo

Apps

Die Redaktion Datenschutz Artikel-Archiv Datenschutz-Optionen Mediadaten Impressum Utiq verwalten Abo kündigen Vertrag widerrufen AGB Inhalt melden Newsletter

Navi 4C - Ein Gigant

Artikel teilen

Kommentare (39)