Geforce RTX 4000: Angeblich mit 100 TFLOPS FP32-Performance
Die Geforce RTX 4090 soll angeblich mit 100 TFLOPS FP32-Performance kommen. Der AD102 wäre damit auf dem Papier etwas fixer als Navi 31 von AMD.
Der Geforce RTX 4000 wird als AD102 schon seit geraumer Zeit 18.432 FP32-Shader nachgesagt. Man vermutet, dass damit die Geforce RTX 4090 bestückt wird und die soll laut jüngsten Gerüchten etwas über 100 TFLOPS Rasterleistung erreichen und damit auch etwas mehr als die schnellste Radeon RX 7000, die 92 TFLOPS haben soll. Das wäre ca. der Faktor 2,8 zur Geforce RTX 3090, was zunächst auch nicht ganz unrealistisch erscheint. Die Gerüchte machten bisher deutlich, dass Nvidia die Shader-Zahl beim Flaggschiff deutlich aufstocken wird, der Bruch zum nächstkleineren Modell, der Geforce RTX 4080 aber umso großer wird. Die soll dann laut den Daten, die umher geistern, das Niveau einer RTX 3090 erreichen.
Das würde also bedeuten, dass Nvidia die Leistung um einen Gang und eine Preislage verrückt. In der Ada-Generation bekäme man bei der Geforce RTX 4080 etwa die Leistung, die man aktuell bei der Geforce RTX 3090 bekommt. Wer mehr will, muss dann zum (zwischenzeitlichen) Flaggschiff greifen. Auf dem Papier bietet das schon deutlich mehr. Inwieweit das sich aber dann in reine Leistung umsetzen lässt und wie effizient das vonstattengehen wird, muss sich erst noch zeigen. 600 Watt TGP scheinen im Moment jedenfalls gesetzt zu sein, für OC-Modelle und eine mögliche Ti könnte es darüber hinausgehen - ein PCB mit 900 Watt war schon im Gespräch.
| Chip | SM | GPC | TPC | Shader | Cache | Speicherbus | Speicher | TGP |
|---|---|---|---|---|---|---|---|---|
| AD102 | 144 | 12 | 72 | 18.432 | 96 MiB | 384 Bit | 24 GiB | ≤ 600 W |
| AD103 | 84 | 7 | 48 | 10.752 | 64 MiB | 256 Bit | 16 GiB | ~ 350 W |
| AD104 | 60 | 5 | 30 | 7.680 | 48 MiB | 192 Bit | 12 GiB | ≤ 300 W |
| AD106 | 36 | 3 | 18 | 4.608 | 32 MiB | 128 Bit | 8 GiB | - |
| AD107 | 24 | 3 | 12 | 3.072 | 32 MiB | 128 Bit | 8 GiB | - |
Was beim ganzen Rennen um die schnellste Grafikkarte zuletzt etwas außen vor blieb, sind die Leistungen abseits der Raster-Performance. Insbesondere beim Thema Raytracing dürfte spannend werden, denn das Ziel muss es sein, gute Ergebnisse auch auf einfacheren Karten zu ermöglichen. Der Flaggschiffkampf ist letztlich zwar nett, aber für die meisten Spieler kaum bezahlbar und auch etwas unvernünftig. Bei Nvidia geht man auch davon aus, dass AD102 kein Vollausbau ist - was nahe liegt. Einerseits lässt man sich den Raum für eine Ti oder Titan. Andererseits stellt man sich bei der Ausbeute auf eine sicherere Seite mit dem monolithischen Design, während AMD wohl das Multi-Chip-Design anwendet und deswegen etwas anders aufgestellt ist.
Die kommende Generation wird vor allem auch deshalb spannend, weil die Designs sich etwas stärker unterscheiden als bislang üblich. Die Frage ist auch, ob AMD wirklich eine Enthusiasten-Karte anbieten will, oder ob man Nvidia den Thron einstweilen lässt und sich eine Stufe darunter orientiert.
| AD102 | Navi 31 | |
|---|---|---|
| Node | TSMC N4P | TSMC N5 & N6 |
| Architektur | Ada (Lovelace) | AMD RDNA3 |
| GPU-Package | monolithisch | Multi-Chip-Module (MCM) |
| GPU-Größe | ~ 600 mm² | ~ 800 mm² |
| Dies | 1 | 2 GCD + 4 MCD + 1 IOD |
| GPU-Mega-Clusters | 12 Graphics Processing Clusters (GPC) | 2×3 Shader Engines |
| GPU-Super-Clusters | 72 Texture Processing Clusters (TPC) | 2×30 RDNA Workgroups (WGP) |
| GPU-Clusters | 144 Streaming Multiprocessors (SM) | 120 Compute Units (CU) |
| FP32-Kerne | 18.432 CUDAs | 15.360 Stream Processors |
| GPU-Takt | ~ 2,7 GHz | ~ 3,0 GHz |
| FP32-Performance | ~ 100 TFLOPs | ~ 92 TFLOPs |
| Speichergröße | 24 GiB | ? |
| Speichertempo | 21 Gb/s | ~ 18 Gb/s |
| Speichertyp | GDDR6X | GDDR6 |
| Speicherbus | 21 Gb/s, 384 Bit | ~18 Gb/s, 256 Bit |
| Caches | 96 MiB (L2 Cache) | 256/512 MiB Infinity Cache |
| Power Consumption | 600 Watt | ? |
| Vorstellung | ~ Q3/2022 | ~ Q3/2022 |
| Verkaufsstart | ~ Q4/2022 | ~ Q4/2022 |
Auch lesenswert: Grafikkarte kaufen: Bei Radeon RX 6600 XT & RX 6900 XT größte Bewegung in Marktübersicht
Und auch wenn sich Intel im Moment bedeckt hält, so rechnet man doch schnell mit dem Nachfolger von Alchemist namens Battlemage. Der soll dann recht zügig mitmischen und das auch etwas weiter oben als nur im Mittelfeld, wie es für die Arc A770/750 und A580/380 erwartet wird. Von Intels Seite ist es jedenfalls nicht unklug, erst einmal unauffällig mitzufahren, um mögliche Treiberquerelen und Kinderkrankheiten auszutreiben. Da spart man sich ein Fiasko wie das der Volari.
Quellen: Twitter (@kopite7kimi, @Greymon55), Wccftech, Videocardz

Hier muss man als Konsument halt genau hinschauen und für sich bewerten was man haben will und wie viel man dafür bezahlen möchte. Bei Turing hat man halt die Einführung der Tensor und RT Cores in der ersten Gen im Consumer-Segment teuer bezahlt und nVidia konnte sich das auch leisten, weil AMD sich lieber mit Sony/Microsoft geeinigt hat und auf Nummer sicher ging und daher erst Ende 2020 mit entsprechender Technik aufwarten durfte, so zuminde bzgl. des Raytracings..gif)
Einen entsprechenden kompetetiven Vorteil wird jede Firma versuchen in bare Münze umzuwandeln, selbstredend auch ein AMD, nur waren die noch nie in einer derart marktdominierenden Position und aktuell sind sie noch meilenweit davon entfernt, aber auch hier beobachtet man, wie ihre Produkte zunehmend teuerer werden, je weiter sie sich im Markt etablieren. Das ist ganz normales Geschäftsgebaren. Erst Konkurrenz und Vielfalt gebieten diesem Treiben Einhalt, wobei Vielfalt in einem Markt mit derart teuer zu entwickelnden und hochkomplexen Produkten natürlicherweise ein Problem ist.
Hast du schon Infos bzgl. der Preise bei TSMCs N4, N5 oder was auch immer gesehen, oder etwas zu den Yield Raten gehört? Ich meine nämlich, dass dies ein ganz entscheidender Faktor sein wird, AMD scheint ja ein Monstrum an Chip zu bauen, während Nvidia scheinbar das Ganze auf die gleiche Chipfläche wie vorher quetschen kann. Wundert mich schon extrem, dass NV hier die Chipfläche zum Vorgänger fast halten kann, ja man hat einen deutlich größeren Schritt bei der Fertigung als AMD, aber man haut ja auch ordentllich was an Cores raus, umgerechnet würde ich daher fast behaupten, dass N4 daher 50% kleinere Strukturen aufweisen müsste als Samsungs 8nm Prozess? Hälst du das für möglich? Ich nämlich eigentlich nicht.
Beispielsweise IBS schätzte die Entwicklungskosten in 2018 für ein komplexeres Design folgendermaßen ein, basierend auf ...
16 nm -> 106 Mio US$
10 nm -> 174 Mio US$
7 nm -> 298 Mio US$
5 nm -> 542 Mio. US$
Die 7 nm dürften zu der Zeit noch halbwegs gut abschätzbar gewesen sein, während 5nm da noch deutlich in der Zukunft lagen und für 3 nm schätzte man mit noch größerem Fehler bis zu 1 Mrd. US$. Der Großteil der Kosten beläuft sich hierbei auf Software und die Verification des Designs.
Für die Fertigung kann man auf die an vielen Stellen zitierten Abschätzungen zu TSMC zurückgreifen, so im Sep'20 von RetiredEngineer:
16/12 nm -> 3980 US$/Wafer
10 nm -> 5990 US$/Wafer
7 nm -> 9350 US$/Wafer
5 nm -> 16990 US$/Wafer
3 nm -> noch mehr
Zu bedenken ist, dass das (irgendwelche) Mittelwerte sein werde und bspw. ein N4 absehbar noch ein wenig teuerer als bspw. ein N5P sein wird, da TSMC sich den fortschrittlicheren Node natürlich zusätzlich bezahlen lässt. Darüber hinaus wäre auch denkbar, dass die Preise zwischenzeitlich leicht asngezogen haben, da TSMC Ende 2020 die Preise anhob und, wenn ich mich recht erinnere, Mitte 2021 auch noch mal eine entsprechende, weitere Ankündigung über erneute Preisanhebungen durch TSMC die Runde machten. Um einen groben Eindruck zu bekommen, sollten die Zahlen aber ausreichen.
Zum Yield: Der soll bei TSMCs N5(P) sehr gut sein, was vielleicht auch einmal mehr erklären könnte, warum es nVidia in dieser Gen noch einmal mit einem "einfacheren", monolithischen Design angeht, zumal die mit ihrem um ein Vielfaches größerem Absatzmarkt es einfacher haben, die Yield-Problematik bei großen Chips besser zu verteilen. Beispielsweise nVidia verwendet den großen GA102 auf bis zu 10 unterschiedlichen Produkten, vier reine Consumer-Produkte (3080 und 3090 ) und sechs weitere Produkte, die vormals unter dem Quadro- und Telsa-Brand vermarktet wurden (beide Brand-Namen hat nVidia mittlerweile aufgegeben).
Zur Fläche: Hier hat dir ja bereits OptimiertesSpielen ein paar Zahlen geliefert. Die Verwendung von 5 nm (bei nVidia möglicherweise gar dem N4 oder N4P als "4N" benannt) gehen als Full-Node-Sprung mit beträchtlichen Zugewinnen einher, die bei nVidia gar noch größer ausfallen als bei AMD, da die von Samsungs 8LPP herkommen, einer Weiterentwicklung von derem 10 nm-Prozess, knkret dem 10LPP. Und wenn sie es tatsächlich schaffen den AD102 in unter 700 mm2 zu realisieren, bleiben sie noch in einer eingermaßen beherrschbaren Größenordnung. Defekte können sie, wie oben skizziert besser als AMD verteilen und somit auch kostentechnisch im Rahmen halten.
Das Problem zur Abschätzung der absoluten Savings zum 8LPP ("8N") ist, dass man die Prozesse nicht unmittelbar vergleichen kann und bzgl. Lovelace hat man weder die Transistorzahl noch die genaue Chipgröße sondern bisher nur Spekulatius.
Vielelicht hilft dir aber für das was möglich ist folgende Zusammenstellung in der Tabelle in der Mitte:
[Ins Forum, um diesen Inhalt zu sehen]
Zu den Angaben von TSMC ist jedoch zu beachten, dass die hier Zahlen zu belichteten Testchips als Basis verwenden, d. h. eine Mischung aus SRAM und Logik-Blöcken. Konkrete Designs können andere Zusammensetzungen haben und bspw. können Entwickler auch bewusst freie/ungenutzte Siliziumfläche in das Design einplanen, so wie es AMD mit Zen+ beim Wechsel auf den 12LP von GloFo machten, da es ihnen hier nicht um die Chipgröße sondern um mehr Performance und höheren Takt ging.
Zudem beachte man, dass die Logigkdichte von HighPerf/HighPower-Designs wie GPUs immer deutlich unter dem theoretischen Maximum eines Prozesses liegt. Beispielsweise TSMCs N7(P) kann mit der High Density Lib bis zu um die 100 MTr/mm2 realisieren. RDNA2 realisiert bspw. als Navi21 jedoch nur mit einer gemittelten Dichte von 51,6 MTr/mm2. (und das trotz des vergleichbar großen L3$/SRAM).
Samsung bspw. hat für den 8LPP (die Basis von nVidia's "8N") den 10LPP um eine Ultra High Density Cell Lib erweitert, mit der bestenfalls bis zu 61 MTr/mm2 realisiert werden können sollen (die HD Lib des 10LPP kam auf bis zu 52 MTr/mm2). nVidia realisierte den GA102 mit im Mittel 45,1 MTr/mm2, also einer relativ gesehen deutlich höheren Dichte als AMD in RDNA2 in Bezug zum Prozesslimit, was auch mit eine Erklärung sein kann, warum Amepre auf einen niedrigeren Takt als RDNA2 ausgelegt ist. Hier war es nVidia anscheinend wichtiger mehr Funktionseinheiten unterzubringen.
AMD wird mit dem MCM-Ansatz bei den großen RDNA3-Chips natürlich mehr Fläche zugunsten eines höheren Taktes opfern können, da die Chipslets dennoch deutlich kleiner bleiben als nVidias großer, monolithischer Chip.
Man darf auf jeden Fall gespannt sein, wie das Rennen Ende 2022 bis im 1HJ23 ausgehen wird, wobei man hier für eine sinnvolle Betrachtung und Bewertung jedoch die unterschiedlichen Marktsegmente getrennt betrachten muss.
Nicht minder interessant wird Intel sein, die sich zwar erst mit Celestial (2024) vollends auf Augenhöhe sehen aber bereits in 2023 mit Battlemage könnte man dennoch einigermaßen konkurrenzfähige Produkte erwarten und ein nicht ganz technisch konkurrenzfägies Portfolio wird sich zwangsweise mit guten Preisen darbieten müssen.
Intel hat in 2023 TSMCs N3 in der Produktion. Man darf gespannt sein, ob der nur für die i/tGPU von MTL zum Einsatz kommt (und ggf. noch den Ponte Vecchio-Nachfolger in 2HJ23) oder möglicherweise auch für ausgewählte Battlemage-Chips genutzt werden wird. Damit könnten sie architektonische Defizite noch sehr gut ausgleichen, da es sich um einen Full-Node-Vorsprung ggü. der Konkurrenz handeln würde.
Letzten Endes könnten Kosten aber auch dazu führen, das die diskreten Battlemage-HPG-Chips vielleich eher in einem der vielen 5 nm-Nodes gefertigt werden wird, auf die Intel ebenso Zugriff haben wird.
Mit den diversen, neuen Packaging-Technologien, die schrittweise Einzug halten, verändert und entwickelt sich in den nächsten Monaten extrem viel in der Branche.
Meine Custom RTX 3080 verheizte (bevor ich sie mit UV betrieb) ja auch nicht ständig ihre 320W
Gruß
Und ob komplett ausgelastet, oder nicht sagte ich ja schon. Wenn das Game die tdp ausreizt sind es die knapp 300W.
Beste Grüße
Die Stock 6900XT verbraucht, wenn nicht durch die CPU begrenzt, oder ein anderes Limit 300W PUNKT. Da ist nichts dran zu rütteln.
Reicht
Meine Custom RTX 3080 verheizte (bevor ich sie mit UV betrieb) ja auch nicht ständig ihre 320W
Gruß