Geforce und Radeon: Gerüchte um Daten und Leistung der RTX 4090 und RX 7900XT
Im Internet machen recht detaillierte Spekulationen um die Geforce RTX 4090 und die Radeon RX 7900XT die Runde. Die Leistung soll noch einmal deutlich steigen, wobei AMD und Nvidia beim Chipdesign unterschiedliche Wege gehen dürften.
Von einem der üblichen Verdächtigen aus der Gerüchteküche um Grafikkarten kommen nun Werte zum angeblichen Vollausbau der Geforce RTX 4090 und der Radeon RX 7900XT. Wie immer gilt für solche Gerüchte, dass man sie mit etwas Vorsicht bewerten sollte. Starten wir wie Twitter-Nutzer Greymon55 mit der Radeon: Navi 31, so der RDNA-3-Chip, wird demnach mit 15.360 FP32-Shader ausgestattet sein und soll so in der Radeon RX 7900XT zum Einsatz kommen. Es werden 2,4 bis 2,5 GHz Chiptakt genannt, 256 bis 512 MiByte Infinity Cache und 32 GiByte GDDR6-Speicher an 256 Bit mit 18 Gb/s. Die Fertigung soll in 5 und 6 nm bei TSMC erfolgen. Auch zur Lovelace-Technik von Nvidia hat er Daten: Da wird für den AD102, der potenziell auf der Geforce RTX 4090 steckt, ein Ausbau von 144 SM bzw. 18.432 FP32-Shader ins Spiel gebracht. Der Chip soll mit 2,3 bis 2,5 GHz takten und auf 24 GiByte GDDR6X mit möglicherweise 21 Gb/s zurückgreifen können. Der Chip soll bei TSMC in 5 nm produziert werden.
Bei der Performance soll die Radeon der Geforce in der Rechenleistung etwas unterlegen sein. 75 Teraflops nennt Greymon55, was zwar 226 Prozent mehr wären als bei der Radeon RX 6900 XT, aber eben weniger als die vermuteten 85 bis 92 Teraflops des AD102; die RTX 3090 hat 36 Teraflops - 150 Prozent Unterschied. Nvidia hatte bei Ampere bereits einen großen Sprung in der Rohleistung (13 auf 36 Teraflops).
Während Nvidia bei einem monolithischen Design bleiben soll, hat sich AMD angeblich für ein Multi-Chip-Module (MCM) entschieden, weshalb das ganze Thema durchaus eine gewisse Spannung abseits der Rechenleistung in sich trägt. Welches Konzept wird besser aufgehen und zu welchem Preis wird man die Chips anbieten können. In der Theorie verspricht das Design von AMD einen Kostenvorteil. Für AMD steht zudem auf dem Programm, die Lücke beim Raytracing zu schließen. Und dann wäre da ja auch noch der potenzielle Beitrag von Intel. Die Produkte werden aber wohl frühestens im vierten Quartal 2022 auf den Markt kommen.
ich habe turing aus guten Grund nicht erwähnt (rtx2000 serie)
ja ampere ist in einen shader modul auf 64 fp32 einheiten und eine multifunktion einheit mit fp32 fp16 int32 int 16 und int 8 fähig
Während die fp32 einheiteh nur fp16 können
Das aber ist variable vom sku so einprogrammiert diese flexibilität ist praktisch für die produkte von ai beschleunigung wie tesla und profi grafik karten quaddros
Demzufolge kann ampere in einen sm 128 halbgenaue floating points aufgaben oder 3/4 ganzahl berechnung oder zur häflte int32 int16 oder in int8
Für gamer ist es egal ob hier 96fp32 durch int 32 unterbrochen wird oder durch fp16 aufgaben.
Das Ergebnis ist das nur fp32 in gaming zählt.
Zur SI Debatte nun damit meine ich nicht die die bit Anbindung sondern die speicherbandbreite diese sind verbunden.
Wie komme ich darauf das amd 3,0tb/s (ja ich habe den rechenfehler gefunden)
Folgende Rechnung
256bit *18gbits gddr6/1000/8) datenströme pro takt =576gb/s
Nun zum inf cache der ist laut amd mit 512bit je 128mb angebunden 512 sind drin also 2048bit diese mal gpu clock von 2,5ghz da der cache gleichschnell läuft wie der gpu Takt. dann die hitrate des cache amd gibt hier 48% an im Idealzustand
also 2048*2,5/1000*0,48=2,46tb/s
2,46+0,576=3,0tb/s
Theoretische bandbreite real dürfte das stark schwanken von 2,0-3,0tb/s
Die berechneten 39,8tf des kleineren n32 Modell wo 2 mcm und ein io die verbunden sind ich wette das man den inf cache im i/O platziert als L4 cache vermutlich 384mb
Und in den beiden anderen mit 80cu tei.ldeaktivierten n33 chiplets auf 60cu reduziert und die haben dann jeweils 64mb drin.
Die große frage lautet nun wie will amd die latenzprobleme die zwangsweise mit nen aktiven interposer lösen.
Die chipanbinung pro inf cache zum i/o müsste dann 1024bit sein und der inf cache selbst am SI zu gddr6 dann 256bit
Besser wäre es wenn der i/O die einen 512bit anbindung hätte das aber ist wirklich geraten vom mir.
gehe ich vom design rdna 2 aus
Diese sind mit 1024bit am l2 verbunden der dann im si zu 256bit geddr6 geht
Da man aber beim n31 und 32 den Si auslagert auf dem I/O die erledigt sich die chipfläche
Die große frage ist wie hat amd die latenzprobleme zwischen den einzelnen gpu und den cache gelöst.
Gut möglich das die hitrate sogar sinkt auf nur noch 24%
Nvidia dagegen hat keine andere Wahl wie will man 69tf oder beim kleineren angenommenen gpu 57tf
genügend speicherbandbreite haben
die zu erwartende 1,08tb/s reichen nicht aus.
Derzeit sind sogar die rtx3090 oft bandbreiten limitiert da die 976gb/s nicht reichen für 4k bis 8k
Das merkt am nur an den fps da die gpu Auslastung dies nicht wiedergibt
gutes bsp war mal ein treiberbug der den vram Takt auf 400mhz gesetzt hatte
Trotz gpu load von 100% kam nur ein Bruchteil der Leistung raus von 60fps blieben 15fps
auch guter indikator ist dann der vram takt und temps sind diese auffällig gering stimmt was nicht.
Zurück zum Problem
Nvidia hat keine andere Wahl min muss nvidia 2,0tb/s erreichen entweder durch neuen noch nicht specifizierten gddr7 speicher oder durch HBM2e
Letzterer ist sicherer
ein 512bit Si wird zu teuer da man das SI nicht stark shrinken kann folglich kostet es chipfläche die sehr teuer ist mutmaßlicher waferpreis von 16 000-20 000$
Ein größerer l2 cache würde das nur bedingt lösen da müsste man diese vervierfachen was wieder mehr chipfläche kostet da der cache wie das SI sich schlecht shrinken lassen.
Und lovelace soll etwa 50-80% kleiner werden bei 50% Energie Einsparung
Diese zahlen sind interpoliert ich weiß
Wie ich drauf komme nun zwecks samsung 14nm node vs 10nm node diese gibt es das waren 10% energie einsparung zu 8nm vermutlich auch 10%
tsmc 16 auf 12nm waren 10% von 12 auf 7nm waren 60%
Voraussichtlich von 7 auf 6 wie erwähnt 10% auf 5nm sind es offiziell 20% bei 50% Flächenreduktion
genau sind es angeben von 25-30% Energie Einsparung bei 50% Fläche vs 7nm Angabe von tsmc
Unklar äußert sich nur samsung zu den Vorteilen bei 5nm lpe
tsmc 5nm vorgaben sind fest
Nehme ich die Steigerungen von 14 auf 8nm und prozentual gleiche Annahme und setze gegen tsmc verbrauch Vorteile zwischen 12 und 7nm gleich multipliziere ich die beiden kommt da 50% weniger strom als 8nm raus und bei 7 vs 5 20% weniger strom bei der fläche sind es grob -80% vs amd vermutlich -40%
da ich aber davon ausgehen das man die flächenvorteile aufgibt für mehr heatspreading
sind eben 50% kleiner und 50% effizeniter als ampere bei gleichen takt. (1,8ghz)
das reduziert natürlich sich je höher der Takt geht, gehen wir von allen sku ab 2,5ghz aus ist die Energieeffizienz weg
Was ziemlich dumm wäre.
Allein deswegen weil man ab derzeit 14tf im cpu limit hängt und die nächste cpu gen (zen3d und core i13th) 2022) ab 20tf auf 1080p
Was so ziemlich die mainstream Auflösung ist 1440p kommt gerade hoch.
26tf derzeit können nicht ausgelastet werden von keiner cpu auf 1080p mit der zen 4 Generation könnte es klappen.
Zen 5 2024 kann es zu erwartende Leistungssteigerung vs zen 3 75%
Dann sprechen wir von 35-40tf auf 1080p ab hier muss man sich Gedanken um fps limiter machen. Da hier einige engines einfach zusammenbrechen würden.
Aktuell übernimmt diese Vorkehrung der Treiber von sich aus. Um die gpu vorm überhitzen zu schützen so über 2000-6000fps sind nicht gesund siehe new world desaster.
Das einzige was derzeit gpu vorm Tod schützt ist das cpu limit
Den kein spiel mit directx hat ein fps limit sofern nicht vom game so hin designet wurde.
bsp doom 2016 200fps limit
Generell wird es sowieso schwieriger immer mehr tf sinnvoll zu nutzen einzige Lösung ist hier dxr oder sogar pathtracing
Und das die Konsolen nicht vor 2025 erneuert werden bleibt eben die maximal Anforderung auf 1440p bei 14tf
am pc sind dann 26tf das größte
Was will man dann mit 39-57tf?
8k gaming? auf 27zoll?
Das Problem der Skalierung besteht weiterhin Industrie Standard sind 96dpi darauf basieren alle Programme alles was mehr ist wird interpoliert upscaled.
Es wird also nix schärfer sondern nur größer und wenn dann display größer werden ? Sitzt man dann 5m vom Bildschirm weg
Real ist 24 und 27zoll am Schreibtisch oder am tv 32-42zoll mit 1080p bis 4k
Die meisten würden selbst mit 3m abstand auf nen 32 zoll 4k kaum die die Schrift lesen können
Womit wir bei min 50zoll wären
Das menschliche Sichtfeld hat grenzen es gibt eben idealabstände am schreibtisch ist das 24 zoll auf 50cm oder 27 zoll mit 60cm alles was größer ist ist aus dem primären Sichtfeld.
Schärfer wird nix dadurch nur größer wenn schärfer ist liegt das am display nicht an der Auflösung
27 zoll 1440p hat pixelabstand von 0,16mm 24 zoll von 0,25mm
32zoll 4k 0,06mm
ich will den sehen der dann noch 12pixel Schrift auf 4k lesen kann dabei ist word schon skaliert
12*3*0,06mm=2,16mm
12*3*0,25=9mm
Ihr seht skalierung wird immer wichtiger nur müssen das Programme berücksichtigen und keiner passt alte Programme an folglich wird man später gpu Leistung limitieren müssen und ein externer scaler dann alles upscalen was Unschärfe bringt wer nativ bleiben will
Und lediglich auf framegröße hochskaliert (Ganzzahl) wird eben alaising haben aber es ist scharf.
Das aber sehe ich nicht als Lösung an die echte Lösung ist dxr und pathtracing
Und das passiert nicht bevor die Konsolen das können und das sehe ich frühestens 2026 wo Konsolen bei 40tf sind
Hier ist die ue5 maßgebend
Also Nochmal was will man mit 40-60tf am Desktop?
Gut möglich das der kleine ad106 (80cu 2,5ghz) lovelace sku am consumermarkt kommt (+35%) und nur ampere refresh in 6nm mit mehr Takt.
amd dann nur den n33 als high end bringt 80cu bei 3ghz mit 256mb inf cache (+40%)
Das ist am wahrscheinlichsten.
Und ich spreche nicht mal von der chipkrise die noch bis q3 2023 anhält
offiziell geht man davon aus das sich die Lage bis 2023 nicht ändern wird. und sogar es noch teurer wird.
Da brauche wir nicht über massiven +125% mehr Leistung sprechen und von enormen Energieverbrauch ab 500w
Diese gpu sind klar server und profi karten orientiert.
amd und nvidia ist klar das man das Preisniveau nicht halten kann sobald die miner raus sind fällt der preis
Die uvp wird allerdings ansteigen.
Wartet ab als man noch juni davon ausging das pos kommt fielen die preise als dann das verschoben wurde auf dez und kurz danach eine Übergangszeit bis 6/22 aufkam explodierte der Kurse und die gpu preise stiegen wieder an.
Um da keine Korrelation zu sehen der ist blind
Aktuell kauft keiner eine gpu über 500€ sondern nur noch fertig Pc weil diese mittlerweile billiger sind als einzelne dgpu
Bleiben als Kunden nur miner
Diese Situation gab es schon mal nur kürzer 2018 auf 2019 wo danach alles abverkauft wurde
Diesmal aber hat amd und nvidia vorgeplant das sie nicht auf Ware sitzen bleiben
So konnte man die uvp anheben um danach zu merken das noch eine mining blase aufkommt und man kann wieder die uvp der nächste gen anheben
Die Lösung ist ein verbot von kryptoeinheiten. Anders wird man der Energieverschwendung nicht Her
am ende könnte sogar blühen das nur noch auf cloud gaming gesetzt wird. oder gpu vermietet werden.