AMD Ryzen 9 9950X3D2 Dual Edition im Test: Benchmarks
Auf dieser Seite zeigen wir die umfangreichen Benchmark-Tests des AMD Ryzen 9 9950X3D2 Dual Edition. Wie schnell ist die CPU wirklich?
In diesem Artikel
Stammleser wissen, dass die PCGH-Redaktion die Abläufe rund um Prozessor- und Grafikkarten-Benchmarks jedes Jahr optimiert und erweitert. Die Basis der CPU-Tests bildet der hauseigene Testparcours. Dieser kombiniert gezielt ausgewählte Spiele mit einigen Anwendungen, um die Leistungsfähigkeit eines Prozessors möglichst variantenreich abzubilden. Für das aktuelle Jahr erweitert die Redaktion das Testprozedere vor allem um neue Titel. Hinzu kommen Cities: Skylines 2, Resident Evil Requiem, Death Stranding 2, The Outer Worlds 2 sowie Anno 117: Pax Romana. Sie ergänzen die bereits breite Auswahl und liefern zusätzliche Einblicke in unterschiedliche Grafik-Engines und deren CPU-Skalierung.
Das CPU-Testsystem für den 9950X3D2-Test
| Mainboard | Asrock X670E PG Lightning |
|---|---|
| AGESA/BIOS | 1.3.0.0a/4.10 |
| RAM | 32 GiB DDR5-5600, CL28-36-36-96 (EXPO) |
| CPU-Kühler | Asus Ryujin 3 360 ARGB |
| Netzteil | NZXT C1500 |
| Grafikkarte | Zotac Geforce RTX 5090 Solid OC |
| SSD | Corsair MP600 Elite |
| Hinweis | Identische Plattform für alle AM5-Tests |
Auf dieser Seite:
Darüber hinaus gilt bei CPU-Benchmarks ein zentraler Grundsatz. Sämtliche Spieletests laufen in der niedrigstmöglichen 16:9-Auflösung bei maximalen Details. Die Kritik an diesem Vorgehen ist uns bekannt, da höhere Auflösungen als praxisnäher gelten ("wer spielt in 720p?"). Ziel eines CPU-Tests ist jedoch die isolierte Betrachtung der Prozessorleistung. Diese lässt sich nur ermitteln, wenn andere limitierende Faktoren möglichst ausgeschlossen werden. In der Praxis betrifft dies vor allem die Grafikkarte. Sobald ein GPU-Limit erreicht wird, misst der Benchmark primär die Grafikleistung und nicht mehr die CPU-Performance. Das entspricht nicht dem Zweck eines CPU-Benchmarks. Die zugrunde liegende Logik ist einfach. Prozessoren arbeiten unabhängig von der Auflösung mit identischer Geschwindigkeit. Steigt die Auflösung, verschiebt sich die Limitierung zunehmend in Richtung Grafikkarte. In diesem Fall liefern Grafikkarten-Benchmarks die aussagekräftigeren Ergebnisse.
Benchmarks (Spiele)
In Spielen zeichnet sich ein einheitliches Bild ab. Generell fördert der zusätzliche 3D V-Cache auf dem zweiten CCD keine Wunder zutage, aber es gibt durchaus Überraschungen. In Baldur's Gate 3 etwa hat sich der Best Case für den neuen Ryzen 9 9950X3D2 gezeigt: Obwohl das Spiel primär auf dem ersten CCD läuft, scheint auch manchmal Last für den zweiten CCD übrig zu bleiben. Gegenüber dem 9950X3D sichert sich der 9950X3D2 damit rund sechs Prozent Vorsprung, bei den P1-Fps sogar zehn Prozent. Gleichwohl haben wir bereits vorher vom höchsten Leistungsniveau gesprochen, insofern ist die Mehrleistung zwar gut mess- aber kaum spürbar. Ab hier schmälern sich die Unterschiede jedoch. Cities: Skylines 2 rechnet nun mit 86 statt 85,1 Fps beim vorher schnellsten Prozessor (9850X3D). Death Stranding 2 zeigt ein ähnliches Verhalten mit einer praktisch identischen Performance zum 9950X3D. Es gibt lediglich leichte Vorteile bei den Frametimes, da mehr Kerne Hintergrundlast besser abfangen können. In Dragon Age: The Veilguard kommt der neue 9950X3D2 nicht am Platzhirsch 9850X3D vorbei, doch der Unterschied bleibt gering.
In F1 25 waren viele Kerne schon immer eine gute Idee für gute Performance. So gelingt dem 9950X3D2 auch hier die Führung, mit winzigem Abstand zum 9950X3D. Indiana Jones und der Große Kreis läuft ausgezeichnet auf allen Ryzen-Prozessoren mit 3D V-Cache, doch latenzoptimierte Achtkerner wie der 9850X3D schöpfen hier aus dem Vollen. Kingdom Come: Deliverance 2 ist neben Baldur's Gate 3 einer der wenigen Titel, die etwas mehr Vorteile aus dem Dual-Cache-Aufbau ziehen. Konnte der 9950X3D den 9850X3D nicht schlagen, macht AMD diesen Fehler mit dem 9950X3D2 wieder gut. Erstmals fällt damit die Hürde von 100 P1-Fps ohne Optimierung oder Tuning. Spider-Man 2 war schon immer ein sehr schwieriges Thema für Ryzen-Prozessoren. Offenbar wollte AMD das nicht hinnehmen, denn mit dem 9950X3D2 gelingt es erstmals einer Ryzen-CPU die Führungsriege rund um Intel Core Ultra aufzuspalten. Gegen den mächtigen Core i9-14900KS sieht jedoch das gesamte Testfeld alt aus. Resident Evil Requiem dagegen ist ein wahrer X3D-Showcase: Alle Zen-5-Prozessoren mit 3D V-Cache sind mit Abstand die schnellsten Prozessoren im Vergleich, mit dem 9950X3D2 an der Spitze.
Auf zu den Sternen in Starfield. Hier gelingt es dem Neuankömmling nicht, sich an den bestehenden Ryzen vorbeizumogeln. Niedrige Latenzen und hoher Takt sind wichtiger als viel L3-Cache. Ähnlich ergeht es dem 9950X3D2 auch in Stellar Blade. Wobei die Performance auch hier ein Niveau erreicht hat, welches man nicht mehr toppen kann, auch nicht mit mehr Cache. The Outer Worlds 2 zeigt mit zwei Prozent mehr Fps gegenüber dem 9850X3D eine minimal bessere Performance, jedoch ohne Veränderung an den Frametimes. Es dürfte somit schwierig sein, den Unterschied zu spüren. In Anno 117: Pax Romana gelingt es dem Neuen, sich nicht am Alten vorbeizubewegen. Die Leistung ist auf demselben Niveau. Star Wars Outlaws skaliert für gewöhnlich recht gut mit Kernen, reagiert jedoch auch empfindlich auf Inter-Core-Latenzen. Der 9950X3D2 bleibt deshalb hinter dem 9850X3D zurück. Cyberpunk 2077 schließlich zeigt exakt dasselbe Verhalten.
Generell zeigt sich, dass zusätzlicher L3-Cache auf dem zweiten CCD einer Ryzen-9-CPU nicht denselben Effekt erzielt wie eine einseitige Bestückung. Ausschlaggebend ist dabei die Latenz zwischen den beiden CCDs. Eine Vergrößerung des Caches verändert diese Zugriffszeiten nicht, sodass der potenzielle Vorteil in der Praxis begrenzt bleibt. Vor diesem Hintergrund erscheint auch die Entscheidung von AMD nachvollziehbar: Ein hypothetischer Ryzen 9 5950X3D hätte in Spielen kaum Vorteile gegenüber einem Ryzen 7 5800X3D geboten. Die zusätzliche Cache-Ausstattung auf beiden CCDs hätte die Inter-CCD-Latenz nicht kompensiert, wodurch der Gaming-Leistungsgewinn ausgeblieben wäre. Manche Spiele reagieren gar empfindlich auf diese Latenzen und laufen dann etwas langsamer. Ist das bei paralleler Anwendungslast auch so?
Benchmarks (Anwendungen)
Gegenüber den meisten Spielen zeigt sich bei Anwendungen ein klares Bild: Ryzen 9 9950X3D2 ist die neue Speerspitze im Desktop-Markt. Die Mehrleistung gegenüber dem 9950X3D zeigt sich klar. Das ist jedoch auch kein Wunder, denn AMD hat die TDP und damit PPT beim 9950X3D mit einem Unterschied von 70 Watt zum "Vorgänger" deutlich nach oben geschraubt. Ein 9950X3D wird von der PPT limitiert und taktet daher bei paralleler Last auf allen 16 Kernen etwas tiefer als ein 9950X3D2, der frei boosten kann. Die folgende Tabelle soll das demonstrieren:
| AMD Ryzen 9 9950X3D | AMD Ryzen 9 9950X3D2 Dual Edition | AMD Ryzen 9 9950X3D (PPT: 270 W) | |
|---|---|---|---|
| Temp (°C) | 70,7 | 86,7 | 78,8 |
| Takt (MHz) | 5.021 | 5.150 | 5.150 |
| PP (Watt) | 199,6 | 248,6 | 227,1 |
Die Werte sind jeweils nach genau zehn Minuten anhaltender Last durch Cinebench R24 entstanden. Durchschnittlich fehlen dem 9950X3D aufgrund des PPT-Limits von 200 Watt rund 130 MHz. Das mag sich nicht nach viel anhören, aber auf 16 Kerne betrachtet kommt genau dann der Unterschied zustande, den die Benchmarks oben zeigen. Erhöht man die Powerlimits beim 9950X3D auf das Niveau des 9950X3D2, takten die Kerne mit demselben Niveau und die Performance gleicht sich an. Die zusätzliche Performance in Anwendungen kommt primär vom erhöhten TDP-Limit, weniger vom zusätzlichen L3-Cache. Dazu muss gesagt werden, dass Anwendungen den Cache auch adressieren müssen, damit ein Vorteil entsteht. Unsere Anwendungen zeigen diesbezüglich nur bei 7-Zip eine Auffälligkeit: Die Komprimierung, die primär RAM- als CPU-lastig ausfällt, läuft beim 9950X3D2 zehn Prozent schneller ab als beim 9950X3D. Genau dieses Verhalten zeigt, dass der L3-Cache dem Speicher Arbeit abnimmt und schneller erledigen kann. Beim Dekomprimieren dagegen sind eher die CPU-Kerne gefragt und das erhöhte Powerlimit zählt. In einem zusätzlichen Special gehen wir näher auf die Unterschiede zwischen 9950X3D und 9950X3D2 ein.
PCGH-CPU-Index
Erneut legt AMD die Messlatte höher und reicht die Krone von sich an sich selbst weiter. Es hätte niemanden verwundert, wenn AMD nach dem Ryzen 9 9950X3D gesagt hätte, dass bis Zen 6 keine schnellere CPU erscheint. Doch ähnlich, wie Intel es mit den KS-Modellen zeigt, holt nun auch AMD das Maximum aus dem Sockel AM5 heraus. In sämtlichen Bereichen ist der Ryzen 9 9950X3D2 Dual Edition jetzt die schnellste CPU. Und durch den Aufbau mit 3D V-Cache spielt es keine Rolle mehr, was sie wann mit dem PC machen. Diese Leistung kommt zu jeder Zeit an, was durchaus ein Alleinstellungsmerkmal des 9950X3D2 ist.
Damit ist die Beurteilung der Leistung abgeschlossen. Auf der kommenden Seite beschäftigen wir uns mit der Effizienz des Ryzen 9 9950X3D2 Dual Edition. Wie verändert sich die Leistungsaufnahme beim Gaming, wenn beide CCDs 3D V-Cache nutzen können? Immerhin zeigt sich beim einseitigen Gebrauch grundsätzlich eine hohe Effizienz.

Edit: wenn ich die Anzahl der Cycles und die dabei übertragenen Bytes betrachte, brauche ich weder Latenz noch Bandbreite, da sich beide aus den Cycles ergeben:
Latenz aus der Anzahl der Cycles je Vorgang
Bandbreite aus der Anzahl der Cycles multipliziert mit der Anzahl der Bytes je Cycle
Die Länge eines Cycles errechnet sich aus 1 geteilt durch die jeweilige Taktfrequenz.
Kann mir nicht vorstellen, dass da permanent 80 ns zusammenkommen, sonst würde die Übertragungsleistung von 80 GB/s schwer zustande kommen.
Ich finde nirgends einen Hinweis, dass Kerne miteinander agieren können, von Interrupts abgesehen.
Jedenfalls können die Kerne nicht gegenseitig in ihre Caches schreiben.
Und der L3 kann nicht explizit durch Instruktionen beschrieben werden, da geht der Overflow vom L2 rein.
Zumindest finde ich nirgends eine andere Darstellung.
Der Punkt ist auch nicht die CMPXCHG Instruktion, sondern dass sie für die atomare Ausführung mit dem LOCK PREFIX versehen wird und dazu finde ich:
In a multiprocessor environment, the LOCK# signal ensures that the processor has exclusive use of any shared memory while the signal is asserted.
Und lt. Intel manual "8.1.4 Effects of a LOCK operation on Internal Processor Caches":
Instead, it will modify the memory location internally and allow it’s cache coherency mechanism to ensure that the operation is carried out atomically. This operation is called “cache locking.” The cache coherency mechanism automatically prevents two or more processors that have cached the same area of memory from simultaneously modifying data in that area.
Dieses Cache-Sperren geht, wenn das zweite CCD diesen RAM-Bereich gar nicht im Cache hat, recht flott, dauert, wie du auch sagst, über IOD mit FCLK gegen das andere CCD aber länger.
Nur findet nach meiner Ansicht eben kein "Datenaustausch" zwischen den CCDs statt, sondern einfach ein Cache-Locking, das gemessen wird.
Mein eigentliches Problem war aber die Aussage im Absatz "Die Sache mit dem Chipsatz-Treiber":
Es geht hier nur um die Tatsache, dass das zweite CCD geparkt wird. Ein 9950X3D2 kann sich somit beim Gaming nicht anders verhalten als ein 9950X3D. Deshalb spricht AMD auch von der durchschnittlich gleichen Gaming-Performance. Man könnte auch sagen: Pfeifen Sie auf den Chipsatztreiber beim Einsatz des 9950X3D2. Es spielt keine Rolle, auf welchem CCD die Last liegt.
Da sehe ich einen Widerspruch, weil das Parken des zweiten CCDs doch grad bei Games die Performance ggü. ungeparkt erhöht. Oder lese ich das falsch? Grad für Games wurde doch das Parken des Chipsatztreibers eingeführt.
Und Windows - abgesehen von Server Editionen - kennt nativ keine CCDs, da würden die Threads doch zufallsmäßig auf die CCDs verteilt.
Ich selbst kann das nicht beurteilen oder messen, da mein Prozi nur ein CCD hat.
Kann mir daher auch wurscht sein, aber interessant wäre das Verhalten bei Games ohne das CCD-Parking trotzdem.
CL: CAS Latency. The number of cycles it takes between the processor asking for data from the memory and returning it.
Und bei MEMCLK=3000 MHz -> 0,333 ns wären CL30 = 30 x 0,333 ns = 10 ns für das Auslesen im RAM.
Die Latency beschreibt das Öffnen einer 1K Page, wenn die offen ist, geht's flotter, weil bereits alles eingelesen ist.
Der Test des 9950X3D2 war mir persönlich wichtig. Ich habe mich wirklich auf diesen Launch gefreut, weil es etwas Besonderes ist. Solche CPU bleiben schließlich über Jahre spannend (man denke nur an den Ryzen 7 5800X3D). Umso frustrierender ist es, dass sich jetzt vieles nur noch um die Sampling-Situation dreht. Zumal das eine Entscheidung ist, die nicht bei uns liegt. Nach sieben Jahren im Amt sollte man meinen, man steckt so etwas einfach weg. Aber diesmal merke ich, dass es etwas mit mir macht. Wenn man viel Zeit, Energie und Herzblut in so einen Test steckt und dann sieht, wie darüber gesprochen wird, hinterlässt das Spuren.
Ja, ich wäre auch frustriert gewesen, wenn wir kein Sample bekommen hätten. Aber mich hätte mein Ehrgeiz dann eher dazu angetrieben, mir auf anderem Weg ein Sample zu organisieren und einen noch größeren Test umzusetzen. In der nächsten Zeit werdet ihr weniger von mir lesen, denn meine Zeit und Energie werde ich vorerst in andere Projekte investieren. Ich komme wieder, sobald ich für mich den richtigen Fokus gefunden habe.
Ich weiß natürlich nicht was du so an post bekommen hast, aber mir schien es im Forum darum ruhig geworden zu sein.