Raytracing für GTX-Grafikkarten: Benchmarks und Fazit
Wir sprechen über DirectX Raytracing auf Pascal mit Benchmarks, der Bedeutung von DLSS und dem Zwischenfazit zu Software-Raytracing
Auf dieser Seite
DXR auf Pascal: PCGH-Benchmarks
Wie bereits erläutert, entsprachen große Teile unseres "Aprilscherzes" der Wahrheit. Lediglich das Vorhandensein des "Geforce 425.33" und die Benchmarkbezeichung entstammen unsere Fantasie (Randnotiz: Was die Versionsnummer angeht, haben wir fast richtig geraten!). Absolut authentisch sind hingegen die publizierten Benchmarkwerte auf Basis der Star Wars Reflections Demo. Bis zum Erscheinen des Software-DXR-Treibers handelte es sich um die einzige Applikation, welche zu Vergleichszwecken Raytracing auf Pascal erlaubte. Aufmerksame Leser haben längst gesehen, dass in den oben gezeigten Nvidia-Benchmarks auch Reflections mitmischt. Die Ergebnisse decken sich beinahe erschreckend gut mit unseren Messungen, obwohl bei Nvidia sowohl die durchschnittlichen Taktraten als auch die Messdauer unbekannt ist. Unsere Werte fallen grundsätzlich etwas höher aus, vermutlich aufgrund der werkseitig übertakteten Modelle.
Nvidias Aussage, dass es zwingend RT-Cores brauche, um pixelgenaues Raytracing performant abzubilden, wurde oft belächelt, entspricht im Ernstfall jedoch der Wahrheit. Beim Blick auf die Ergebnisse mit komplexen Raytracing-Effekten wischt selbst die Geforce RTX 2060 mit dem Pascal-Topmodell Titan Xp den Boden auf. Zwischen Geforce GTX 1080 Ti und RTX 2080 Ti, jeweils werkseitig übertaktet, liegt eine Leistungsdifferenz von 221 Prozent oder, in anderen Worten, Faktor 3,2. Das ist weit entfernt von Nvidias Bestcase-Angabe (Faktor 10), allerdings trotzdem eindeutig.
Interessant ist außerdem die Power-Charakteristik beim Einsatz des Software-Raytracings. Während die Grafikkarten in "normalen" Spielen mit Vollzeit-Rasterisierung stets am Powerlimit operieren, werden die Probanden bei der Strahlenberechnung nicht voll ausgelastet. Das ist einerseits hörbar und spiegelt sich auch in den automatischen Boost wider: Der Takt aller Pascal-Grafikkarten bleibt auf hohem Niveau, was für eine schwache Gesamtauslastung spricht. Wir vermuten ein extremes ALU-Limit, da diese mit der Arbeit kaum hinterherkommen, während die übrigen Rechenwerke Leerlaufzyklen einschieben. Bei den Turing-RTX-Modellen fällt der Boost hingegen unterdurchschnittlich aus, da alle Einheiten voll ausgelastet werden. Je nachdem, welchen Stellenwert Software-Raytracing bei Nvidia einnimmt, könnte sich die Performance mit künftigen Treiberoptimierungen verbessern.
Frische Messwerte mit dem "echten" Software-DXR-Treiber Geforce 425.31 liefern wir schnellstmöglich nach. Dabei wird der Skalierung mit der Bildschirmauflösung und Raytracing-Präzision eine wichtige Rolle zuteil.
Und was ist mit DLSS?
Zwar lehrt der neue Treiber die älteren Chips das Raytracing, am übrigen Funktionsumfang ändert sich jedoch nichts. DLSS-Bildglättung bleibt den vollwertigen Turing-Grafikkarten der RTX-Reihe vorbehalten, da hierfür die Tensor-Kerne entsprechender Grafikchips eingespannt werden. Die Nachfrage, ob man DLSS ebenfalls mithilfe der FP32-ALUs berechnen könne, verneint Nvidia nicht, allerdings wird dies auch in Zukunft nicht umgesetzt werden. Die dafür aufgewendete Rechenzeit überwiege den Performance-Gewinn durch die intern reduzierte Renderauflösung, so Nvidia. Das klingt plausibel, ist jedoch ohne Testmöglichkeit nicht belegbar. Ein Fragezeichen schwebt derzeit über der Titan V: Diese verfügte bereits vor Turing über Tensor-Kerne - sogar über mehr als die Titan RTX -, wurde allerdings bisher nicht mit DLSS-Funktionalität bedacht. Eine Antwort auf diese Frage seitens Nvidia steht noch aus.
Adaptive Shading, eine Möglichkeit zur selektiven Einsparung von Rechenzeit, nimmt eine Sonderrolle ein. Dieses Feature steht auf allen Turing-Chips bereit, auch auf der Geforce GTX 1660 und GTX 1660 Ti. Pascal ist davon ausgenommen, Software-Support ausgeschlossen. Das ist kein Beinbruch, denn Adaptive Shading wird derzeit nur in Wolfenstein 2 eingesetzt und der Performance-Gewinn dadurch hält sich in Grenzen. Verbreitet sich die Funktion in Zukunft, haben Besitzer einer Turing-Grafikkarte eine weitere Stellschraube zur Fps-Einsparung parat.
Zwischenfazit: Software-Raytracing
Die harte Grenze zwischen GTX und RTX ist mit dem Software-Raytracing-Treiber passé, nun herrscht (diesbezüglich) Feature-Parität. Nvidias Entscheidung, Raytracing der breiten Masse verfügbar zu machen, ist natürlich nicht uneigennützig. Spiele-Entwickler scheuen den Aufwand, Effekte für eine handvoll Nutzer zu schreiben, selbst wenn ein Hardware-Hersteller Hilfestellung gibt. Mit der Bereitstellung von Raytracing auf Millionen älterer GPUs ist die Zahl der Adressaten und somit auch die Motivation, sich damit auseinanderzusetzen, wesentlich höher. Der zweite Faktor, auf den Nvidia spekuliert, ist folgender: Ein Pascal-Nutzer, beispielsweise mit einer Geforce GTX 1060 oder GTX 1070, schaltet Raytracing an, ist verzückt, stellt aber fest, dass sein alter Pixelgefährte unter der Last zusammenbricht. Die Idee, auf eine Geforce RTX 20 aufzurüsten, liegt nahe. Doch das muss jeder für sich entscheiden.
PC Games Hardware begrüßt die Entscheidung Nvidias und hofft auf spannende Neuentwicklungen, welche Nutzen aus Raytracing ziehen. Möglicherweise führt die Veröffentlichung des Software-DXR-Treibers auch dazu, dass AMD aus seinem Tiefschlaf erwacht. DirectX Raytracing für Windows 10 ist längst spezifiziert und jeder Hardware-Hersteller kann kompatible Treiber anbieten. Zwar geht eine effiziente Implementierung nicht über Nacht vonstatten, doch könnte es sich bei den Shader-starken Radeon-Grafikkarten auszahlen, wenn bei den neuerdings angefertigten DXR-Benchmarks hin und wieder eine AMD-GPU in den Top 10 aufträte. Wir bleiben gespannt und natürlich am Ball.

Sparmaßnahmen? Dedizierte Cores kosten mehr als unifieds, weil sie Platz brauchen und angebunden werden müssen (Cache). Der Begriff "GPU Partitionierung" ist Teil der vGPU Cloud Gaming Strategie seitens Microsoft und kann einem tatsächlich nur gefallen, wenn man zugeteilte GPU Ressourcen nach einem Abomodell mag, was auf die meisten dGPU Spieler wahrscheinlich nie zutreffen wird.
Schon jetzt dürfte Turing alles sprengen, was die reine Waferfläche angeht und genau daher wird nVidia sich hüten auf 7nm zu wechseln, die Kosten dürften hier 12/16nm bei 7000-8000 pro Wafer liegen, in 7nm bei 14000-16000$ über 7nm+ mag da noch niemand reden - weil das wohl sicherlich ein Redesign und eigens angepasstes nVidia Fertigungsverfahren erfordert.
Der PR Stunt wie groß ein Pascal ausfallen müsste, um die Ray Traverse zu berechnen, ist allein nVidias Erguss und Problem. Volta war eine Machbarkeitsstudie und genauso sehen auch die Preislagen dazu aus. Es macht deutlich mehr Sinn an Software und Compilern zu optimieren, als ständig irgendwelche dedizierten Cores auf einem GPU Design zu verwenden. Manchen Leuten scheinen die Preise dafür völlig egal zu sein. Allein Tensor und RT + Caching jubelt die Waferfläche um 22% in die Höhe, dazu kommt noch die Core Fabric und die Signalwege, die man bei höherem oder gleich gebliebenem Takt dafür schaffen muss.
Das Renderprinzip hat aber einen wesentlichen Anteil daran, weil auf den Code optimiert werden muss und man die Einheiten auch nutzen können muss. Die Frage ist dabei für welchen Zweck. Dabei ist die Parallelisierung der Prozesse auch nicht von der Partitionierung (Datenpartitionierung) abhängig, sondern von dem Algorithmus und der möglichen Konvertierung (erweiterte oder eingeschränkte).
Unter GPGPU spielt die Partitionierung ein unwesentliche Rolle, da diese Architektur (Instructions Multiple Data) und ihr Parallelisierungsgrad Aufgaben auf allen Einheiten gleichzeitig ausführen kann, was bei der Ressourcenauslastung und der Verarbeitung der Optimierung bedarf. Trotzdem liegt dieser Grad, mit seinen multiplen Threads weit über dem was man mit Partitionierungsarten erreichen könnte und diese fordert in jeden Fall hohen Sychronisierungsaufwand. Feingranularität vorausgesetzt, lässt sich auch eine hohe Auslastung erzielen.
Wenn sich Fiji und Vega ähneln, liegt das eher daran, dass man sich große Umbrüche und Treiberoptimierungen sparen kann. Die Architektur kein neues oder gesondertes Umfeld braucht, und das was bis dahin entwickelt wurde darauf lauffähig bleibt. Es ist also eine Frage der nachfolgenden Kosten und ob es dafür einen Absatzmarkt gibt, zuletzt auch was der - der diese Hardware abnimmt sich als Kunde wünscht.
Die Geschwindigkeiten werden heute durch die parallele Prozessausführung erreicht, wie auch Turing in dem Bsp. von FP32 und Int32 beweist. BFV soll im Verhältnis und nach Auskunft von nVidia, bereits bei 100 FP32 und gleichzeitig 50 INT32 liegen (100:50). Das erfordert aber auch eine Anpassung bei der Datenverarbeitung. Mal als Bsp. C++ AMP das ermöglich einen massiven Parallelisierungsgrad zu erreichen und Programme zu schreiben, die kompiliert auf der Hardware ausgeführt werden können und diese auch auslasten.
Ich habe es jetzt endlich mal zum Laufen gebracht und muss sagen, von Battlefield bin ich ziemlich enttäuscht, es gibt quasi gar keine Dinge, auf den meisten Maps, die irgendetwas reflektieren, ziemlich nutzlos daher. In Shadow of the Tomb Raider sieht man den Unterschied im Grunde nach immer, nur die Frage ist eben ob korrekte Schatten es wert sind die FPS so einkrachen zu lassen. Metro habe ich nicht , da vermute ich aber den mit Abstand größten optischen Zugewinn, auf Reflexionen und Schatten sollte man meiner Meinung nach verzichten bis ausreichend RT Leistung da ist und sich auf Global Illumination konzentrieren.
Echtzeit Raytracing ist aber eine andere Geschichte, ich glaube nicht, das es hier zu einer entsprechenden Lösung kommt, es würde auch nicht viele Kunden dafür geben, da die Kosten für eine GPU + dezidierter Beschleunigerkarte immer höher sein werden und mehr technische Probleme verursachten, als eine GPU der nächst höheren Stufe. Wem dann die höchste Stufe rtx2080 ti nicht reicht, der ist im Profibereich mit ganz anderen Preisen.
"Die beste RT Leistung" wie nVidia beschreibt, erhält man damit also unter Spielen nicht. Ob das später nochmal kommt ist unbekannt, man überlegt wie man beschreibt. Dedizierte Renderercards wie Ageia's PhysX würde ich eher ausschließen.
RTX ist nicht von PCIe Bandbreite abhängig, bzw. auch nicht vom Link.
Ageia's PhysX physics processing unit - The Tech Report - Page 1
MfG, Föhn.
Echtzeit Raytracing ist aber eine andere Geschichte, ich glaube nicht, das es hier zu einer entsprechenden Lösung kommt, es würde auch nicht viele Kunden dafür geben, da die Kosten für eine GPU + dezidierter Beschleunigerkarte immer höher sein werden und mehr technische Probleme verursachten, als eine GPU der nächst höheren Stufe. Wem dann die höchste Stufe rtx2080 ti nicht reicht, der ist im Profibereich mit ganz anderen Preisen.