Raytracing für GTX-Grafikkarten: Techdemos und Leistungswerte
Auf dieser Seite des Artikels "Raytracing für GTX-Grafikkarten" geht es um Raytracing-Techdemos für alle und DXR auf GTX-GPUs mit Leistungswerten direkt von Nvidia
Raytracing-Techdemos für alle
In diesem Artikel
Am heutigen 11. April veröffentlicht Nvidia nicht nur den Software-DXR-Treiber Geforce 425.31 für GTX-Grafikkarten, sondern auch ein paar Echtzeit-Showcases für Raytracing-Interessierte. Somit kann sich jeder Besitzer einer fähigen Geforce-Grafikkarte am eigenen Rechner ein Bild von den neuen Effekten verschaffen. Die folgenden Demos stehen - neben den Vollpreisspielen Battlefield 5, Shadow of the Tomb Raider und Metro Exodus - ab sofort zur Verfüung:
- Atomic Heart RTX Techdemo: Atomic Heart zeigt komplexe Raytracing-Reflexionen und -Schatten sowie DLSS auf RTX-20-Grafikkarten.
- Justice Techdemo: Justice zeigt komplexe Raytracing-Reflexionen inklusive Kaustiken, RT-Schatten sowie DLSS auf RTX-20-Grafikkarten.
- Reflections Techdemo: Reflections zeigt das volle Raytracing-Paket: Reflections, Area Light Shadows, Ambient Occlusion sowie DLSS auf RTX-20-Grafikkarten.
Nvidia nutzt die Demos, um erneut auf die Möglichkeiten aktuellen Hybrid-Raytracings aufmerksam zu machen und hat dafür auch ein Video veröffentlicht. Grundsätzlich geht es darum, klassische Rasterisierung, wie sie Spiele seit einem guten Vierteljahrhundert betreiben, selektiv mihilfe von Raytracing aufzuwerten. Das langfristige Ziel lautet, das komplette Bild in Echtzeit mittels Raytracing zu realisieren. Im Jahr 2019 fehlt dafür die notwendige Rechenleistung, weshalb Raytracing sich gezielt einigen Effekten widmet. Die folgende Grafik zeigt die derzeit verfügbaren RT-Effekte, grob nach dem Rechenaufwand aufgereiht (von links nach rechts: einfach bis aufwendig):
Quelle: Nvidia
Game Ready Driver DXR for Pascal and Turing GTX Full presentation Seite 18
Alle Effekte werden mit dem geringstmöglichem Aufwand berechnet, es wird aus Kostengründen kein Strahl (Ray) zu viel verschossen. Der Rechenaufwand ergibt sich nicht nur aus der Anzahl der Strahlen, sondern auch aus der Länge und den erfassten Bounces - also wie oft ein Strahl von virtuellen Objekten umgeleitet wird. RT-Effekte, welche nur kleine Bereiche der Spielwelt aufwerten, sind günstiger als breitflächige Effekte - das gilt auch für Rasterisierung. Globale Beleuchtung mittels Raytracing, wie sie derzeit nur Metro Exodus praktiziert, gehört daher zu den aufwendigsten Raytracing-Aufwertungen. Hier lässt sch kaum Rechenzeit sparen, denn im Grunde benötigt jedes Objekt eine korrekte Beleuchtung. Bei RT-Reflexionen sieht es anders aus, es handelt sich um einen mehr oder minder aufwendigen Effekt, bei dem man clever sparen kann. In Battlefield 5 kommt der Effekt beispielsweise in Pfützen und in Fensterscheiben zum Einsatz und ist somit weit von einem Vollbildeffekt entfernt. Ähnlich sieht es bei Schatten à la Shadow of the Tomb Raider aus: Je mehr der dunklen Gesellen im Bild sind, desto größer der Rechenaufwand. Möchte man aber beispielsweise, dass sich eine Refllexion in einer Reflexion spiegelt, erfordert der Vorgang einige Bounces und drückt die Leistung somit enorm. Wer sich diese Spielerei ansehen möchte, führt sich die Techdemo von Atomic Heart zu Gemüte.
Quelle: Nvidia
Game Ready Driver DXR for Pascal and Turing GTX Full presentation Seite 07
DXR auf GTX-GPUs: Leistungswerte von Nvidia
Der Launch des offiziellen Software-DXR-Treibers Geforce 425.31 erfolgt am 11. April 2019 um 15 Uhr auf der Nvidia-Website. Installieren Sie den Treiber auf einer Geforce GTX 10/16, erblicken Sie neue Optionen in den DXR-fähigen Spielen. Je nach Titel dürfen Sie nun die ehemals unsichtbaren oder ausgegrauten DXR- respektive RTX-Effekte einschalten und deren Qualität wählen - wie bei den RTX-20-Karten auch. Das Look & Feel in den Spielmenüs ist identisch zu den Turing-Grafikkarten, sofern man von DLSS absieht. Dieses Feature benötigt die Tensorkerne und steht daher weiterhin nicht auf Pascal zur Verfügung.
Zwar informierte Nvidia die Presse vorab über den Treiber, allerdings mit ungewohnt kurzer Vorlaufzeit. Das Briefing erfolgte gestern Abend (10. April) und ohne Bereitstellung des Treibers. Infolgedessen war zum heutigen Launch selbst mit Überstunden nichts zu holen; wir forschen weiterhin an einer Möglichkeit zum Einfrieren der Zeit - bislang erfolglos. Eine Benchmark-Flut in gewohnter PCGH-Qualität wird noch etwas Zeit benötigen, weshalb wir uns zunächst mit den von Nvidia herausgegebenen Zahlen beschäftigen. Die Geforce-Macher haben alle DXR-Spiele und -Demos ausführlich getestet und die WQHD-Werte in Grafiken gepresst. Zwar fehlen Informationen zu den Taktraten, wir gehen jedoch einstweilen von Founders Editions respektive Referenzkarten aus:
Wenig überraschend machen nur die Turing-Grafikkarten mit dedizierten Hardware-Einheiten für Raytracing eine gute Figur. Abhängig von der getesteten Applikation erreichen selbst die schnellsten Pascal-Grafikkarten nur rucklige bis gerade so spielbare Bildraten. Am besten sieht es in Battlefield 5 und Shadow of the Tomb Raider aus, hier kann es die GTX 1080 Ti mit der RTX 2060 aufnehmen.
Gemessen an ihrer theoretischen Leistung stark schneiden die GTX-16-Modelle ab, die GTX 1660 Ti kann der GTX 1080 oft Paroli bieten. Allerdings haben alle Modelle abseits der RTX-Riege große Probleme damit, spielbare Bildraten zu erzeugen. Das liegt zum einen daran, dass Nvidia mit maximalen DXR-Details testet, und zum anderen daran, dass die WQHD-Auflösung verwendet wird. Tests mit reduzierter Raytracing-Abdeckung und in Full-HD-Auflösung dürften die Pascal-Modelle überdurchschnittlich stark entlasten. Wir gehen davon aus, dass alles abseits mittlerer Raytracing-Genauigkeit kein gangbarer Weg für Grafikkarten ohne RT-Kerne ist.
Ebenfalls in den Nvidia-Benchmarks ersichtlich ist die Wirkung von DLSS. Das optionale KI-Upscaling macht sich die Kraft der Turing-Tensorkerne zu Nutze, um das Bild mit zusätzlichen Informationen anzureichern. Der Leistungsgewinn ist keine Zauberei, sondern ergibt sich aus der intern reduzierten Renderauflösung. Zwar erzielt DLSS oft eine sehenwerte Qualität, vergleichbar mit Nicht-DLSS-Werten ist das Ergebnis jedoch nicht. Wie stark DLSS die Bildrate anheben kann, richtet sich nach der Komplexität der verwendeten Raytracing-Effekte. Da es sich um Per-Pixel-Berechnungen handelt, entspricht jeder eingesparte Bildpunkt einer deutlichen Entlastung. Unklar ist, welche Auflösung bei den verschiedenen Anwendungen tatsächlich verwendet wird und ob diese zwischen den Applikationen abweicht.

Sparmaßnahmen? Dedizierte Cores kosten mehr als unifieds, weil sie Platz brauchen und angebunden werden müssen (Cache). Der Begriff "GPU Partitionierung" ist Teil der vGPU Cloud Gaming Strategie seitens Microsoft und kann einem tatsächlich nur gefallen, wenn man zugeteilte GPU Ressourcen nach einem Abomodell mag, was auf die meisten dGPU Spieler wahrscheinlich nie zutreffen wird.
Schon jetzt dürfte Turing alles sprengen, was die reine Waferfläche angeht und genau daher wird nVidia sich hüten auf 7nm zu wechseln, die Kosten dürften hier 12/16nm bei 7000-8000 pro Wafer liegen, in 7nm bei 14000-16000$ über 7nm+ mag da noch niemand reden - weil das wohl sicherlich ein Redesign und eigens angepasstes nVidia Fertigungsverfahren erfordert.
Der PR Stunt wie groß ein Pascal ausfallen müsste, um die Ray Traverse zu berechnen, ist allein nVidias Erguss und Problem. Volta war eine Machbarkeitsstudie und genauso sehen auch die Preislagen dazu aus. Es macht deutlich mehr Sinn an Software und Compilern zu optimieren, als ständig irgendwelche dedizierten Cores auf einem GPU Design zu verwenden. Manchen Leuten scheinen die Preise dafür völlig egal zu sein. Allein Tensor und RT + Caching jubelt die Waferfläche um 22% in die Höhe, dazu kommt noch die Core Fabric und die Signalwege, die man bei höherem oder gleich gebliebenem Takt dafür schaffen muss.
Das Renderprinzip hat aber einen wesentlichen Anteil daran, weil auf den Code optimiert werden muss und man die Einheiten auch nutzen können muss. Die Frage ist dabei für welchen Zweck. Dabei ist die Parallelisierung der Prozesse auch nicht von der Partitionierung (Datenpartitionierung) abhängig, sondern von dem Algorithmus und der möglichen Konvertierung (erweiterte oder eingeschränkte).
Unter GPGPU spielt die Partitionierung ein unwesentliche Rolle, da diese Architektur (Instructions Multiple Data) und ihr Parallelisierungsgrad Aufgaben auf allen Einheiten gleichzeitig ausführen kann, was bei der Ressourcenauslastung und der Verarbeitung der Optimierung bedarf. Trotzdem liegt dieser Grad, mit seinen multiplen Threads weit über dem was man mit Partitionierungsarten erreichen könnte und diese fordert in jeden Fall hohen Sychronisierungsaufwand. Feingranularität vorausgesetzt, lässt sich auch eine hohe Auslastung erzielen.
Wenn sich Fiji und Vega ähneln, liegt das eher daran, dass man sich große Umbrüche und Treiberoptimierungen sparen kann. Die Architektur kein neues oder gesondertes Umfeld braucht, und das was bis dahin entwickelt wurde darauf lauffähig bleibt. Es ist also eine Frage der nachfolgenden Kosten und ob es dafür einen Absatzmarkt gibt, zuletzt auch was der - der diese Hardware abnimmt sich als Kunde wünscht.
Die Geschwindigkeiten werden heute durch die parallele Prozessausführung erreicht, wie auch Turing in dem Bsp. von FP32 und Int32 beweist. BFV soll im Verhältnis und nach Auskunft von nVidia, bereits bei 100 FP32 und gleichzeitig 50 INT32 liegen (100:50). Das erfordert aber auch eine Anpassung bei der Datenverarbeitung. Mal als Bsp. C++ AMP das ermöglich einen massiven Parallelisierungsgrad zu erreichen und Programme zu schreiben, die kompiliert auf der Hardware ausgeführt werden können und diese auch auslasten.
Ich habe es jetzt endlich mal zum Laufen gebracht und muss sagen, von Battlefield bin ich ziemlich enttäuscht, es gibt quasi gar keine Dinge, auf den meisten Maps, die irgendetwas reflektieren, ziemlich nutzlos daher. In Shadow of the Tomb Raider sieht man den Unterschied im Grunde nach immer, nur die Frage ist eben ob korrekte Schatten es wert sind die FPS so einkrachen zu lassen. Metro habe ich nicht , da vermute ich aber den mit Abstand größten optischen Zugewinn, auf Reflexionen und Schatten sollte man meiner Meinung nach verzichten bis ausreichend RT Leistung da ist und sich auf Global Illumination konzentrieren.
Echtzeit Raytracing ist aber eine andere Geschichte, ich glaube nicht, das es hier zu einer entsprechenden Lösung kommt, es würde auch nicht viele Kunden dafür geben, da die Kosten für eine GPU + dezidierter Beschleunigerkarte immer höher sein werden und mehr technische Probleme verursachten, als eine GPU der nächst höheren Stufe. Wem dann die höchste Stufe rtx2080 ti nicht reicht, der ist im Profibereich mit ganz anderen Preisen.
"Die beste RT Leistung" wie nVidia beschreibt, erhält man damit also unter Spielen nicht. Ob das später nochmal kommt ist unbekannt, man überlegt wie man beschreibt. Dedizierte Renderercards wie Ageia's PhysX würde ich eher ausschließen.
RTX ist nicht von PCIe Bandbreite abhängig, bzw. auch nicht vom Link.
Ageia's PhysX physics processing unit - The Tech Report - Page 1
MfG, Föhn.
Echtzeit Raytracing ist aber eine andere Geschichte, ich glaube nicht, das es hier zu einer entsprechenden Lösung kommt, es würde auch nicht viele Kunden dafür geben, da die Kosten für eine GPU + dezidierter Beschleunigerkarte immer höher sein werden und mehr technische Probleme verursachten, als eine GPU der nächst höheren Stufe. Wem dann die höchste Stufe rtx2080 ti nicht reicht, der ist im Profibereich mit ganz anderen Preisen.