Nvidia Pascal: Folie zeigt GP100 mit 12 TFLOPS SP und 4 TFLOPS DP
Aktuell machen mehrere Präsentationen von Nvidia-Partnern die Runde, die Details zum GP100-Grafikchip zeigen, allerdings noch von 2014 beziehungsweise 2015 stammen. Genannt werden 12 TFLOPS Single-Precision-Leistung und 4 TFLOPS Double-Precision-Leistung. Je nach Takt wären damit 6.144 oder 5.120 Shadereinheiten denkbar.
Im 3DCenter wurde eine Präsentationsfolie ausfindig gemacht, die von CUDA-Fellow Manuel Ujaldon stammt, einem spanischen Universitätsprofessor mit einem eigenen Profil auf Nvidias offizieller Webseite. Gezeigt wird ein Vergleich der Single- und Double-Precision-Leistung sowie der Bandbreite zwischen Fermi, Kepler, Pascal und einigen konkurrierenden Plattformen von AMD und Intel. Erstellt wurde die Folie bereits im April 2014, von Ujaldon im Juni 2015 dann allerdings wieder verwendet. Da er offensichtlich Beziehungen zu Nvidia hat, sind die Informationen zumindest "semioffiziell".
Genannt werden indes 12 SP-TFLOPS und 4 DP-TFLOPS. Der 3:1-Teiler spricht erneut für den Einsatz von dedizierten FP64-Einheiten, um die Double-Precision-Operationen durchzuführen. Der Mixed-Precision-Ansatz würde damit nur für die halbe und einfache Genauigkeit (Half-, Single-Precision) gelten, bei denen zwei FP16-Einheiten für eine SP-Operationen zusammengeschaltet werden. Ansonsten müsste das HP-SP-DP-Verhältnis bei 4:2:1 und die DP-Leistung entsprechend bei 6 TFLOPS liegen. Um die genannten 12 TFLOPS zu erreichen, bräuchte es im Übrigen beispielsweise 6.144 Shadereinheiten bei einem Takt von knapp 1.000 MHz oder 5.120 bei 1.175 MHz. Ersterer Fall wäre quasi ein doppelter GM200 (3.072 Shader), würde in Anbetracht der jetzt wieder hinzugekommenen DP-Leistung aber sicher an die Grenzen des 16-nm-Prozesses gehen. Um noch Plätz für eine zweite 16-nm-Auflage zu lassen und in Anbetracht der geringeren Ausbeute einhergehend mit höheren Fertigungskosten, erscheint uns die 5.120-Shader-Variante für den Anfang realistischer.
Interessant ist derweil, dass wiederholt Hybrid Memory Cubes, kurz HMCs, als Speichertechnologie angesprochen werden, obwohl zuletzt immer die Rede von HBM war. Möglicherweise plante Nvidia im Frühjahr 2014 noch mit der Micron-Speicher-Technologie und Ujaldon hat ein entsprechendes Update verpasst. Andererseits könnte es sich beim GP100 immer noch um einen reinen HPC-Grafikchip auf Basis der Nvidia-Architektur handeln, bei dem die latenzoptimierten HMCs zum Einsatz kommen. Der GP102 als etwaige Gamer-Variante ohne große DP-Funktionalität wäre dann weiterhin mit HBM denkbar - wenn auch das Entwickeln von gleich zwei neuen Speicherinterfaces sicherlich nicht ohne Risiko wäre.
Die Präsentationen prognostizieren den GP100 übrigens weiterhin für den Sommer 2016. Damit wird einmal mehr deutlich, dass Nvidia schnellstmöglich den HPC-Markt versorgen möchte, der wegen der fehlenden DP-Performance von Maxwell noch auf Kepler setzen muss. Das französische Institut für alternative Energien und Kernenergie (CEA) und das Rechenzentrum für Forschung und Technologie (CCRT) haben bereits bekannt gegeben, ab Juli ein neues Rechenzentrum mit Pascal-GPUs aufbauen zu wollen. Das heißt allerdings nicht, dass auch Endkunden dieses Jahr schon eine solch große GPU zu Gesicht bekommen werden - in der Tesla- und Quadro-Sparte lassen sich die hohen Kosten deutlich besser absetzen.
Quelle: 3DCenter, 3DCenter-Forum (folgend), PDFs (#1, #2)


SP hat ja immerhin ca. 8 signifikante Stellen, das ist schon ganz ordentlich.
gRU?; cAPS
Wie schon mehrfach geschrieben wurde: Für Spiele ist DP generell uninteressant. Da fiele mir nicht eine einzige Sache ein, die man nicht irgendwie (mit Tricks) auch mit SP hinkriegen würde
gRU?; cAPS