Pascal GP100 auf der GTC 2016: Nvidias HPC-GPU geht mit 610 mm² in die Vollen [Update: Echte Bilder]

Auf der GPU Technology Conference stellte Nvidia endlich den langerwarteten Maxwell-Nachfolger Pascal in Form einer ersten GPU vor: Auf dem in 16-nm-FinFET-Technologie gefertigten, 610 mm² großen Chip rechnen bis zu 3.840 Shader-Einheiten und 15,3 Milliarden Transistoren. Zum Einsatz kommt er zuerst auf der Tesla P100.

Special 07.04.2016 um 11:15 Uhr Roland Austinat (US-Korrespondent) Mark Mantel Als bevorzugte Quelle auf Google hinzufügen

Quelle: Nvidia

Update vom 07.04.16:

Quelle: PC Games Hardware Update: Echte GP100-GPUs abgebildet (8) Nvidia-Partner Quantaplex zeigt auf der GTC 2016 ein System des Typs T21W-3U, das neben zwei Xeon-CPUs bis zu acht Tesla-P100-Karten beherbergt. Die sechs GPUs mit dem schwarzen Umriss stammen aus der früheren Produktion (Kalenderwoche 40 2015, noch mit Edding-Markierungen) und haben über dem HBM einen Spacer. Nur bei zwei GPUs aus der KW43 sieht man die HBM2-Stacks im Spacer eingelassen, wobei diese beiden Chips nicht mehr per Edding beschriftet wurden. Nvidia gibt übrigens an, das GPU-Package auf die Nutzung von 32 GiByte ausgelegt zu haben, was sich mit früheren Roadmaps deckt. Eine neue Tesla-Lösung auf Basis des GP100 sollte also erscheinen, sobald SK Hynix beziehungsweise Samsung entsprechende HBM2-Stacks mit 8 GiByte Kapazität liefern können.

Zudem gab Nvidia nun auch selbst in seinem "Deep-Dive" über die Pascal-Architektur zu verstehen, dass der GP100 eine reine HPC-GPU ist und wohl nicht in den Desktop-Markt kommen wird.

Bildergalerie

Originalartikel vom 06.04.16:

Zum offiziellen Auftakt der GPU Technology Conference in San Jose stellte Nvidia-CEO Jen-Hsen Huang den ersten Chip der neuen GPU-Generation Pascal vor. Der GP100 besitzt eine Rekordfläche von 610 mm² und kommt auf der Beschleunigerkarte Tesla P100 zum ersten Mal zum Einsatz. Anders als die derzeit noch aktuellen Maxwell-Chips wird die Pascal-Reihe dabei nicht in 28-nm-, sondern in 16-nm-FinFET-Technologie bei TSMC (16FF+) gefertigt. Auf dem GP100-Chip sitzen 15,3 Milliarden Transistoren. Das sind nahezu doppelt so viele, wie auf Nvidias Titan X mit GM200-Chip beziehungsweise AMDs Fury X mit Fiji-GPU schalten und walten: Diese zwei GPUs verfügen über acht beziehungsweise 8,9 Milliarden Transistoren.

Mehr CUDA-Kerne als je zuvor

Quelle: Nvidia GP100 GPU-Blockdiagramm Quelle: Nvidia GP100 SM-Blockdiagramm Mehr Leistung und höhere Energieeffizienz sind zwei Kernziele beim Design einer neuen GPU-Generation. Für die Leistung sind beim GP100 sechs Graphics Processsing Cluster und 60 Streaming-Multiprozessoren verantwortlich. Jeder Streaming-Multiprozessor besteht aus 64 Shader-Einheiten und vier Textureinheiten, was theoretisch 3.840 CUDA-Kerne und 240 Textureinheiten pro Pascal-Chip bedeutet. Nvidia nähert sich damit wieder seiner Fermi-Architektur mit 32 Shader pro SM an (Kepler: 192, Maxwell: 128) und baut seine SMs nun ähnlich auf wie AMD seine GCN-Compute-Units (ebenfalls jeweils 64 ALUs und vier TMUs). Beim Einsatz auf der Tesla P100 sind noch nicht alle SMs des GP100 freigeschaltet: Nvidia hat derzeit nur 3.584 davon beziehungsweise 224 Textureinheiten aktiviert.

Über acht 512-Bit-Speichercontroller kommuniziert der Chip mit 16 GiByte HBM2-RAM von Samsung, das mit 1,4 GHz getaktet ist. Außerdem verfügt die GPU über 4 MiByte Level-2-Cache. Weil die Pascal-Architektur Speicher mit der GPU vereint und dazu die CoWoS-Technik - Chip on Wafer on Substrate - einsetzt, verdreifacht sich die Speicherbandbreite: Verglichen mit der Maxwell-Architektur sind Übertragungsraten von 720 GByte pro Sekunde möglich. Damit die thermische Verlustleistung von der Tesla P100 300 Watt allerdings nicht übersteigt, wird der Speicher unterhalb der maximal möglichen 2,0 GHz getaktet. Für eine spätere Neuauflage oder dem Volta-Nachfolger hat man so noch ein Polster für eine Übertragungsrate von 1 TByte pro Sekunde.

	Tesla P100	Tesla M40	Tesla K40
GPU	GP100 (Pascal)	GM200 (Maxwell)	GK110 (Kepler)
SMs	56	24	15
TPCs	28	24	15
FP32-Shader/SM	64	128	192
FP32-Shader/GPU	3.584	3.072	2.880
FP64-Shader/SM	32	4	64
FP64-Shader/GPU	1.792	96	960
Basistakt	1.328 MHz	948 MHz	745 MHz
Boost-Takt	1.480 MHz	1.114 MHz	810/875 MHz
FP64-GFLOPS	5.304	213	1.680
Textureinheiten	224	192	240
Speicherinterface	4096 Bit HBM2	384 Bit GDDR5	384 Bit GDDR5
Speichergröße	16 GiByte	Max. 24 GiByte	Max. 12 GiByte
L2-Cache	4.096 KiB	3.072 KiB	1.536 KiB
Register-File-Größe/SM	256 KiB	256 KB	256 KB
Register-File-Größe/GPU	14.336 KiB	6.144 KiB	3.840 KiB
TDP	300 Watt	250 Watt	235 Watt
Transistoren	15,3 Mrd.	8 Mrd.	7,1 Mrd.
GPU-Die-Größe	610 mm²	601 mm²	551 mm²
Fertigungsstruktur	16 nm	28 nm	28 nm

Tesla P100 schlägt Titan X

Die Leistung der Tesla P100 ist beachtlich. Im Boost-Modus mit 1.480 MHz (Basis: 1.328 MHz) getaktet vollbringen die 64 FP32-CUDA-Kerne im FP16-Modus - also bei halber Genauigkeit - 21,2 TFLOPS. Nativ, also in einfacher Genauigkeit, sind es 10,6 TFLOPS - bei dieser für Spiele wichtigen Messgröße kommt eine Titan X auf 7,1 TFLOPS. Um eine gerade im Vergleich zum Vorgängermodell deutlich bessere Rechenleistung in doppelter Genauigkeit zu erreichen, enthält jeder der maximal 60 Streaming-Prozessoren noch 32 FP64-Kerne, die beachtliche 5,3 TFLOPS auf die Waage bringen. Nvidia erreicht dadurch ein 1:2:4-Verhältnis zwischen FP64:FP32:FP16.

Zum Vergleich (jeweilige Top-Chips): Kepler schaffte in doppelter Genauigkeit 1,68 TFLOPS, Maxwell eher jämmerliche 203 GFLOPS. Für noch mehr Leistung lassen sich bis zu acht Tesla-P100-Karten zusammenschließen. Sie tauschen dann über die neue NVLink-Schnittstelle Daten mit einer Geschwindigkeit von 160 GByte pro Sekunde miteinander - fünf Mal so schnell wie der für 2017 erwartete Standard PCI-Express 4.0 (x16).

Zuerst nur für Profi-Anwender

Den ersten Einsatz haben GP100 beziehungsweise Tesla P100 in Nvidias DGX-1, einem Deep-Lerning-Supercomputer, den Jen-Hsun Huang stolz "ein Rechenzentrum mit 250 Servern in einem Gehäuse" nennt. In diesem System stecken acht Tesla-P100-Beschleunigerkarten, die gemeinsam bis zu 170 TFLOPS Rechenleistung im FP16-Modus liefern. Außerdem integriert: 7 TByte SSD-DL-Speicher sowie Dual-10-GBit- und Quad-InfiniBand-100-GBit-Netzwerk-Support. Ein 3.200-Watt-Netzteil sorgt dafür, dass dem System nicht die Puste ausgeht.

Bereits heute können finanzkräftige Institutionen den DGX-1 bestellen - zum Preis von 129.000 US-Dollar. Das mag auf den ersten Blick eine Menge Geld sein, doch man muss sich vor Augen halten, was ein vergleichbares System noch vor ein paar Jahren gekostet hätte. Oder was man noch heute berappen muss, wenn man es aus einzelnen Komponenten zusammensetzt: "Allein für die Infrastruktur zur Verbindung einzelner Server, die eine solche Leistung erreichen, muss man bis zu 500.000 US-Dollar einkalkulieren", sagt Jen-Hsun Huang.
Quelle: PC Games Hardware Nvidia Pascal 7

Wann kommt Pascal für den Desktop?

Wer eine Tesla P100 kaufen möchte, muss entweder an einer Forschungseinrichtung arbeiten, die von Nvidia bevorzugt bei der Auslieferung bedacht wird - oder ab Juni auf einen DGX-1 hoffen. OEM-Hersteller werden Server mit der Pascal-GPU ab Anfang 2017 im Angebot haben. Zum Desktop-Markt blieb Nvidia auf der GTC allerdings noch auffallend ruhig.

Doch in zahlreichen Gesprächen mit Brancheninsidern kristallisierte sich in San Jose heraus, dass wir wohl im Mai oder Juni etwas in Sachen Geforce-Consumer-Karte mit Pascal-Architektur hören werden. Wer sich heute schon einen neuen Rechner bauen will, um schon bei den VR-Headsets vom Start weg ganz vorne dabei zu sein, braucht nicht auf eine Pascal-Geforce zu warten: GTX 980 und 980 Ti sind vorzüglich in der Lage, Vive und Oculus Rift zu bedienen.

Nicht verpassen: Nvidia Pascal: Weitere Indizien, dass GP100 nicht als Geforce kommt

Ob wir den GP100 jemals im Desktop sehen werden, ist indes fraglich. Nvidia geht mit dem Chip voll auf High-Performance Computing. Das Silizium für FP64, NV-Link und weitere HPC-Gimmicks braucht man als Spieler nicht. Und ein 610-mm²-Chip in einem nigelnagelneuen Fertigungsprozess wird alles andere als günstig ausfallen. In 28 nm sind AMD und Nvidia erst nach Jahren an die 600-mm²-Marke getreten. Es gab ein einziges Mal einen Eintrag zu einem GP102. Seit jeher wird spekuliert, dass es sich bei dem um eine für den Endkundenmarkt bereinigte Version des GP100 handeln könnte, ohne FP64-Einheiten und NV-Link, wahrscheinlich der Wirtschaftlichkeit halber kleiner.