Online-Abo
  • Login
  • Registrieren
Games World
  • Pascal GP100 auf der GTC 2016: Nvidias HPC-GPU geht mit 610 mm² in die Vollen [Update: Echte Bilder]
    Quelle: Nvidia

    Pascal GP100 auf der GTC 2016: Nvidias HPC-GPU geht mit 610 mm² in die Vollen [Update: Echte Bilder]

    Auf der GPU Technology Conference stellte Nvidia endlich den langerwarteten Maxwell-Nachfolger Pascal in Form einer ersten GPU vor: Auf dem in 16-nm-FinFET-Technologie gefertigten, 610 mm² großen Chip rechnen bis zu 3.840 Shader-Einheiten und 15,3 Milliarden Transistoren. Zum Einsatz kommt er zuerst auf der Tesla P100.

    Update vom 07.04.16:

    Update: Echte GP100-GPUs abgebildet (8)Update: Echte GP100-GPUs abgebildet (8)Quelle: PC Games HardwareNvidia-Partner Quantaplex zeigt auf der GTC 2016 ein System des Typs T21W-3U, das neben zwei Xeon-CPUs bis zu acht Tesla-P100-Karten beherbergt. Die sechs GPUs mit dem schwarzen Umriss stammen aus der früheren Produktion (Kalenderwoche 40 2015, noch mit Edding-Markierungen) und haben über dem HBM einen Spacer. Nur bei zwei GPUs aus der KW43 sieht man die HBM2-Stacks im Spacer eingelassen, wobei diese beiden Chips nicht mehr per Edding beschriftet wurden. Nvidia gibt übrigens an, das GPU-Package auf die Nutzung von 32 GiByte ausgelegt zu haben, was sich mit früheren Roadmaps deckt. Eine neue Tesla-Lösung auf Basis des GP100 sollte also erscheinen, sobald SK Hynix beziehungsweise Samsung entsprechende HBM2-Stacks mit 8 GiByte Kapazität liefern können.

    Zudem gab Nvidia nun auch selbst in seinem "Deep-Dive" über die Pascal-Architektur zu verstehen, dass der GP100 eine reine HPC-GPU ist und wohl nicht in den Desktop-Markt kommen wird.


    Originalartikel vom 06.04.16:

    Zum offiziellen Auftakt der GPU Technology Conference in San Jose stellte Nvidia-CEO Jen-Hsen Huang den ersten Chip der neuen GPU-Generation Pascal vor. Der GP100 besitzt eine Rekordfläche von 610 mm² und kommt auf der Beschleunigerkarte Tesla P100 zum ersten Mal zum Einsatz. Anders als die derzeit noch aktuellen Maxwell-Chips wird die Pascal-Reihe dabei nicht in 28-nm-, sondern in 16-nm-FinFET-Technologie bei TSMC (16FF+) gefertigt. Auf dem GP100-Chip sitzen 15,3 Milliarden Transistoren. Das sind nahezu doppelt so viele, wie auf Nvidias Titan X mit GM200-Chip beziehungsweise AMDs Fury X mit Fiji-GPU schalten und walten: Diese zwei GPUs verfügen über acht beziehungsweise 8,9 Milliarden Transistoren.

    Mehr CUDA-Kerne als je zuvor

    GP100 GPU-BlockdiagrammGP100 GPU-BlockdiagrammQuelle: NvidiaGP100 SM-BlockdiagrammGP100 SM-BlockdiagrammQuelle: NvidiaMehr Leistung und höhere Energieeffizienz sind zwei Kernziele beim Design einer neuen GPU-Generation. Für die Leistung sind beim GP100 sechs Graphics Processsing Cluster und 60 Streaming-Multiprozessoren verantwortlich. Jeder Streaming-Multiprozessor besteht aus 64 Shader-Einheiten und vier Textureinheiten, was theoretisch 3.840 CUDA-Kerne und 240 Textureinheiten pro Pascal-Chip bedeutet. Nvidia nähert sich damit wieder seiner Fermi-Architektur mit 32 Shader pro SM an (Kepler: 192, Maxwell: 128) und baut seine SMs nun ähnlich auf wie AMD seine GCN-Compute-Units (ebenfalls jeweils 64 ALUs und vier TMUs). Beim Einsatz auf der Tesla P100 sind noch nicht alle SMs des GP100 freigeschaltet: Nvidia hat derzeit nur 3.584 davon beziehungsweise 224 Textureinheiten aktiviert.

    Über acht 512-Bit-Speichercontroller kommuniziert der Chip mit 16 GiByte HBM2-RAM von Samsung, das mit 1,4 GHz getaktet ist. Außerdem verfügt die GPU über 4 MiByte Level-2-Cache. Weil die Pascal-Architektur Speicher mit der GPU vereint und dazu die CoWoS-Technik - Chip on Wafer on Substrate - einsetzt, verdreifacht sich die Speicherbandbreite: Verglichen mit der Maxwell-Architektur sind Übertragungsraten von 720 GByte pro Sekunde möglich. Damit die thermische Verlustleistung von der Tesla P100 300 Watt allerdings nicht übersteigt, wird der Speicher unterhalb der maximal möglichen 2,0 GHz getaktet. Für eine spätere Neuauflage oder dem Volta-Nachfolger hat man so noch ein Polster für eine Übertragungsrate von 1 TByte pro Sekunde.

     Tesla P100Tesla M40Tesla K40
    GPUGP100 (Pascal)GM200 (Maxwell)GK110 (Kepler)
    SMs562415
    TPCs282415
    FP32-Shader/SM64128192
    FP32-Shader/GPU3.5843.0722.880
    FP64-Shader/SM32464
    FP64-Shader/GPU1.79296960
    Basistakt1.328 MHz948 MHz745 MHz
    Boost-Takt1.480 MHz1.114 MHz810/875 MHz
    FP64-GFLOPS5.3042131.680
    Textureinheiten224192240
    Speicherinterface4096 Bit HBM2384 Bit GDDR5384 Bit GDDR5
    Speichergröße16 GiByteMax. 24 GiByteMax. 12 GiByte
    L2-Cache4.096 KiB3.072 KiB1.536 KiB
    Register-File-Größe/SM256 KiB256 KB256 KB
    Register-File-Größe/GPU14.336 KiB6.144 KiB3.840 KiB
    TDP300 Watt250 Watt235 Watt
    Transistoren15,3 Mrd.8 Mrd.7,1 Mrd.
    GPU-Die-Größe610 mm²601 mm²551 mm²
    Fertigungsstruktur16 nm28 nm28 nm

    Tesla P100 schlägt Titan X

    Die Leistung der Tesla P100 ist beachtlich. Im Boost-Modus mit 1.480 MHz (Basis: 1.328 MHz) getaktet vollbringen die 64 FP32-CUDA-Kerne im FP16-Modus - also bei halber Genauigkeit - 21,2 TFLOPS. Nativ, also in einfacher Genauigkeit, sind es 10,6 TFLOPS - bei dieser für Spiele wichtigen Messgröße kommt eine Titan X auf 7,1 TFLOPS. Um eine gerade im Vergleich zum Vorgängermodell deutlich bessere Rechenleistung in doppelter Genauigkeit zu erreichen, enthält jeder der maximal 60 Streaming-Prozessoren noch 32 FP64-Kerne, die beachtliche 5,3 TFLOPS auf die Waage bringen. Nvidia erreicht dadurch ein 1:2:4-Verhältnis zwischen FP64:FP32:FP16.

    Zum Vergleich (jeweilige Top-Chips): Kepler schaffte in doppelter Genauigkeit 1,68 TFLOPS, Maxwell eher jämmerliche 203 GFLOPS. Für noch mehr Leistung lassen sich bis zu acht Tesla-P100-Karten zusammenschließen. Sie tauschen dann über die neue NVLink-Schnittstelle Daten mit einer Geschwindigkeit von 160 GByte pro Sekunde miteinander - fünf Mal so schnell wie der für 2017 erwartete Standard PCI-Express 4.0 (x16).

    10:23
    Nvidia Pascal: Vorstellung der Tesla P100 mit GP100 im GTC-Video

    Zuerst nur für Profi-Anwender

    Den ersten Einsatz haben GP100 beziehungsweise Tesla P100 in Nvidias DGX-1, einem Deep-Lerning-Supercomputer, den Jen-Hsun Huang stolz "ein Rechenzentrum mit 250 Servern in einem Gehäuse" nennt. In diesem System stecken acht Tesla-P100-Beschleunigerkarten, die gemeinsam bis zu 170 TFLOPS Rechenleistung im FP16-Modus liefern. Außerdem integriert: 7 TByte SSD-DL-Speicher sowie Dual-10-GBit- und Quad-InfiniBand-100-GBit-Netzwerk-Support. Ein 3.200-Watt-Netzteil sorgt dafür, dass dem System nicht die Puste ausgeht.

    Bereits heute können finanzkräftige Institutionen den DGX-1 bestellen - zum Preis von 129.000 US-Dollar. Das mag auf den ersten Blick eine Menge Geld sein, doch man muss sich vor Augen halten, was ein vergleichbares System noch vor ein paar Jahren gekostet hätte. Oder was man noch heute berappen muss, wenn man es aus einzelnen Komponenten zusammensetzt: "Allein für die Infrastruktur zur Verbindung einzelner Server, die eine solche Leistung erreichen, muss man bis zu 500.000 US-Dollar einkalkulieren", sagt Jen-Hsun Huang.
    Nvidia Pascal  7 Nvidia Pascal 7 Quelle: PC Games Hardware

    Wann kommt Pascal für den Desktop?

    Wer eine Tesla P100 kaufen möchte, muss entweder an einer Forschungseinrichtung arbeiten, die von Nvidia bevorzugt bei der Auslieferung bedacht wird - oder ab Juni auf einen DGX-1 hoffen. OEM-Hersteller werden Server mit der Pascal-GPU ab Anfang 2017 im Angebot haben. Zum Desktop-Markt blieb Nvidia auf der GTC allerdings noch auffallend ruhig.

    Doch in zahlreichen Gesprächen mit Brancheninsidern kristallisierte sich in San Jose heraus, dass wir wohl im Mai oder Juni etwas in Sachen Geforce-Consumer-Karte mit Pascal-Architektur hören werden. Wer sich heute schon einen neuen Rechner bauen will, um schon bei den VR-Headsets vom Start weg ganz vorne dabei zu sein, braucht nicht auf eine Pascal-Geforce zu warten: GTX 980 und 980 Ti sind vorzüglich in der Lage, Vive und Oculus Rift zu bedienen.

    Nicht verpassen: Nvidia Pascal: Weitere Indizien, dass GP100 nicht als Geforce kommt

    Ob wir den GP100 jemals im Desktop sehen werden, ist indes fraglich. Nvidia geht mit dem Chip voll auf High-Performance Computing. Das Silizium für FP64, NV-Link und weitere HPC-Gimmicks braucht man als Spieler nicht. Und ein 610-mm²-Chip in einem nigelnagelneuen Fertigungsprozess wird alles andere als günstig ausfallen. In 28 nm sind AMD und Nvidia erst nach Jahren an die 600-mm²-Marke getreten. Es gab ein einziges Mal einen Eintrag zu einem GP102. Seit jeher wird spekuliert, dass es sich bei dem um eine für den Endkundenmarkt bereinigte Version des GP100 handeln könnte, ohne FP64-Einheiten und NV-Link, wahrscheinlich der Wirtschaftlichkeit halber kleiner.

    Werbefrei auf PCGH.de und im Forum surfen - jetzt informieren.
    07:54
    Nvidia Titan X und AMD Fury X harmonisch vereint: Ashes of the Singularity unter DirectX 12 getestet
  • Print / Abo
    Apps
    PC Games Hardware 01/2017 PC Games 12/2016 PC Games MMore 01/2016 play³ 01/2017 Games Aktuell 12/2016 buffed 12/2016 XBG Games 11/2016
    PCGH Magazin 01/2017 PC Games 12/2016 PC Games MMORE Computec Kiosk On the Run! Birdies Run
article
1191426
Nvidia Pascal
Pascal GP100 auf der GTC 2016: Nvidias HPC-GPU geht mit 610 mm² in die Vollen [Update: Echte Bilder]
Auf der GPU Technology Conference stellte Nvidia endlich den langerwarteten Maxwell-Nachfolger Pascal in Form einer ersten GPU vor: Auf dem in 16-nm-FinFET-Technologie gefertigten, 610 mm² großen Chip rechnen bis zu 3.840 Shader-Einheiten und 15,3 Milliarden Transistoren. Zum Einsatz kommt er zuerst auf der Tesla P100.
http://www.pcgameshardware.de/Nvidia-Pascal-Hardware-261713/Specials/GP100-Top-Chip-Zusammenfassung-1191426/
07.04.2016
http://www.pcgameshardware.de/screenshots/medium/2016/04/Nvidia-Tesla-P100-GP100-2-pcgh_b2teaser_169.jpg
nvidia,gpu,nvidia pascal,gtc,grafikkarte
specials