Nvidia Tesla K20 & K20X im Titan-Supercomputer - finale Specs des GK110-Chips
Der GK110 alias Tesla K20X ist im Titan-Supercomputer an den Start gegangen: Die Katze ist ergo aus dem Sack und Nvidia stellt passend dazu auf der SC12 in Salt Lake City im US-Bundesstaat Utah die auf dem Superchip GK110 basierenden Tesla-Modelle K20 und K20X vor. Bis zu 3,95 TFLOPS in einfacher und 1,31 TFLOPS in doppelter Genauigkeit sollen die PCI-Express-3.0-Beschleunigerkarten leisten.
Bei Nvidia läuft es momentan offenbar richtig rund, geht man nach den just präsentierten guten Quartalszahlen und den markigen Worten zur offiziellen Vorstellung der Tesla-K20-Reihe. Passend zum Start der Supercomputer-Konferenz SC12 und der vierzigsten Top500-Liste der weltweit schnellsten Supercomputer präsentieren die Kalifornier die seit letzter Woche in voller Massenproduktion befindlichen GK110-basierten Tesla-Karten K20 und K20X und sparen dabei nicht mit Superlativen.
30 Petaflops in 30 Tagen habe man an Rechenkapazität ausgeliefert, etwa soviel wie die komplette Top10 der Vorjahresliste, so Sumit Gupta, seines Zeichens General Manager bei Nvidia für Tesla Accelerated Computing. Der Löwenanteil davon entfällt schon rein rechnerisch auf die 18.688 Tesla K20X-GPUs im aktuell schnellsten Supercomputer weltweit, dem Titan an den Oak Ridge National Labs. Von dessen 27 PetaFLOPS Spitzenleistung (27.000 TFLOPS) sollen rund 90 Prozent durch die eingesetzten Nvidia-Chips bereitgestellt werden. Die 17,59 PFLOPS real erreichte LinPack-Leistung entspricht einer systemweiten Effizienz von rund 65 Prozent. Das hatte Nvidia in der Vorgängergeneration mit Fermi-GPUs nicht einmal innerhalb eines Servers geschafft. Beschränkt man sich - unabhängig von Titan - auf ein Rack mit 2 CPUs und 2 K20X, so erreicht man laut Nvidia 76% der theoretisch möglichen Spitzenleistung auch im realen Linpack-Lauf. Im Bereich doppelgenauer Matrixmultiplikationen erreicht Nvidia laut eigener Aussage 1,22 von 1,31 TFLOPs (95% Effizienz) und liegt damit knapp 3x höher als mit einer Fermi-basierten Tesla M2090.
Während der Telefonkonferenz im Vorfeld des K20-Launches stellte Nvidia neben der reinen Rechenleistung auch die besonders hohe Energieeffizienz der K20/GK110-Chip heraus. Man bezog sich dabei auf den Vergleich der Supercomputer Titan und der BlueGene/Q-Modelle, welche gleich im Zehnerpack die Green500-Liste der effizientesten Supercomputer anführ(t)en und nun vom Titan abgelöst werden. Nvidias GM für Tesla Accelerated Computing, Sumit Gupta, hob dabei hervor, dass es sich bei BlueGene/Q um speziell auf Hocheffizienz getrimmte Systeme handele und die Kosten pro Serverschrank ("Rack") seiner Meinung nach circa vier Mal höher als bei einem normalen Server-Rack, beispielsweise bestückt mit K20x lägen.
Die beiden Tesla-Karten K20 und K20X unterscheiden sich in Sachen Performance und Speicherausbau. Die stärkere K20X kommt mit ihren 2.688 Cuda-Recheneinheiten (14 SMX) und dem 384 Bit breiten Speicherinterface auf 1,31 TFLOPS DPFP (3,95 TFLOPS SPFP) und eine Übertragungsrate von 250 Gigabyte pro Sekunde.Rechnerisch entspricht das 735 MHz Chip- und 2.600 MHz Speichertakt. Ein Turbo-Boost sei lediglich durch den jeweiligen OEM möglich, nicht aber automatisch oder gar User-beeinflussbar. Während die K20X mit ihren 6 GiByte GDDR5-RAM nur für Server vorgesehen ist, soll die kleinere K20 mit 1,17/3,52 TFLOPS und 13 SMX (2.496 Shader-ALUs) auch für den Workstation-Einsatz geeignet sein. Hier sind lediglich 5 GiByte GDDR5-RAM mit einer Übertragungsrate von 208 GByte pro Sekunde verbaut, welche sich durch das auf 320 Bit verkleinerte Speicherinterface auf ebenfalls 2.600 MHz GDDR5-Takt zurückrechnen lässt. Bei aktivem ECC-Speicherschutz verringert sich die nutzbare Kapazität um 12,5 Prozent: Aus 6 GiB werden 5,25 GiB und aus 5 GiB 4,48 GiB.
Die TDP liegt laut Nvidia bei 225 Watt für K20 und 235 Watt für K20X - damit verfüge man über die effizientesten Beschleuniger auf dem Markt und erreicht einen Durchsatz von 5,2 GFLOPS/Watt DPFP bei der K20 und 5,57 GFLOPS/Watt beim K20X. Weitere technische Details zum GK110 und dessen Neuerungen für den HPC-Bereich finden Sie in einem gesonderten Artikel.
