Online-Abo
  • Login
  • Registrieren
Games World
  • GK110: Weitere Details zur größten GPU der Welt [Update: Inside Kepler]

    Das Nvidia-Flaggschiff GK110 ist mit 7,1 Milliarden Transistoren, bis zu 2.880 Shader-ALUs und einem 384 Bit breiten Speicherinterface der komplexeste, kommerziell gefertigte Chip der Welt. Wir beleuchten die drei Säulen auf denen Big Kepler ruht.

    [Update, 16.05.2010: 23:05Uhr]GTC 2012: Inside Kepler GK110GTC 2012: Inside Kepler GK110Quelle: PC Games Hardware
    Es gibt brandneue Details von der GTC 2012 aus der Session Inside Kepler mit den Nvidia-Entwicklern Lars Nyland und Stephen Jones zu berichten.

    Die beiden Technik-Experten präsentierten rund eine Stunde lang tiefergehende technische Details zu Nvidias "dicker Bertha" GK110. Neben den bislang beschriebenen und weiter unten zu findenden Fakten fallen darunter vor allem einige Spezialitäten im Bereich der Programmierbarkeit und der Funktionsabarbeitung. Die SM_3.5 (GK110-SMX) werden in der Präsentation mit 4 16er-Blöcken an zusätzlichen Double-Precision-Einheiten gezeigt - das könnte allerdings durchaus nur der Veranschaulichung dienen und in Wirklichkeit eine der drei mit Single-Precision ausgewiesenen Einheitenblöcke diese Berechnungen übernehmen. Jedenfalls können DPFP-Berechnungen nun auch gleichzeitig mit anderen Berechnungen auf den Weg gebracht werden, sofern diese keine Lesezugriffe auf das Registerfile benötigen - hier belegen die DPFP-Einheiten alle Ports.

    Eine weitere wichtige Neuerung ist die Ankündigung, dass Kepler nun pro Thread bis zu 255 (32-Bit-)Register zuweisen kann - bei Fermi waren es lediglich 63 - die Anzahl der physikalisch vorhandenen Register ändert sich jedoch nicht. Das kommt besonders den DPFP-Berechnungen zugute, welche zuvor durch Registerzusammenlegung in diesem Modus lediglich 32 der Zwischenspeicher pro Thread belegen durften. Einige (auf das Register-File bezogen) besonders bandbreitenlastige Kernel und Bibliotheken können laut Nvidia um mehr als Faktor 5 zulegen, da die Registerzugriffe nicht mehr in den langsameren lokalen SMX-Speicher ausgelagert werden müssen, welcher darüber hinaus auch für andere Dinge benötigt wird. Auch die DGEMM-Performance wird aus diesem Grunde deutlich zulegen und mit mehr als 80 Prozent der theoretischen Spitzenleistung gegenüber Fermi stark anziehen. Die Rede ist von mehr als einem TFLOPS praktisch erreichbarer Leistung - genaue Werte sind natürlich abhängig vom noch nicht finalen Takt.

    GTC 2012: Inside Kepler GK110GTC 2012: Inside Kepler GK110Quelle: PC Games HardwareIn dieselbe Kerbe schlägt der direkte Datenpfad von den Shader-ALUs in den Texturcache, welcher zuvor nur über den Umweg der Filter erreicht werden konnte. Nun sind dadurch bei geschickter Programmierung bis zu 48 kiB pro SMX zusätzlicher Cache verfügbar, welcher allerdings nur lesend verwendet werden kann. Die Leistungseinbußen beim Speicherschutz ECC konnte Nvidia nach eigenen Angaben durch Optimierung der Zugriffe auf die Paritätsbits um zwei Drittel reduzieren. Diese Funktionen sind ebenso wie der erweiterte Task Scheduler, welcher 32 Aufgaben von entweder der CPU oder der GPU selbst verwalten kann und im Gegensatz zu früheren GPUs einen komplett umgebauten Grid-Manager erfodert, GK110-exklusiv. Durch Hyper-Q wird beherrscht der GK110-Kepler nun wirklich gleichzeitige Mehrfachverarbeitung, während Fermi und GK104 im Scheduler noch mit Time-Division Multiprocessing vorlieb nehmen mussten.

    Zusätzlich zum GK110 sind auch auf dem Gamer-Kepler neue Instruktionen verfügbar. Warp Shuffling ermöglicht den schnellen, direkten Datenaustausch zwischen zwei Warps und entlastet so den lokalen Speicher. Die beschleunigten Atomic-Memory-Operationen, welche gegenüber Fermi zum Teil um Faktor 9 beschleunigt wurden, sind besonder bei Compute-Funktionen wichtig, in denen einzelne Threads spezifische Adressen in einem gemeinsamen Speicherbereich einlesen, ändern und zurückschreiben. Einige der beschleunigten Funktionen wie atomicMin, atomicMax, atomicAnd, atomicOr, atomicXor sind jedoch dem GK110 vorbehalten, andere wie atomicAdd, atomicCAS und atomicExchange beherrschen auch GK104 und Fermi.

     GF100 (Fermi)GF104 (Fermi)GK104 (Kepler)GK110 (Kepler)
    Compute Capability2.02.13.03.5
    Threads pro Warp32323232
    Max. Warps pro SM(X)48486464
    Max. Threads pro SM(X)1536153620482048
    Max. Threadblocks pro SM(X)08081616
    32-Bit Registers pro SM(X)32768327686553665536
    Max. Registers pro Thread6363255255
    Max. Registers pro Threadblock1024102410241024
    Shared Memory/L1-Cache16/48 kiB16/48 kiB16/48 kiB16/48 kiB
     48/16 KiB48/16 KiB32/32 kiB32/32 kiB
       48/16 KiB48/16 KiB
    Max. X-Grid Dimension 2^16-12^16-12^32-12^32-1
    Hyper-QNeinNeinNeinJa
    Dynamic ParallelismNeinNeinNeinJa
         

    Originalartikel vom 16.05.2012:
    Die Katze ist aus dem Sack: GK110, auch bekannt als Big Kepler, wird ein wahres Monster. Anhand des veröffentlichten Die-Plots lässt sich eine Chipgröße von mehr als 500 Quadratmillimetern ableiten auf die sich die rund 7,1 Milliarden Transistoren verteilen. Laut Huang ist er damit der komplexeste, kommerziell hergestellte Chip (IC) der Welt - noch vor einem 6,8 Mrd. Transistoren schweren FPGA von Xilinx. Weitere ofiziell bekannte technische Eckdaten sind die bis zu 15 SMX (à 192 Shader-ALUs, 2.880 ALUs insgesamt), ein 384 Bit breites Speicherinterface mit einem Speicherausbau von bis zu 6, falls entsprechend dichte Speicherchips bis Ende des Jahres verfügbar sind, sogar 12 GiByte GDDR5-RAM.

    Weiter lässt sich aus dem Chipfoto zumindest ableiten, dass der GK110 wie schon GF100/110 über sechs Speicherpartitionen verfügen wird, in die etwas untypische Anzahl von fünf GPCs aufgeteilt ist und es entsprechend zu den Raster-Endblöcken auch sechs Setup-Pipelines geben wird. Nvidia gab außerdem zu Protokoll, dass die Effizienz, also der erreichbare Prozentsatz der Spitzenleistung gegenüber Fermi deutlich verbessert worden sei. Fermi hatte gerade bei doppeltgenauen Matrixmultiplikationen gegenüber den schnellsten Radeon-Chips noch das Nachsehen, mit GK110 ist man nun zumindest auf Augenhöhe in Sachen Effizienz, der Durchsatz soll höher liegen.

    Erste Produkte mit dem GK110 werden Tesla-K20-Karten gegen Ende des Jahre im vierten Quartal sein; in Sachen Geforce und Quadro hielt Nvidia sich noch bedeckt, diese werden aber nicht vor 2013 kommen - eine endgültige Entscheidung, wann und ob überhaupt der GK110 in diesen Märkten eingesetzt wird, sei noch nicht getroffen. Nichtsdestotrotz ist es natürlich wahrscheinlich, dass sich Nvidia den Prestigegewinn nicht entgehen lassen wird, eine GK110-Geforce herauszubringen.

    SMX, Hyper-Q und Dynamic Parallelism: Die drei Säulen des GK110SMX, Hyper-Q und Dynamic Parallelism: Die drei Säulen des GK110GK110 mit drei Säulen: SMX, Hyper-Q und Data Parallelism
    Das SMX ist bereits aus dem GK104-Chip bekannt und ist im Grunde nichts weiter als eine Organisationsstufe der Ausführungseinheiten. Im Vergleich zu Fermi wurde das Verhältnis funktionaler Einheiten zu Kontrolllogik erhöht und gleichzeitig das strikte Hardware Dependency Checking aufgeweicht und die statischen Teile dieser Arbeit an den Compiler im Treiber übergeben. Gleichzeitig sank aber auch die in unseren Tests erreichbare Effizienz gegenüber GF100/110.

    Die zweite Säule, welche laut Nvidia in allen Kepler-Chips schlummert, sind die Virtualisierungsfunktionen, welche die Kalifornier bereits letzte Woche bei der Bekanntgabe der Quartalszahlen verrieten. Eng damit verbandelt ist die Hyper-Q genannte Möglichkeit der Kepler-Chips, Kommandoströme von mehreren CPUs entgegen zu nehmen. Wird der Chip durch eine einzelne CPU nur gering belastet, können Befehlsketten von bis zu 31 weiteren Prozessoren (32 insgesamt also) sogar über das Netzwerk verarbeitet werden und so die Auslastung der Funktionseinheiten, ergo Durchsatz und Energieffizenz gesteigert werden, was natürlich gerade im Hinblick auf die Virtualisierungsfunktionen für Rechenzentren interesant ist. Im Gespräch deutete Huang an, dass einzelne GPUs bis zu 256 virtuelle Maschinen unterstützen könnten, unklar blieb, ob er dabei wirklich GPUs oder Nvidias neue GVX-Karten meint - diese beherbergen bis zu vier Chips. Sie sollen ähnlich wie die 225-Watt-Tesla-Karte M2090.in Servern passiv gekühlt arbeiten können.

    GK110: Weitere Details zur größten GPU der Welt [Update: Inside Kepler]Nettes Detail: Während der Präsentation der Virtualisierungsfunktion rutschte Nvidia quasi eine bislang nicht angekündigte Quadro 5100 heraus - die 1.536 Shader-ALUs und ein 256-Bit-Interface deuten auf GK104 als Basis hin, weitere Details können Sie dem Treiber-Bild entnehmen. Ob die 768 MiByte angezeigter GDDR5-Speicher ein Auslesefehler oder das Resultat fester Speicherzuordnung durch die Virtualisierung sind, konnten wir noch nicht endgültig in Erfahrung bringen.

    Einfachere Programmierung dank Dynamic Parallelism.Einfachere Programmierung dank Dynamic Parallelism.Quelle: PC Games HardwareDas besonders für den HPC-Bereich interessanteste GK110-Merkmal wird Dynamic Parallelism genannt und später auch von Mark Harris, Chief Technologist GPU Computing bei Nvidia, im Ausblick auf Cuda 5 hervorgehoben (Cuda 5 ist für den Anfang der zweiten Jahreshälfte geplant). Bisher mussten GPUs mit einem permanenten Kommandstrom von der CPU mundgerecht gefüttert werden. GK110 kann sich quasi selbst beschäftigen, indem eigene Kernels und Threads auf der GPU erzeugt werden. Beim Durchlaufen von Baumstrukturen ist das zum Beispiel der Fall, welche auch in der n-Body-Demo aus dem Astrophysik-Bereich im eingebundenen Video zum Einsatz kommt. Hier ist nicht nur eine wesentliche Effizienzsteigerung möglich, da Warte- und Transferzeiten entfallen, sondern auch für die Programmierer sind solche Problemstellungen einfacher zu bewältigen, da sie sich nicht mehr um diese Details kümmern müssen und wesentlich einfacherer Programmcode ausreicht.

    Noch mehr Details erwarten wir für die im Laufe des Tages stattfindende "Inside Kepler"-Session auf der GTC, bei der wir selbstverständlich für Sie vor Ort sein werden.

    07:34
    Nvidia GK110-Demo: nBody - Das Ende unserer Galaxis simuliert
    Wissenswert: Mehr Informationen zum Thema finden Sie in:
    Grafikkarten-Rangliste 2016: 32 Radeon- und Geforce-GPUs im Benchmarkvergleich [Oktober]
  • Stellenmarkt

    Es gibt 50 Kommentare zum Artikel
    Von arcDaniel
    Man o man, verschiedene Einstellungen hier kann ich Nachvollziehen auch wenn ich anderer Meinung bin, mancher hier…
    Von r34ln00b
    so ist die commulity, je fetter was ist desto mächtiger ist man in der i-net welt @topic: mir eigentlich egal um die…
    Von cAson
    Hm, ich max BF3 mit ner 520 GT und brauche zum rendern nie mehr als 2 GB und ich render die Ränder der Milchalee - im…
    Von Medcha
    Du, daran ist gar nichts schlimm. Ich hab ja auch zuviel Ram drin. Es geht mir darum, dass die Leute immer so tun, als…
    Von majinvegeta20
    Wie gesagt du schließt von dir auf andere. Jeder User ist anders. Ich kenne ne menge die den Speicher auch voll…
      • Von arcDaniel F@H-Team-Member (m/w)
        Man o man, verschiedene Einstellungen hier kann ich Nachvollziehen auch wenn ich anderer Meinung bin, mancher hier geschrieben führt aber leider zu extremen Kopfschütteln, darum kann ich ja auch mal meine Meinung präsentieren (vielleicht schüttelt ja auch hier ein anderer den Kopf )

        Der GK110 soll im Vollausbau 15 SMX mit je 192 Cuda-Cores haben, die sündhaft teuren "perfekten" Tesla Karten werden aber nur 13-14 SMX Einheiten Aktiviert haben (Quelle Berichte von der GTC) somit "nur" 2496-2688 Cuda Cores haben. Alleine durch diesen Fakt gehe ich eher davon aus dass die Geforce Version zwecks Resteverwertung mit nur 12 SMX Einheiten daher kommt, also 2304 Cuda-Cores. Das sind knapp 33% Mehr Rechenkerne zum GK104, durch die Grösse des Chips wird der Stromverbrauch und Hitzeentwicklung aber deutlich höher sein, resp. der Takt wird um ein gutes Stück gesenkt.

        Zum Ram, machen wir und hier nix vor, Ja die GTX680 bricht je nach Ereigniss stark ein, allerdings bricht sie zu einem Zeitpunkt ein, wo z.b. die AMD 7970 so eine Geringe Frame-Rate aufzeigt, dass ist so nicht spielen würde, alles unter 30fps ist absoluter no-go, dann verzichte ich lieber auf so hohe Auflösungen oder DS, SSAA.... bei den Benchmar wo beide Karte dann wieder Spielbare FPS liefern, hat die GTX680 it ihren NUR 2gb VRam, dann aber wieder meist die Nase vorne. Gehe hier davon aus dass die GTX780 mit 3GB kommen wird (wegen dem Speicher Interface) und Custom Designs mit 6GB (was in meinem Augen reines Marketing ist).
        Bei den Telsa Karten sieht es anders aus, hier wird mehr Ram benötigt und wenn die Speicherchips es zulassen werden die mit sicherheit mit 12GB ausgeliefert.

        Schlussendlich gehe ich davon aus dass eine GTX780 etwa 20% mehr Leistung haben wird bei einer geschätzten TDP von 225W und so gegen März 2013 verfügbar sein wird.

        Erst Maxwell (GM100 ?) wird dann wieder grössere und interessantere Neuerungen bringen.
      • Von r34ln00b Software-Overclocker(in)
        so ist die commulity, je fetter was ist desto mächtiger ist man in der i-net welt

        @topic: mir eigentlich egal um die gk110, klingt wieder nach so super brachial power karte.. ob´s so fett wird, mal schauen.
      • Von cAson PC-Selbstbauer(in)
        Hm, ich max BF3 mit ner 520 GT und brauche zum rendern nie mehr als 2 GB und ich render die Ränder der Milchalee - im Ernst lass sie doch Müll von sich geben, ist doch unterhaltsam
        L
      • Von Medcha Freizeitschrauber(in)
        Du, daran ist gar nichts schlimm. Ich hab ja auch zuviel Ram drin. Es geht mir darum, dass die Leute immer so tun, als ob sie es bräuchten. Lächerlich! Kaum einer BRAUCHT das. Und mit der GTX 680 hast du recht. Wer mir erzählen will, dass er ja nicht weiter daddeln könne, weil er noch keine 680 hat, der macht sich einfach lächerlich und blamiert sich bis auf die Knochen. Menschlich einfach nicht ernst zu nehmen. Und sowas lese ich hier permanent. Wenn man Unsinn macht sollte man auch dazu stehen. DAS ist mein Punkt. und ich glaube nicht, dass mehr als 2% der PC Nutzer die 16 GB voll kriegen. Deine 100 Spezis vielleicht, aber nicht der Mediamarkt-Pöbel. Soviel zum Thema "Du schliesst von dir auf andere".
      • Von majinvegeta20 Lötkolbengott/-göttin
        Zitat von Medcha
        Ich bitte dich. Diese 100 Leute, die tatsächlich mit Photoshop 16GB brauchen zählen einfach nicht für eine allgemein gültige Aussage. Es ist die Ausnahme und kaum einer der restlichen 99% kommt auch nur auf 8GB Nutzung. Ein PROFI benötigt in Ausnahmefällen vielleicht so viel, aber nicht wir Hobbypiloten. Ich hab 8GB in meinem System und ich habe nicht den Eindruck, dass ich mehr als 4 genutzt habe. Und bei den popeligen Fotoänderungen, die ich und die meisten machen, zählt halt hauptsächlich der Prozessor und nicht 16 GB Ram. Ram ist halt billig dieser Tage und so hat jeder zu viel drin.
        Ist ja nicht schlimm. Bloß dieses ewige so tun, als ob man alles immer genau überlegt hat und man immer genau versteht wie alles funktioniert und man ist ja so "on top of things" geht mir heutzutage tierisch gegen den Strich. Nee, eben nicht. Man liest, man glaubt, man glaubt nicht, man kauft und überzeugt sich selbt von einem guten, sinvollen Kauf, damit das Geld sinnvoll ausgegeben scheint. Das ist der Eindruck, der mir bei allen technischen Dingen auffällt. Bei Autos und Fernsehern ist das auch so. Eigentlich eine Männerdomäne, gibts mittlerweile immer mehr Frauen, die bei technischen Zusammenhängen dauerhaft glauben, sie müssten anderen Leuten was erzählen, obwohl sie selbst null Ahnung haben.
        Und der arme Speicher spielt in diesem Spiel halt auch mit.

        Zu GTA4:. wie viel hat es denn bei dir benötigt, 8 GB? Ich kann auch das nicht sehen/erkennen.

        Wie gesagt du schließt von dir auf andere. Jeder User ist anders.
        Ich kenne ne menge die den Speicher auch voll kriegen und das sind mehr als 100.
        Natürlich gibt es auch viele darunter, die einfach nur vorgesorgt haben. Was ist so schlimm daran.

        Wenn´s danach ginge, dann müsstest du auch jeden anprangern der sich ne GTX 680 oder so besorgt. Braucht man jetzt schließlich auch nicht.
  • Print / Abo
    Apps
    PC Games Hardware 01/2017 PC Games 12/2016 PC Games MMore 01/2016 play³ 01/2017 Games Aktuell 12/2016 buffed 12/2016 XBG Games 11/2016
    PCGH Magazin 01/2017 PC Games 12/2016 PC Games MMORE Computec Kiosk On the Run! Birdies Run
article
884253
Grafikkarten
GPU Technology Conference GTC 2012
Das Nvidia-Flaggschiff GK110 ist mit 7,1 Milliarden Transistoren, bis zu 2.880 Shader-ALUs und einem 384 Bit breiten Speicherinterface der komplexeste, kommerziell gefertigte Chip der Welt. Wir beleuchten die drei Säulen auf denen Big Kepler ruht.
http://www.pcgameshardware.de/Grafikkarten-Grafikkarte-97980/News/GK110-Weitere-Details-aus-der-GTC-Session-Inside-Kepler-884253/
17.05.2012
http://www.pcgameshardware.de/screenshots/medium/2012/05/Tesla_GK110_K20_3Qtr_NCovr.jpg
kepler,grafikchip,nvidia
news