Tesla V100: Nvidia verschickt erstes DGX-1 mit acht NV-Link-Beschleunigerkarten
Nvidia nutzt seine HPC-GPU GV100 weiter, um sein Marketing anzukurbeln. Das im US-amerikanischen Boston ansässige Center for Clinical Data Science (CCDS) hat das erste DGX-1-System mit acht Tesla-V100-Beschleunigerkarten als SXM2-Modul mit NV-Link-2.0-Anbindung erhalten. Darauf werden neuronale Netzwerke trainiert, die Anomalien auf Untersuchungsbildern erkennen können sollen.
Bereits im Juli hat Nvidia die ersten Tesla-V100-Exemplare verschickt und warb dabei mit Schenkungen an AI-Wissenschaftler. Damals handelte es sich noch um PCI-Express-x16-Modelle, die in einen klassischen PEG-Steckplatz eingesetzt werden. Inzwischen hat Nvidia das erste DGX-1-System der zweiten Generation mit Tesla-V100- statt -P100-Beschleunigerkarten verschickt, bei dem SXM2-Module mit NV-Link-2.0-Anbindung zum Einsatz kommen. Das Übertragungsprotokoll nutzen die GPUs zur Kommunikation untereinander. Mit den beiden Broadwell-EP-Prozessoren des Typs Xeon E5-2698 v4 (je 20 Kerne) kommunizieren die Beschleunigerkarten über PCI-Express 3.0. Der Empfänger ist das im US-amerikanischen Boston ansässige Forschungsteam des Center for Clinical Data Science (CCDS).
Nachdem die Forscher bereits ein Pascal-DGX-1 eingesetzt haben, um erste Erfahrungen mit dem Trainieren von neuronalen Netzwerken zu sammeln, soll das Volta-DGX-1 die Rechenleistung und damit die Effizienz vervielfachen. Das System wird unter anderem mit Kernspin-, Computertomographie- und Röntgenaufnahmen gefüttert, um Anomalien pixelgenau erkennen zu können. Wer bereits entsprechende Untersuchungen hatte, weiß vielleicht, dass es schon schwierig ist, die Diagnosen zu erkennen, die von ausgebildeten Ärzten anhand der Bilder gestellt werden. Die künstliche Intelligenz soll noch deutlich genauer arbeiten und Krankheiten besser ausfindig machen.
Das DXG-1-System auf Basis der Tesla-V100-Beschleunigerkarten kostet im Normalfall inklusive Software-Stack 149.000 US-Dollar und wird direkt von Nvidia vertrieben. Die eingesetzten GV100-GPUs haben mit einer Chipfläche von 815 mm² Rekordgröße. Da es sich um eine reine HPC-Entwicklung handelt, werden Spieler die GPU als Geforce nie zu Gesicht bekommen.

Wird das System passiv gekühlt oder sind da noch irgendwelche Lüfter am Gehäuse oder so?
Und was für eine Rechenleistung oder für jene Anwendungen würde das System hypotetisch oder real erreichen?
Sieht dann schonmal so aus:
http://www.storagereview....
Rechenleistung?
Kommt vollkommen auf die anwendung an.
die Tensoren sind auf genau eine Berechnung ausgelegt - matrix-FMA. Wenn die Anwendung das brauchen kann dann bringt das 120 TFlops. Wenn nicht - 0 TFlops. Dann bleiben "nur" 5120 Cuda cores mit 15 TFlops.
Wird das System passiv gekühlt oder sind da noch irgendwelche Lüfter am Gehäuse oder so?
Und was für eine Rechenleistung oder für jene Anwendungen würde das System hypotetisch oder real erreichen?
Die FP32-Effizienz von Volta (50% effizienter bei FP32-Berechnungen), wird viel spannender
In Spielen kann man sich den Ablauf so vorstellen: man Hat die Objekte (Landschafft, Spieler, Gegner) mit ihren Positionen und eine Kamera von der aus man alles sieht. Um jetzt herauszufinden wo sich etwas am Bildschirm befindet muss jeder einzelne Vertex (Punkte aus denen die Objekte bestehen) mit einer Kameramatrix multipliziert werden.
Das ist genau die Rechenart die diese Knoten beherrschen.
Es würde aber dazu führen das man speziell auf diese Knoten hin programmieren müsste was Entwicklungsresourcen verbraucht die für allgemeinere Verbesserungen dann fehlen.
Die FP32-Effizienz von Volta (50% effizienter bei FP32-Berechnungen), wird viel spannender