Nvidia Titan V: Angeblich mit Rechenfehler in wissenschaftlichen Anwendungen

39
News Mark Mantel Als bevorzugte Quelle auf Google hinzufügen
Nvidia Titan V: Angeblich Rechenfehler in wissenschaftlichen Anwendungen
Quelle: Nvidia

Nvidias Titan V soll in manchen wissenschaftlichen Anwendungen für ein kurioses Bild sorgen. Manche Exemplare würden falsche Ergebnisse liefern, während andere immer korrekte ausspuckten. In Simulationen, wo die Nutzer auf einwandfreie Berechnungen angewiesen sind, könnte das problematisch sein. Vermutungen zufolge könnte der HBM2-Speicher schuld sein.

Offiziell vermarktet Nvidia die Titan V als Grafikkarte für professionelle Anwender, die nur die rohe Leistung der GV100-GPU, nicht aber die zertifizierten Profi-Treiber der Tesla V100 benötigen. Genau aus diesem Kreis möchte die britische Webseite theregister.co.uk Stimmen vernommen haben, laut denen die Titan-V-Grafikkarten inkonsistente Ergebnisse lieferten. Im konkreten Fall gehe es um simulierte Interaktionen zwischen Proteinen und Enzymen. Zwei Titan-V-Modelle sollen stets die korrekten Ergebnisse liefern, zwei andere in rund zehn Prozent der Fälle abweichende.

Ein wissenschaftlicher Nutzer habe den High-Bandwidth Memory 2.0 in Verdacht. Samsung spezifiziert seine 4-GiByte-Module, von denen vier auf einer Titan V eingesetzt werden, bei 1,2 Volt mit 800 MHz und erst bei 1,35 Volt mit 1.000 MHz. Nvidia betreibt die HBM2-Module jedoch mit 850 MHz. Denkbar also, dass Qualitätsunterschiede der Chips bei manchen Modellen für Fehler sorgten und bei anderen wiederum nicht. Wohlgemerkt beherrscht die Titan V keine ECC-Fehlerkorrektur, die der Tesla V100 vorbehalten ist. Andere Möglichkeiten stellen etwaige Fehler in der Software, der GPU-Firmware oder gar in der Hardware dar - letztere Variante erscheint jedoch vergleichsweise unwahrscheinlich. Mit Maxwell-basierten Titan-X-Grafikkarten sollen die Fehler indes nicht aufgetreten sein.

Nvidia habe sich gegenüber theregister.co.uk nicht zu dem Thema äußern wollen. Mit der gerade laufenden GDC, der nahenden GTC und dem Thema Geforce Partner Program dürfte Nvidias Marketing-Abteilung bereits alle Hände voll zu tun haben. Auf Reddit gibt es eine einzige unabhängige Meldung über angeblich auftretende Rechenfehler im Falle der Titan V. Der Nutzer führe Physik- und Proteinsimulationen durch und habe ebenfalls vereinzelte Fehler beobachten können. Für Spieler ist ein möglicher Fehler weitestgehend irrelevant, da sich ein solcher maximal in kaum sichtbaren Grafik-Bugs äußern würde.

39
    • Kommentare (39)

      Zur Diskussion im Forum
      • Von EyRaptor BIOS-Overclocker(in)
        Ich hab die Bilder der Grafikfehler in der aktuellen PCGH gesehen. Wenn das keine Rechenfehler sind, dann weiß ich auch nicht weiter.
      • Von EyRaptor BIOS-Overclocker(in)
        Ich hab die Bilder der Grafikfehler in der aktuellen PCGH gesehen. Wenn das keine Rechenfehler sind, dann weiß ich auch nicht weiter.
      • Von wolflux Lötkolbengott/-göttin
        Das ist nartürlich ein gefundenes Fressen für die Medien.
        Allerdings muß ich dazu sagen, es hat etwas von schnell Zusammengewürfelten.
        Das zeigt eigentlich nur, daß hier nicht ausreichend entwickelt,geprüft, bzw. eine auslieferungstechnisch einwandfreie Karte auf den Markt geworfen wurde.
        Nicht sehr Seriös und wirkt nur Geldgeil.
        Sorry, so sehe ich das.
        Nvidia bekäm von mir die Karte pronto zurückgeschickt und wenn es nur zum Prüfen wäre aber mal ehrlich, wollte ich nicht besitzen wenn ich 3000.00 $/€ hätte zahlen müssen, kann man später nicht gut verkaufen
      • Von empy Lötkolbengott/-göttin
        Zitat von Abductee
        Fehler treten immer auf, sogar recht häufig.Durch das ECC hat man dann halt eine Erkennung als Fehler und anschließende Neuberechnung.
        ECC erkennt aber nicht alle Fehler. ECC korrigiert 1-Bit-Fehler und erkennt 2-Bit-Fehler. Die Wahrscheinlichkeit für einen 3-Bit-Fehler ist halt unter normalen Umständen sehr gering. Halt so im Bereich P(1-Bit-Fehler)^3, aber halt nicht Null. Und wenn normalerweise pro transferiertem TB ein Fehler auftritt, dann tritt mit ECC halt nur ein nicht erkannter Fehler alle 10^36 Bytes auf. Ist in der Regel halt selten genug.
      • Von Abductee Kokü-Junkie (m/w)
        Fehler treten immer auf, sogar recht häufig.
        Durch das ECC hat man dann halt eine Erkennung als Fehler und anschließende Neuberechnung.
      • Von empy Lötkolbengott/-göttin
        Um mal einen anderen Prof von mir zu zitieren: "Man kann Fehler beliebig selten machen, aber nicht ausschließen."

        Soll heißen, dass kein Rechner wirklich fehlerfrei arbeitet und selbst mit ECC werden irgendwann Speicherfehler auftreten. Halt nur noch mal ein paar Größenordnungen seltener. Aber was sich diese Volta-Exemplare da leisten, ist wohl definitiv inakzeptabel.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 07/2026 play5 07/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk