AMD K10 und der TLB-Fehler: Auch bekannt als "The Layoff Bug"

19
News Andreas Link Als bevorzugte Quelle auf Google hinzufügen
AMD K10 und der TLB-Fehler: Auch bekannt als "The Layoff Bug"
Quelle: PC Games Hardware

Der TLB-Fehler in der K10-Architektur, der die Barcelona-Prozessoren mit voller Wucht trifft, wurde wohl auch "The Layoff Bug" bezeichnet, weil er AMD in eine wirklich bedrohliche Lage gebracht habe.

Im Jahr 2007 veröffentlicht AMD den K10; eine Architektur, auf der eine ganze Reihe Prozessoren bis 2012 entstehen sollen, bis sie vom "legendären" Bulldozer abgelöst wird. Es sind schwierige Zeiten für AMD. Das Unternehmen schlittert im Zuge der Geschehnisse 2008 und aufgrund von Fehlentscheidungen in finanzielle Nöte, die unter anderem durch die Semi-Sparte nicht schlimmer ausgegangen sind.

Dass man diese Nöte überhaupt erst hatte, liegt nicht nur an Family 15h (Bulldozer), sondern begann schon mit Family 10h (K10), wo man sich den heute legendären TLB-Fehler erlaubte. Die volle Breitseite dieses Fehlers bekamen die Barcelona-Modelle, die erstmals im November 2006 demonstriert wurden. AMD versprach unter anderem dank 64-Bit-Erweiterung bis zu 70 Prozent Mehrleistung bei der Skalierung der Prozessoren, die für das Serversegment vorgesehen waren und gegen Clovertown von Intel gestellt wurden. Anfang 2007 justierte man auf 40 Prozent Mehrleistung im Vergleich zu Clovertown nach; unter anderen Messbedingungen. In zeitgenössischen Gerüchten sind es auch mal 50 Prozent.

AMD K10 Architektur Quelle: AMD AMD K10 Architektur Quelle: AMD

Das Drama nimmt seinen Lauf

Das Drama nimmt seinen Lauf, als AMD im November 2007, rund ein Jahr nach der ersten Vorstellung der neuen Prozessoren, die Auslieferung stoppte. Dabei betonte man zunächst, dass man an dem Vorhaben festhalten will, mehrere Hunderttausende Barcelona-Prozessoren im vierten Quartal auszuliefern.

Der Grund ist der TLB-Bug (Erratum 298) im B2-Stepping der Barcelona-Quadcore-Prozessoren. TLB, das steht für Translation Lookaside Buffer, der dazu diente, die Speicherlatenz drastisch zu reduzieren und dadurch leistungsrelevant gewesen ist. In seltenen Fällen, die letztlich dann gar nicht so selten waren, konnte es aber zu Datenkorruption aufgrund einer Wettlaufsituation kommen, die zu wilden Systemabstürzen führen.

Als Notfalllösung wurden BIOS-Patches bereitgestellt, die den Translation Lookaside Buffer deaktivieren, doch das ging mit einem Performance-Malus zwischen rund 5 und 20 Prozent einher - je nach Aufgabe. Für Linux gab es - auch getrieben durch den Server-Einsatz der Opterons - Kernel-Patches, die weniger drastisch in die Leistung eingriffen, aber die Katze war aus dem Sack und auch das B3-Stepping mit einem Fix und kleineren Architekturverbesserungen musste sich mühsam vom ruinierten Ruf erholen. Die ersten B3-Prozessoren werden letztlich auch erst im Frühjahr 2008 ausgeliefert; AMD bevorzugt die Opterons vor den Phenoms.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.
Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

K10 TLB - The Layoff Bug

AMD-Mann Phil Park erzählt auf X, dass der Fehler intern auch The Layoff Bug genannt wurde, weil er AMD in eine wirklich bedrohliche Lage gebracht habe. Das Problem laut Park: Es ist nicht AMDs einziges. Im Hintergrund gab es wohl auch sehr teure Entwicklungen an einer neuen Kernarchitektur, die eingestellt wurden. Beide Probleme wurden als "uns (AMD) um Jahre zurückwerfend" bezeichnet. Der 2008 zudem von außen steigende wirtschaftliche Druck bringt AMD an seine Grenzen. Man trennt sich dann 2009 bis 2012 auch von der eigenen Fertigung, die heute als Globalfoundries bekannt ist. Immerhin: Die Fehlschläge sind lehrreich und somit in gewisser Hinsicht auch wertvoll, denn die Erkenntnisse fließen in die Zen-Architektur Jahre später ein.

Zuletzt kamen immer wieder interessante Details zur Geschichte von AMD zutage. Etwa, dass Nvidia an einer Zusammenarbeit interessiert gewesen ist. Die Voraussetzung, dass Jensen Huang CEO des gemeinsamen Unternehmens wird, wollte sich aber nicht ergeben. Die Geschichte von Hemant Mohapatra, einem ehemaligen AMD-Mitarbeiter, wird von Phil Park bestätigt.

Mitmachen und kommentieren!

Haben Sie den TLB-Fehler in Erinnerung? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Zum Kommentieren müssten Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie noch keinen Account haben, könnten Sie über eine Registrierung nachdenken, die viele Vorteile mit sich bringt. Beachten Sie beim Kommentieren aber bitte die gültigen Forenregeln.

19
    • Kommentare (19)

      Zur Diskussion im Forum
      • Von PCGH_Torsten Kokü-Junkie (m/w)
        Der FDIV-Bug konnte prinzipiell bei allen Berechnungen durchschlagen. Aber da er nur bei rund einem von 10 Millionen Datenpaaren vorkam und dann auch erst in der fünften oder sechsten zählenden Stelle, gab es abseits komplexer Tabellenkalkulation damals nicht vieles, wo ein Auftreten wahrscheinlich und problematisch war. Programme arbeiteten intern eher nicht mit so großen Zahlen und viele Anwendungszwecke waren ohnehin tolerant gegenüber Fehler dieser Größenordnung, die verschwanden einfach in einer ohnehin angewendeten Rundung. Nur Buchhalter hatten und haben ein Problem damit, wenn bei Millionensummen auf einmal ein paar Hunderter fehlen oder dazu kommen.^^

        Aber wie gesagt: Wer denkt, diese eine Hardware-Panne der einzige Fehler in Tabellenkalkulationen war und/oder besonders katastrophale Auswirkungen hat(te), der irrt. Mein Klassiker wäre die 17. Nachkommastelle von "10 - 9,95".
      • Von PCGH_Torsten Kokü-Junkie (m/w)
        Der FDIV-Bug konnte prinzipiell bei allen Berechnungen durchschlagen. Aber da er nur bei rund einem von 10 Millionen Datenpaaren vorkam und dann auch erst in der fünften oder sechsten zählenden Stelle, gab es abseits komplexer Tabellenkalkulation damals nicht vieles, wo ein Auftreten wahrscheinlich und problematisch war. Programme arbeiteten intern eher nicht mit so großen Zahlen und viele Anwendungszwecke waren ohnehin tolerant gegenüber Fehler dieser Größenordnung, die verschwanden einfach in einer ohnehin angewendeten Rundung. Nur Buchhalter hatten und haben ein Problem damit, wenn bei Millionensummen auf einmal ein paar Hunderter fehlen oder dazu kommen.^^

        Aber wie gesagt: Wer denkt, diese eine Hardware-Panne der einzige Fehler in Tabellenkalkulationen war und/oder besonders katastrophale Auswirkungen hat(te), der irrt. Mein Klassiker wäre die 17. Nachkommastelle von "10 - 9,95".
      • Von Lexx Lötkolbengott/-göttin
        Zitat von PCGH_Torsten
        Es gab Software-Bugs, wo sich Excel verrechnet.^^
        Meinte den Pentium I-Bug.
        Schlug der nicht auch in Excel durch?
        (Werd ich googlern.)
      • Von PCGH_Torsten Kokü-Junkie (m/w)
        Zitat von Nuallan
        Lustig wie so ein Bug AMD damals fast gekillt hätte, und heute ständig Sicherheitlücken auftauchen wie Spectre/Meltdown oder zuletzt Downfall/Inception (ich glaub mittlerweile sind es so viele, dass nicht mal mehr Namen vergeben werden), deren Fixes auch gerne mal zweistellige Prozent Leistung kosten können, aber wo die Leute es nach einem Tag schon wieder vergessen/verdrängt haben.
        Es war ein Bug in einer CPU, die rund ein Jahr später als erwartet kam und dann nicht annähernd ihre Performance-Ziele erreicht hat und das in einer Phase, was genauso für die parallel erscheinenden Grafikkarten galt, während die GPU-Konkurrenz eines ihrer besten und bis heute legendären Designs lancierte und der CPU-Gegenspieler nicht nur einen absoluten Run bei Fertigung und Architekturen hatte, sondern sich erstmals auf einen Preiskampf mit AMD zulasten der eigenen Marge einließ. Nebenbei hatte man sich gerade extrem verschuldet und dem engsten, wichtigsten und alternativlosesten Plattformpartner einen Arschritt verpasst. Es hatte also doch schon ein paar mehr Gründe, warum es AMD damals derart dreckig ging. Überspitzt gesagt: Schrott CPUs, Schrott GPUs, keine Mainboards und jede Menge Gläubiger. Da bleibt nicht viel vom Geschäft.^^

        Der TLB-Bug wäre nur beinahe der finale Sargnagel gewesen – und das nur teilweise wegen seiner tatsächlichen Bedeutung. Viel schlimmer war das Totalversagen von AMDs PR-Team:

        Als erstes wurde für die Opterons, in denen Einsatzgebiet der Fehler teils wirklich kritisch war, ein Not-Update herausgegeben, dass den TLB ganz deaktiviert. Leistungsmessungen: Teilweise über 30 Prozent Leistungsverlust.

        Als zweites wurde der Verkauf weiterer Opterons komplett gestoppt. Trotz spürbar gestiegener Marktanteile war das für AMD damals noch eine vertretbare Entscheidung, die Serversparte hatte keinen so großen Anteil am Gesamtumsatz.

        Als drittes wurde bestätigt, dass die auf dem gleichen Chip basierenden Desktop-CPUs auch betroffen sind.

        Als viertes wurde gar nichts gemacht. Wenn ich mich richtig erinnere, volle sechs Monate lang. AMD hat keine extra Patches für Desktops bereitgestellt, AMD hat Entwickler nicht darin unterstützt, das Problem zu umgehen und vor allem hat AMD nicht einmal öffentlich erklärt, was das Problem eigentlich ist und wann es auftritt.

        Alles, was Endkunden wussten: "K10 hat einen so schweren Fehler, dass dafür eine komplette Produktsparte einen Verkaufstop erhalten hat" und "Der einzige Workaround kostet soviel Leistung, dass die verbliebene Leistung einen in Intel-Netburst-Tage zurückwirft". Dieses Risiko wollte natürlich kein Käufer eingehen, schlicht wegen mangelnden Informationen konnte AMD eine halbe Jahresproduktion auch an die Leute nicht verkaufen, die mit der Hardware an sich eigentlich wunderbar klarkommen wären.


        Ehe die fehlerbereinigten Phenom 1 im Handel waren, hatte Intel dann schon die zweite Core-2-Generation draußen. Und Phenom 1 hatte die Benchmarks bereits gegen deren erste verloren – als PCGH 1-2 Monate nach dem Launch ein "Quadcore Special" gemacht hat, stand genau ein Satz zu AMDs neuestem Topmodell drin: Es wäre "fast gleichwertig" zu Intels Q6600. Der war bekanntermaßen die Budget-Alternative zum QX6700, damals schon ein gutes Jahr alt und 30 Euro günstiger. Selbst ohne TLB-Bug wäre Phenom 1 schwer zu verkaufen gewesen – mit gar nicht mehr.

        Anm.: Wer das größere Bild haben will, kann mal einen Blick in die aktuelle 08/2024 werfen (-Fassung noch in Arbeit). Dieser Zeitraum ist gerade Thema im aktuellen Retro-Artikel. Leider ein sehr trauriger Text für AMD-Fans, die AM2(+)-Ära begann halt auf einem aktuellen Höhepunkt und dann folgten beinahe ausschließlich gescheiterte Versuche. Verglichen mit QuadFX war Phenom I ja fast schon ein Erfolg.

        Zitat von Lexx
        Denke, da muss man mehr differenzieren.

        Gab (CPU-)Bugs, wo sich (nachweislich) Excel-Tabellen verrechnet haben.
        DAS kann vom Brückeneinsturz bis zum Bankrott führen.
        Es gab Software-Bugs, wo sich Excel verrechnet.^^
      • Von Pu244 Kokü-Junkie (m/w)
        Zitat von wurstkuchen
        [Ins Forum, um diesen Inhalt zu sehen] Nein. Es war simples Glück wie im Lotto zu gewinnen. Das sagt sogar Huang selber. Niemand bei Nvidia hat es vorhergesehn und niemand hat darauf hingearbeitet oder irgendwelche Entscheidungen getroffen, dass dieser Weg eingeschlagen wurde. Es wurde quasi durch zufall entdeckt, da gabs die Cuda Kerne samt RT schon. Nichts davon hat auch nur irgendwas von Wissen oder Können zu tun von Herrn Huang.
        Was du nicht verstehst: um im Lotto gewinnen zu können, muß man mitspielen.

        Im bei der Analogie zu bleiben Jen-Hsun Huang hat also frühzeitig diese neue Losbude entdeckt und damit begonnen, alle Lose aufzukaufen. Im Gegensatz zum echten Lotto kann man da so richtig viel gewinnen.

        Zitat von wurstkuchen
        [Ins Forum, um diesen Inhalt zu sehen]Niemand bei Nvidia hat es vorhergesehn und niemand hat darauf hingearbeitet oder irgendwelche Entscheidungen getroffen, dass dieser Weg eingeschlagen wurde.
        Doch, Nvidia hat das KI Feld frühzeitig beackert, als die Konkurrenz nicht daran gedacht hat.

        Zitat von wurstkuchen
        Es wurde quasi durch zufall entdeckt, (...)
        Nein, Nvidia wußte sehr genau, was sie da getan haben. Dass das so groß wurde, das konnten sie nicht ahnen.

        Zitat von wurstkuchen
        (...) da gabs die Cuda Kerne samt RT schon.
        Zunächst wurden die Tensorkerne bei Volta eingeführt. Damals wußten eher wenige, was man damit anfangen kann. Sie wurden unter anderem für KI eingeführt. RT kam erst mit Turing. Wenn man gut 6 Jahre, die es vom Konzept, bis zur fertigen GPU braucht, zugrunde legt, dann hat Nvidia 2011 angefangen, sich intensiv mit dem Thema KI zu beschäftigen.

        Zitat von wurstkuchen
        Nichts davon hat auch nur irgendwas von Wissen oder Können zu tun von Herrn Huang.
        Doch, wenn er es nicht in diese Richtung getrieben hätte, dann wäre Nvidia nicht im Ansatz das, was es heute ist.

        Es gab auch die Produkte von AMD, Intel, Apple, ARM, Mediatek, Qualcom usw.. Sie alle lassen sich irgendwie für KI nutzen, bzw, man hätte sie darauf optimieren können. Der Punkt ist: im Gegensatz von Nvidia hat das keiner so richtig gemacht. Sie alle haben das Thema KI mehr oder weniger verschlafen und sind erst so richtig aufgewacht, als die KI schon Bilder zeichnen und andere Späße konnte. Das ist der Unterschied und deshalb ist es einfach Blödsinn, zu behaupten Jen-Hsun Huang hätte Däumchen gedreht. Er wußte nicht, dass Nvidia damit zum wertvollsten Unternehmen der Welt werden wird, aber er ahnte, dass das ganze groß werden könnte und hat sein Unternehmen dahin gesteuert.
      • Von wurstkuchen BIOS-Overclocker(in)
        [Ins Forum, um diesen Inhalt zu sehen] Nein. Es war simples Glück wie im Lotto zu gewinnen. Das sagt sogar Huang selber. Niemand bei Nvidia hat es vorhergesehn und niemand hat darauf hingearbeitet oder irgendwelche Entscheidungen getroffen, dass dieser Weg eingeschlagen wurde. Es wurde quasi durch zufall entdeckt, da gabs die Cuda Kerne samt RT schon. Nichts davon hat auch nur irgendwas von Wissen oder Können zu tun von Herrn Huang.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 07/2026 play5 07/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk