AMD K10 und der TLB-Fehler: Auch bekannt als "The Layoff Bug"
Der TLB-Fehler in der K10-Architektur, der die Barcelona-Prozessoren mit voller Wucht trifft, wurde wohl auch "The Layoff Bug" bezeichnet, weil er AMD in eine wirklich bedrohliche Lage gebracht habe.
Im Jahr 2007 veröffentlicht AMD den K10; eine Architektur, auf der eine ganze Reihe Prozessoren bis 2012 entstehen sollen, bis sie vom "legendären" Bulldozer abgelöst wird. Es sind schwierige Zeiten für AMD. Das Unternehmen schlittert im Zuge der Geschehnisse 2008 und aufgrund von Fehlentscheidungen in finanzielle Nöte, die unter anderem durch die Semi-Sparte nicht schlimmer ausgegangen sind.
Dass man diese Nöte überhaupt erst hatte, liegt nicht nur an Family 15h (Bulldozer), sondern begann schon mit Family 10h (K10), wo man sich den heute legendären TLB-Fehler erlaubte. Die volle Breitseite dieses Fehlers bekamen die Barcelona-Modelle, die erstmals im November 2006 demonstriert wurden. AMD versprach unter anderem dank 64-Bit-Erweiterung bis zu 70 Prozent Mehrleistung bei der Skalierung der Prozessoren, die für das Serversegment vorgesehen waren und gegen Clovertown von Intel gestellt wurden. Anfang 2007 justierte man auf 40 Prozent Mehrleistung im Vergleich zu Clovertown nach; unter anderen Messbedingungen. In zeitgenössischen Gerüchten sind es auch mal 50 Prozent.
Das Drama nimmt seinen Lauf
Das Drama nimmt seinen Lauf, als AMD im November 2007, rund ein Jahr nach der ersten Vorstellung der neuen Prozessoren, die Auslieferung stoppte. Dabei betonte man zunächst, dass man an dem Vorhaben festhalten will, mehrere Hunderttausende Barcelona-Prozessoren im vierten Quartal auszuliefern.
Der Grund ist der TLB-Bug (Erratum 298) im B2-Stepping der Barcelona-Quadcore-Prozessoren. TLB, das steht für Translation Lookaside Buffer, der dazu diente, die Speicherlatenz drastisch zu reduzieren und dadurch leistungsrelevant gewesen ist. In seltenen Fällen, die letztlich dann gar nicht so selten waren, konnte es aber zu Datenkorruption aufgrund einer Wettlaufsituation kommen, die zu wilden Systemabstürzen führen.
Als Notfalllösung wurden BIOS-Patches bereitgestellt, die den Translation Lookaside Buffer deaktivieren, doch das ging mit einem Performance-Malus zwischen rund 5 und 20 Prozent einher - je nach Aufgabe. Für Linux gab es - auch getrieben durch den Server-Einsatz der Opterons - Kernel-Patches, die weniger drastisch in die Leistung eingriffen, aber die Katze war aus dem Sack und auch das B3-Stepping mit einem Fix und kleineren Architekturverbesserungen musste sich mühsam vom ruinierten Ruf erholen. Die ersten B3-Prozessoren werden letztlich auch erst im Frühjahr 2008 ausgeliefert; AMD bevorzugt die Opterons vor den Phenoms.
K10 TLB - The Layoff Bug
AMD-Mann Phil Park erzählt auf X, dass der Fehler intern auch The Layoff Bug genannt wurde, weil er AMD in eine wirklich bedrohliche Lage gebracht habe. Das Problem laut Park: Es ist nicht AMDs einziges. Im Hintergrund gab es wohl auch sehr teure Entwicklungen an einer neuen Kernarchitektur, die eingestellt wurden. Beide Probleme wurden als "uns (AMD) um Jahre zurückwerfend" bezeichnet. Der 2008 zudem von außen steigende wirtschaftliche Druck bringt AMD an seine Grenzen. Man trennt sich dann 2009 bis 2012 auch von der eigenen Fertigung, die heute als Globalfoundries bekannt ist. Immerhin: Die Fehlschläge sind lehrreich und somit in gewisser Hinsicht auch wertvoll, denn die Erkenntnisse fließen in die Zen-Architektur Jahre später ein.
Zuletzt kamen immer wieder interessante Details zur Geschichte von AMD zutage. Etwa, dass Nvidia an einer Zusammenarbeit interessiert gewesen ist. Die Voraussetzung, dass Jensen Huang CEO des gemeinsamen Unternehmens wird, wollte sich aber nicht ergeben. Die Geschichte von Hemant Mohapatra, einem ehemaligen AMD-Mitarbeiter, wird von Phil Park bestätigt.
Mitmachen und kommentieren!
Haben Sie den TLB-Fehler in Erinnerung? Nutzen Sie die Kommentarfunktion und teilen Sie uns Ihre Meinung mit. Zum Kommentieren müssten Sie auf PCGH.de oder im Extreme-Forum eingeloggt sein. Sollten Sie noch keinen Account haben, könnten Sie über eine Registrierung nachdenken, die viele Vorteile mit sich bringt. Beachten Sie beim Kommentieren aber bitte die gültigen Forenregeln.

Aber wie gesagt: Wer denkt, diese eine Hardware-Panne der einzige Fehler in Tabellenkalkulationen war und/oder besonders katastrophale Auswirkungen hat(te), der irrt. Mein Klassiker wäre die 17. Nachkommastelle von "10 - 9,95".
Schlug der nicht auch in Excel durch?
(Werd ich googlern.)
Der TLB-Bug wäre nur beinahe der finale Sargnagel gewesen – und das nur teilweise wegen seiner tatsächlichen Bedeutung. Viel schlimmer war das Totalversagen von AMDs PR-Team:
Als erstes wurde für die Opterons, in denen Einsatzgebiet der Fehler teils wirklich kritisch war, ein Not-Update herausgegeben, dass den TLB ganz deaktiviert. Leistungsmessungen: Teilweise über 30 Prozent Leistungsverlust.
Als zweites wurde der Verkauf weiterer Opterons komplett gestoppt. Trotz spürbar gestiegener Marktanteile war das für AMD damals noch eine vertretbare Entscheidung, die Serversparte hatte keinen so großen Anteil am Gesamtumsatz.
Als drittes wurde bestätigt, dass die auf dem gleichen Chip basierenden Desktop-CPUs auch betroffen sind.
Als viertes wurde gar nichts gemacht. Wenn ich mich richtig erinnere, volle sechs Monate lang. AMD hat keine extra Patches für Desktops bereitgestellt, AMD hat Entwickler nicht darin unterstützt, das Problem zu umgehen und vor allem hat AMD nicht einmal öffentlich erklärt, was das Problem eigentlich ist und wann es auftritt.
Alles, was Endkunden wussten: "K10 hat einen so schweren Fehler, dass dafür eine komplette Produktsparte einen Verkaufstop erhalten hat" und "Der einzige Workaround kostet soviel Leistung, dass die verbliebene Leistung einen in Intel-Netburst-Tage zurückwirft". Dieses Risiko wollte natürlich kein Käufer eingehen, schlicht wegen mangelnden Informationen konnte AMD eine halbe Jahresproduktion auch an die Leute nicht verkaufen, die mit der Hardware an sich eigentlich wunderbar klarkommen wären.
Ehe die fehlerbereinigten Phenom 1 im Handel waren, hatte Intel dann schon die zweite Core-2-Generation draußen. Und Phenom 1 hatte die Benchmarks bereits gegen deren erste verloren – als PCGH 1-2 Monate nach dem Launch ein "Quadcore Special" gemacht hat, stand genau ein Satz zu AMDs neuestem Topmodell drin: Es wäre "fast gleichwertig" zu Intels Q6600. Der war bekanntermaßen die Budget-Alternative zum QX6700, damals schon ein gutes Jahr alt und 30 Euro günstiger. Selbst ohne TLB-Bug wäre Phenom 1 schwer zu verkaufen gewesen – mit gar nicht mehr.
Anm.: Wer das größere Bild haben will, kann mal einen Blick in die aktuelle 08/2024 werfen (-Fassung noch in Arbeit). Dieser Zeitraum ist gerade Thema im aktuellen Retro-Artikel. Leider ein sehr trauriger Text für AMD-Fans, die AM2(+)-Ära begann halt auf einem aktuellen Höhepunkt und dann folgten beinahe ausschließlich gescheiterte Versuche. Verglichen mit QuadFX war Phenom I ja fast schon ein Erfolg.
Gab (CPU-)Bugs, wo sich (nachweislich) Excel-Tabellen verrechnet haben.
DAS kann vom Brückeneinsturz bis zum Bankrott führen.
Im bei der Analogie zu bleiben Jen-Hsun Huang hat also frühzeitig diese neue Losbude entdeckt und damit begonnen, alle Lose aufzukaufen. Im Gegensatz zum echten Lotto kann man da so richtig viel gewinnen.
Es gab auch die Produkte von AMD, Intel, Apple, ARM, Mediatek, Qualcom usw.. Sie alle lassen sich irgendwie für KI nutzen, bzw, man hätte sie darauf optimieren können. Der Punkt ist: im Gegensatz von Nvidia hat das keiner so richtig gemacht. Sie alle haben das Thema KI mehr oder weniger verschlafen und sind erst so richtig aufgewacht, als die KI schon Bilder zeichnen und andere Späße konnte. Das ist der Unterschied und deshalb ist es einfach Blödsinn, zu behaupten Jen-Hsun Huang hätte Däumchen gedreht. Er wußte nicht, dass Nvidia damit zum wertvollsten Unternehmen der Welt werden wird, aber er ahnte, dass das ganze groß werden könnte und hat sein Unternehmen dahin gesteuert.