AMD Llano: 4 Kerne und DirectX-11-Grafik [Quelle: siehe Bildergalerie]
Blockschaltbild eines K10-Kerns und eines Bulldozer-Moduls. Trotz doppelter Kernzahl besitzt das Bulldozer-Modul nur 33% mehr ALUs und Load/Store-Einheiten, die Ansteuerungslogik ist nur einmal vorhanden. Änderungen in der Leistungsfähigkeit einer jeden Einheit lassen jedoch keine Leistungsabschätzung zu. [Quelle: siehe Bildergalerie]
Schwerwiegend könnte die Neuigkeit zu AMDs kommender Bulldozer-Architektur sein.
Bisherige Diagramme zeigten vier unspezifizierte Pipelines pro Kern, was meist als eine Erweiterung der aktuellen 3-fach-skalaren K10-Architektur interpretiert wird. In der detaillierten Version ist dagegen von zwei ALUs und zwei Load/Store-Einheiten die Rede. Entgegen bisheriger Erwartungen hätte ein Bulldozer-Kern somit nicht 33% mehr Recheneinheiten als ein K10-Kern (mit 3 ALUs und 3 Load/Store-Einheiten), sondern 33% weniger. Eine Zambezi-CPU mit 8 Kernen käme auf 16 ALUs, während ein aktueller Thuban-Hexacore deren 18 besitzt. Unklar bleibt aber weiterhin, welche Änderungen AMD innerhalb der ALUs vornimmt und welche Leistungsfähigkeit die für Spiele wichtigeren FPUs besitzen.
Kommentiertes Layout eines Llano-Kerns. Alle kernspezifischen Bestandteile sind von einem Ring aus Power-Gating-Schaltungen umgeben, der die vollständige Abschaltung ermöglicht. [Quelle: siehe Bildergalerie]
Weitere Neuigkeiten gibt es zu AMDs Llano. Dass dieser Gebrauch von Power-Gating machen wird, ist bereits
seit Längerem bekannt. Auf der japanischen Webseite
PC-Watch finden sich nun nähere Informationen zur Implementierung. Demnach bilden je ein Rechenkern und die zugehörigen L1- und L2-Caches eine Einheit. Sinkt die CPU-Belastung soweit, dass ein Kern abgeschaltet werden kann, werden zuerst die beiden Caches geleert und alle in den Recheneinheiten verbliebenen Informationen in den System-RAM ausgelagert. Nun tritt ein Ring auf Power-Gating-Schaltungen in Aktion und trennt nacheinander Taktsignal, Datenleitungen und die Stromversorgung von der restlichen CPU.
Der Lohn der Mühe: Leckströme fallen nur noch an den Power-Gating-Transistoren an. Die eigentlichen Rechen- und Cachesektionen verbrauchen keinen Strom mehr. Bisherige AMD-Desktop-CPUs können einzelne Kerne dagegen nur heruntertakten. So bleibt es für andere, aktive Kerne möglich, weiterhin auf Inhalte im L2-Cache des ruhenden Kernes zuzugreifen. Der Stromverbrauch bei geringer Belastung sinkt aber nicht in gleichem Maße, wie bei Intels Nehalem-Familie.
Power-Gating-Sequenz der kommenden 32nm-AMD-CPUs. Die vollständige Trennung einzelner Kerne von der Stromversorgung verspricht großes Sparpotential, erfordert jedoch Zugriffe auf den langsamen System-RAM [Quelle: siehe Bildergalerie]
Um den Wechsel in den Ruhezustand zu steuern, wird AMD eine spezialisierte
Überwachungschaltung einsetzen. Diese überwacht, ähnlich wie Intels PCU (Power Control Unit), kontinuierlich Auslastung und Stromverbrauch einzelner CPU-Bereiche und ermöglicht so zeitnahe Anpassungen an den Lastzustand durch Abschaltung oder auch Übertaktung (Turbo-Modus) einzelner Kerne.
Wegen des Rückgriffs auf den langsamen System-RAM sind die Wechsel in und aus dem Ruhezustand aber mit einer höheren Latenz verbunden als bei aktuellen Intel-CPUs. Diese nutzen im sogenannten C6-State einen spezialisierten, schnellen
SRAM zur Aufnahme verbleibender Informationen aus den Recheneinheiten.
Der Grund für AMDs Verzicht könnte in der Cache-Architektur liegen: Intel verwendet eine inklusive Cache-Strategie, bei der alle Informationen der L1- und L2-Caches auch in Kopie im L3-Cache vorliegen. AMDs exklusive Caches vermeiden eine derartige Platzverschwendung und halten Daten jeweils nur in einem Cache vorrätig. Ein einfaches Abschalten eines L2-Caches würde so aber zu Datenverlusten führen.
Hintergrund: LlanoLlano ist der Codename für den ersten Ableger des "Fusion"-Programms. Die "APU" wird eine DX11-GPU-Einheit nach Vorbild der HD5000-Familie und bis zu vier CPU-Kerne der aktuellen K10-Generation
vereinen, jedoch bereits im kommenden 32nm-Prozess gefertigt. Damit stellt Llano die direkte Antwort auf Intels aktuelle Clarkdale- und kommende Sandy-Bridge-CPUs dar, die ebenfalls eine integrierte Grafikeinheit besitzen. Details zu den Grafikeinheiten von Llano und Sandy Bridge sind bislang wenig bekannt, nur die verstärkte Integration in die CPU-Struktur (z.B. Anbindung über den L3-Cache) bei letzterem gilt als gesichert. In beiden Fällen dürfte die GPU-Leistung für Spieler uninteressant sein, bei Intel kommen häufige Treiberprobleme hinzu.
Erste Testexemplare von Llano
werden bereits ausgeliefert, die Markteinführung ist jedoch erst für Anfang 2011 angekündigt. Angaben zur Plattform wurden bislang keine gemacht, die integrierte Grafikeinheit und die Verfügbarkeit derartiger Informationen für andere Projekte lassen eine Neuentwicklung erwarten.
Hintergrund: BulldozerUnter dem Codenamen Bulldozer entwickelt AMD seit einigen Jahren den Nachfolger der K10-Architektur (Phenom, Phenom II). Da letztere "nur" eine Modifikation der K8-Architektur (Athlon 64, K8L oder K9 im Falle des Athlon 64 X2) mit mehr Kernen und L3-Cache war, deren Kernbereich wiederum große Ähnlichkeit zum K7 (Athlon, Athlon XP) aufweist, gilt Bulldozer als größter Schritt in AMDs-CPU-Entwicklung seit Beginn des Jahrtausends. Unter anderem werden je zwei CPU-Kerne zu einem "Modul" zusammengefasst, das sich Ansteuerungslogik, L2-Cache und FPU ("Floating Point", Gleitkomma)-Einheiten teilt. Details zu Implementierung und Rechenleistung sind weiterhin unbekannt. Als gesichert gilt lediglich, dass die Dekoder-Einheiten eins Moduls mindestens zwei Threads bearbeiten und so beide Kerne unabhängig voneinander mit Arbeit versorgen können. Die gemeinsame FPU-Einheit ist zudem zweigeteilt und kann in schnellem Wechsel komplett von einem Kern oder je zur Hälfte von beiden Kernen zeitgleich genutzt werden.
Die Fertigung der ersten Bulldozer-Desktop-CPU wird in 32nm SOI erfolgen und als Plattform kommen Sockel AM3 und voraussichtlich Chipsätze der 8xx-Serie zum Einsatz. Die Auslieferung wird aber erst im ersten Halbjahr 2011 erfolgen.
Lötkolbengott
05.05.2010 14:42
Ihr scheint alle Dresdenboys Blog nicht zu kennen...
Der aktuelle Bulldozer wird Version 1.0 der aktuellen Architektur sein, dieses Speculative Multithreading (2 Integercores eines Clusters arbeiten zusammen an einem Thread) ist wohl für zukünftige Erweiterungen geplant.
Oh und by the way: ein Bulldozer Kern ist sehr klein, wesentlich kleiner als ein Nehalem Core!
Entsprechend hätte AMD hier einen gewaltigen Vorteil...
PCGH-Community-Veteran
05.05.2010 13:39
So sieht es fürs erste aus.
Software-Overclocker
05.05.2010 12:26
Sehe ich das eigentlich richtig dass Bulldozer ohne IGP kommen wird, während die bei Intels SandyBridge zwingend mit an Bord sein wird?