Online-Abo
Login Registrieren
Games World
  • Skylake-Architektur: Stromsparen, Parallelität und Caches - Details vom IDF

    Intel Skylake: Vergrößerte Buffer und Co. Quelle: PC Games Hardware

    Auf dem IDF gibt Intel gern und offen Auskunft über Interna seiner CPU-Architekturen - nicht so bei Skylake. In diesem Jahr gab es nur vergleichsweise spärliche Interna über Intels aktuelle Desktop-Architektur. Immerhin sind einige Fakten über Stromsparmechanismen, den Cache und sogar verschiedene Buffer ans Tageslicht gekommen - und darauf werfen wir hier einen ersten kurzen Blick.

    Intel Skylake: Vergrößerte Buffer und Co. Intel Skylake: Vergrößerte Buffer und Co. Quelle: PC Games Hardware Die Skylake-Architektur wurde gegenüber ihren Vorgängern stark überarbeitet, teilt sich jedoch die 14-nm-Fertigungstechnik mit Broadwell, bei dem Intel den Fokus der Überarbeitung beinahe ausschließlich auf die integrierte Grafik legte. Die Grundlagen der Skylake-Architektur werden auch im direkten Refresh Kaby Lake sowie der nächsten Generation Cannon Lake zum Einsatz kommen und natürlich auch für die für 2016 erwarteten Server-Versionen

    Skylake wurde außerdem von einem anderen Team entwickelt, was sich in vielen Designentscheidungen mainfestiert - zum Beispiel wurden die vollintegrierten Spannungswandler der Haswell/Broadwell-Generation wieder abgeschafft. Sie kamen in ihrem aktuellen Entwicklungsstand im Zusammenspiel mit dem 14-nm-Prozess mit dem Stromspargedanken im Bereich von einstelligen Wattzahlen nicht so gut zurecht.

    Im Folgenden fassen wir einige der Neuerungen von Skylake kurz zusammen und arbeiten uns dabei von den Leitideen des Designs ausgehend zu deren Auswirkungen auf die Architektur vor. Auf die Eigenheiten der integrierten Grafik von Skylake sind wir bereits in einem eigenen Artikel eingegangen.

    Mehr Stromsparen

    Intel Skylake: Power Manegemet Intel Skylake: Power Manegemet Quelle: PC Games Hardware Skylake skaliert über ein breites Band an verfügbarem Thermalbudget, welches von 4,5 bis 91/95 Watt reicht. Intel streicht heraus, dass es sich bei Skylake um die erste Architektur handelt, bei der schon in frühen Entwicklungsphasen auf diese breite Skalierbarkeit geachtet worden sei - wenn auch noch nicht in den allerersten Entwürfen. Grund ist der für Intel immer wichtiger gewordene Tablet-Markt, denn bis hier hinunter kann die x86-Architektur noch konkurrenzfähig herabreichen, während in der Smartphone-Klasse mit seiner nochmals engeren Verbrauchsgrenze zuviel Performance geopfert werden muss und die dominierende ARM-Architektur hier daher zurzeit nicht zu schlagen ist.

    Intels frühere Mantras Hurry Up, Get Idle oder Race To Idle dürften bekannt sein - es ging hauptsächlich darum, Aufgaben schnellstmöglich zu erledigen, auch wenn man dazu kurzzeitig mehr Strom benötigte, um danach möglichst wieder in einen der stromsparenden Schlafmodi wechseln zu können.

    Intel hat die bestehenden Möglichkeiten, Bereiche des Chips per Power-Gating komplett von der Stromversorgung zu trennen, bei Skylake deutlich ausgebaut, auch wenn das erst einmal eine Investition in Form zusätzlicher Chipfläche erfordert. Der gesamte Prozessor trennt sich in verschiedene Bereiche wie zum Beispiel die einzelnen Kerne, den System Agent, die Grafik und mehr. Je nach Arbeitsaufkommen können diese einzeln schlafen gelegt, mit verschiedenen Frequenzen betrieben oder komplett vom Strom getrennt werden, auch ein teilweises Power Gating ist möglich. Gerade im Bereich der Grafik gibt es nun eine viel feinere Granularität, welche bis zur Abschaltung einzelner EU-Gruppen innerhalb einer Sub-Slice reicht. Letztere konnten schon frühere Generationen als Ganzes abschalten. Auch die noch immer nur selten genutzten, aber besonders leistungsfressenden AVX2-Eineiten können nun abgeschaltet werden.

    10:27
    Intel Core i7-6700K - Video zum Skylake-Test

    Intel Skylake: Speed Shift Intel Skylake: Speed Shift Quelle: PC Games Hardware Zudem hat Intel mit Speed Shift eine komplett hardwarebasierte Möglichkeit eingeführt, die Power-States zu selektieren, während das Betriebssystem nur noch Hinweise gibt, aber keine eigene und verbindliche Auswahl mehr durchführt.​ Speed Shift nutzt einen anforderungsabhängigen Algorithmus, um den P-State und damit die nötige Frequenz innerhalb der Grenzen des Prozessors auszuwählen. Da er im Gegensatz zum Betriebssystem auch den Status der Mikroarchitektur auswerten kann, sind die P-States in der Regel schneller anpassbar und generell passender zur Auslastung der Rechenwerke. Das erste Betriebssystem, welches Speed Shift unterstützt, ist Windows 10, andere sollen folgen. Ohne OS-Support funktioniert das Ganze natürlich auch, spart aber nicht soviel Energie.

    Die verlustfreie Kompression haben wir bereits in unserem Artikel über die Neuerungen der Skylake-Grafik angesprochen. Hier kann durch die geringere zu übertragende Datenmenge für jeden Render-Pass Strom gespart werden, da erst die Sampler innerhalb der Subslices die jeweiligen Render-Targets entpacken müssen. Gleiches gilt für die Display-Engine, welche die gepackten Daten einliest, bevor sie diese dekomprimiert und an den Bildschirm sendet.

    Intel Skykale: Compression in der Grafik Intel Skykale: Compression in der Grafik Quelle: PC Games Hardware

    ​Mehr Parallelität

    Auch wenn es auf den ersten Blick nicht gerade einleuchtend klingt, kann auch eine höhere Parallelität Strom sparen. Das ist dann der Fall, wenn es genügend Arbeit für mehrere Rechenwerke gibt, auf die Arbeit verteilt werden kann, ohne dass einzelne von ihnen dabei mit maximaler Spannung an der Lastgrenze laufen müssen.

    Intel Skylake:Front-End 1 Intel Skylake:Front-End 1 Quelle: PC Games Hardware Entsprechend hat Intel sowohl in der Kernarchitektur selbst als auch bei der integrierten Grafik für mehr parallele Ressourcen gesorgt und das jeweilige Front-End angepasst, damit diese zusätzlichen Einheiten mit Arbeit versorgt werden können. In den x86-Kernen handelt es sich dabei unter anderem um größere Translation Lookaside Buffer, tiefere Queues und zusätzliche Scheduler-Einträge, die insgesamt ein größeres Ausführungsfenster für den Out-of-Order-Betrieb erlauben. Davon profitiert unter anderem auch das Hyperthreading der Core-i3- und -i7-Prozessoren. Auch die Ausführungseinheiten selbst sollen Zuwachs bekommen haben, Intel gibt aber nicht an, welche genau das sind. Lediglich zu der Angabe, dass aus dem Mikro-Op-Cache nun sechs Instruktionen pro Takt ausgelesen werden können, hat sich ein Mitarbeiter des Chipgiganten auf dem IDF hinreißen lassen.

    Bei der Grafik, welche wir bereits separat beschrieben haben, ist eine zusätzliche Slice möglich, insgeseamt also bis zu 3​. Und in deren jeweiligem Slice-Common-Bereich wurde der Pixel-Durchsatz auf 8 pro Takt erhöht. Dieser Wert war in der Broadwell-Generation noch der Texturfüllrate vorbehalten, während Pixel-Fill mit 6, Pixel-Blending mit 4 Pixeln pro Slice und Takt lief. Auch bei den festverdrahteten Schaltungen für die Medienbearbeitung und -beschleunigung ist eine entsprechende Vervielfältigung vorgesehen, ebenso können diese bei Bedarf mit eigenem, erhöhten Takt betrieben werden, während weite Teile der Unslice per Power Gating ruhiggestellt werden.

    Der Durchsatz der Unslice, zum Beispiel für die Geometrie-Pipeline, wird entgegen dem Stromspargedanken jedoch über erhöhten Takt dieser Funktionsgruppe gesteuert, wie uns Intels Principal Engineer Graphics Jason Ross im persönlichen Gespräch bestätigte. Hier scheint der Strom- und Platzspargedanke für die kleinste GT-Ausbaustufe das bestimmende Element gewesen zu sein.

    Neue, schnellere Caches

    Um diese ganzen Ressourcen auch ausreichend flott mit Daten zu versorgen, hat Intel auch an den Caches geschraubt. Außerhalb des L3-Caches der Grafikeinheit selbst bleibt deren Größe zwar unverändert, die Datenübertragung wird zum Teil aber deutlich flotter. Doch Intel hat nicht etwa die Busbreite verdoppelt oder Ähnliches, sondern Optimierungen an den Caches und zugehörigen Datenleitungen vorgenommen, sodass nach einem LLC-Miss nun ein doppelt so hoher Durchsatz erzielt wird. Exakte Details, wie das vonstatten gehen soll, gibt Intel nicht an, ein Mitarbeiter verrät aber im persönlichen Gespräch, dass auch eine Latenzoptimierung der einzelnen Ring-Stops ihren Teil dazu beiträgt. Dass die L2-Assoziativität von acht- auf vierfach gesunken ist, wissen PCGH-Leser seit unserem Skylake-Launch-Test, Intel bestätigte inzwischen unsere Vermutung, dass auch Stromverbrauchsaspekte ihren Teil zu dieser Entscheidung beigetragen haben.

    Zwischenfazit: Skylake-Architektur

    Insgesamt ist vieles an Skylake immer noch nicht geklärt. Welche​ Veränderungen nun genau am LLC vorgenommen wurden, wieviele x86-Ausführungseinheiten es von welcher Art gibt oder wann und wie die kommenden Xeon-Server-Prozessoren AVX512 implementieren, ist noch im Dunkeln. Immer mehr kristallisiert sich aber heraus, dass Intel mit Skylake trotz der vorgezogenen Vorstellung der Übertakter-Modelle mit K-Suffix vor allem den Aspekt der Leistungsaufnahme im Visier hatte.

  • Es gibt 1 Kommentar zum Artikel
    Von Rollora
    Danke Carsten für den Bericht.@News:Jaja viel Feintuning wieder.Interessant ist vorallem die gesamte, aktualisierte…
      • Von Rollora Lötkolbengott/-göttin
        Danke Carsten für den Bericht.

        @News:
        Jaja viel Feintuning wieder.
        Interessant ist vorallem die gesamte, aktualisierte Plattform.

        Weiß man schon, wann die anderen Modelle kommen? Suche eines fürn HTPC
  • Print / Abo
    Apps
    PC Games Hardware 06/2017 PC Games 06/2017 PC Games MMore 06/2017 play³ 06/2017 Games Aktuell 06/2017 buffed 12/2016 XBG Games 04/2017
    PCGH Magazin 06/2017 PC Games 06/2017 PC Games MMORE Computec Kiosk On the Run! Birdies Run
article
1168564
Skylake
Skylake-Architektur: Stromsparen, Parallelität und Caches - Details vom IDF
Auf dem IDF gibt Intel gern und offen Auskunft über Interna seiner CPU-Architekturen - nicht so bei Skylake. In diesem Jahr gab es nur vergleichsweise spärliche Interna über Intels aktuelle Desktop-Architektur. Immerhin sind einige Fakten über Stromsparmechanismen, den Cache und sogar verschiedene Buffer ans Tageslicht gekommen - und darauf werfen wir hier einen ersten kurzen Blick.
http://www.pcgameshardware.de/Skylake-Codename-259478/News/Skylake-Architektur-Details-1168564/
20.08.2015
http://www.pcgameshardware.de/screenshots/medium/2015/08/Skylake_Core_Microarchitecture_a-pcgh_b2teaser_169.jpg
news