IDF 2014: Neue Details zur Broadwell-Prozessorgrafik - OpenCL 2.0 und trotz Compute-Fokus zusätzliche Texturleistung

4
News Carsten Spille Als bevorzugte Quelle auf Google hinzufügen
Processor Graphics: Memory Hierarchy noch ohne Kohärenz zwischen CPU- und Grafik-Caches (Haswell Gen7.5)
Quelle: Intel/PC Games Hardware

Seit einigen Jahren legt Intel gesteigerten Wert auf Funktion und Leistung der integrierte Prozessorgrafik. Inzwischen ist diese so leistungsfähig, dass der CPU-Hersteller ihren Wert als Co-Prozessor in einem eigenen Vortrag auf dem IDF in den Fokus rückt. Wir blicken auf die Details der aufgebohrten Gen8-Prozessorgrafik für die Broadwell-Generation.

Grafikhardware der achten Generation - das verspricht Intel für die aktuellen und kommenden Broadwell-Prozessoren. Da man allerdings bereits die Vorgänger mit Haswell-Architektur als "Gen 7.5" bezeichnete, sind die Änderungen auf den ersten Blick überschaubar, bei genauerem Hinsehen jedoch offenbaren sich deutliche Unterschiede, besonders für Entwickler und die Grafkhardware als Co-Prozessor.

Auf dem Intel Developer Forum gaben Aditya Sreenivas, Senior Principal Engineer und Graphics Architect und Stephen Junkins, GPU Compute Architect und Principal Engineer in zwei Vorträgen einen tieferen Einblick in die Broadwell-Grafikfunktionen. PC Games Hardware fasst zusammen, nachdem wir die Neuerungen bei Broadwell im Groben bereits vorgestellt haben.

Processor Graphics more GFLOPS Broadwell Gen8 Quelle: Intel/PC Games Hardware Processor Graphics more GFLOPS Broadwell Gen8 Nachdem Intel mit Haswell die Bezeichnungen Iris und Iris Pro für die Spitzenmodell ersann, fehlt diese Bezeichnung beim Core M, der bislang einzig verfügbaren Broadwell-Inkarnation, noch. Denn trotz höherer Modellnummer ist seine HD-Graphics 5300 mit nur 4 Execution Units eine der kleineren Ausbaustufen der Broadwell-Grafik - es ginge aber noch kleiner, siehe unten. Neben der 4,5-Watt-CPU Core M mit HD Graphics 5300 sind noch Produkte mit 6 und 10 Watt in der Pipeline, so der Intel-Ingenieur.

Im übergeordneten Bereich, der Slice-Common und dem fixed-function-Bereich wurde verschiedene Schaltungen an die gestiegene Leistungsfähigkeit der restlichen Prozessorgrafik angepasst. Laut Aditya Sreenivas habe sich die Geometrieleistung gegenüber Haswell abermals verdoppelt, nachdem sie dort bereits eine Verdopplung erfahren habe. Unserer Meinung nach ist das ein sinnvoller Schritt seitens Intel,denn nur mit ausreichend hohher Tessellationsleistung lässt sich dessen Nutzung auch als Technik zur Geometriekompression forcieren, was den notorisch an Bandbreite besonders knappen integrierten Grafikeinheiten besonders zu Gute kommen könnte.

Prozessor-Grafik in Broadwell: Execution Units leicht überarbeitet

Processor Graphics Execution Units new caps Broadwell Gen8 Quelle: Intel/PC Games Hardware Processor Graphics Execution Units new caps Broadwell Gen8 Die Basis der Grafik bildet bei Intel die Execution Unit, kurz EU. Sie ist vom Funktionsumfang her kaum vergleichbar mit dem, was AMD Compute Unit und Nvidia Shader-Multiprocessor nennen. Wie ihr Name nahelegt, enthält sie nämlich lediglich die Ausführungseinheiten nebst unbedingt lokal benötigter Ressourcen wie den Register-Files (GPRF und ARF).

Ihre beiden 4-Wege-SIMDs (FPUs, ALUs) werden von sieben Registersätzen gefüttert, was vereinfacht gesagt 7x SMT entspricht. Ansonsten hat sich innerhalb der EU von den Eckdaten her nur wenig geändert, Intel hat allerdings den Durchsatz bei Integer-Berechnungen verdoppelt indem nun beide SIMD-Einheiten dieses Format beherrschen und die SIMDs können nun auch mit comp, select oder min/max per co-issue bedient werden, die bei Haswell nur einzeln verteilt wurden. Weitere, nicht so häufig benutzte mathematische Funktionen erhielten nun ebenfalls direkte Unterstützung in Hardware, während sie zuvor per zeitraubendem Makro ausgeführt wurden.

Prozessor-Grafik in Broadwell: FLOPS vs. TEX und Skalierungsöglichkeiten

Processor Graphics ex. configurations Broadwell Gen8 Quelle: Intel/PC Games Hardware Processor Graphics ex. configurations Broadwell Gen8 Eine Ebene höher bewegen wir uns auf dem Niveau der sogenannten Sub-Slices. Hierin fallen nun auch der Shared Memory, die Textur- und Media-Sampler mit in den Pool der Hardware, sodass sich hier am ehesten der Vergleich zu Compute-Unit und Shader-Multiprocessor bei Radeon respektive Geforce ziehen lässt. Auch Intel nutzt diese Hardware-Ebene, um seine Grafikeinheiten in der Leistung skalieren zu können.

In einer Slice sind standardmäßig nun drei Sub-Slices zu je acht EU-Blöcken integriert, doch auch die Sub-Slice lässt sich noch verknappen. Für besonders stromsparende Modelle ist eine GT1-Version möglich, die nur zwölf EUs besitzt - da dies nicht mit 8 EUs pro Block zu erreichen ist, kommt hier eine Version mit nur sechs EUs pro Sub-Slice und damit nochmals geringerem ALU:TEX-Verhältnis zum Einsatz.

Neben einer GT2-Version wie im Core M mit 24 Execution Units ist auch eine GT3-Variante geplant. Hier kommt mindestens eine komplette Slice hinzu, sodass die Gesamtzahl der EUs auf 48 steigt - 20 Prozent mehr als bei der größten Grafikausbaustufe in Haswell. Aufgrund des geändert ALU:TEX-Verhältnisses steigt die für Spiele wichtige Texturleistung gar um 50%, denn in jeder Sub-Slice sind nun drei anstelle von zwei Textursampler-Blöcken vorhanden.

Im Vergleich zum Vorgänger Haswell hat Intel bei Broadwell die Anzahl der EUs in einer Sub-Slice von zehn auf acht reduziert - und ist damit im Grunde wieder auf das Niveau von Ivy Bridge zurückgekehrt. Das sei sinnvoll gewesen, so Aditya Sreenivas im anschließenden persönlichen Gespräch, da die Simulationen künftiger Workloads, welche Intel zu Bestimmung solcher Verhältnisse natürlich auch durchführt, sich als nicht so ganz zutreffend erwiesen haben, sodass man hier wieder an einer Einstellschraube gedreht habe. Im selben Atemzug bedeutet dies aber auch, dass das Verhältnis von Textureinheiten zu Recheneinheiten wieder auf 1:8 ansteigt.

Auf unseren Einwand, ob denn genügend Bandbreite für die zusätzlichen Textureinheiten vorhanden wäre, entgegnete Sreenivas, dass auch die Speichergeschwindigkeit höher ausfallen würde. Zudem könne man wohl annehmen, dass auch ein eDRAM - was bisher nicht angekündigt wurde - noch schneller arbeiten könnte als noch in Haswell, wo der eingebettete Speicher rund 50 Gigabyte pro Sekunde übertrug. Da die Anbindung weiterhin bei 32 Byte pro Takt liegt, muss eine Beschleunigung durch höheren Takt erfolgen.

Prozessor-Grafik in Broadwell: Media-Performance nun auch skalierbar

Mit der Anzahl der Slices skaliert nun auch auf die Leistung der Media-Sampler, welche inzwischen auch über die Slice-Grenzen zusammenarbeiten können, sofern ein passender Workload vorliegt.

Prozessor-Grafik in Broadwell: SVM durch Cache-Kohärenz - OpenCL 2.0 erst mit OS-Patch

Processor Graphics Memory Hierarchy mit gemeinsamer L3/LLC-Kohärenz (Broadwell Gen8) Quelle: Intel/PC Games Hardware Processor Graphics Memory Hierarchy mit gemeinsamer L3/LLC-Kohärenz (Broadwell Gen8) Eine der wesentlichen Neuerungen gegenüber Haswell ist die Einbeziehung des L3-Caches der Grafikeinheit in die Cache-Kohärenz der CPU-Kerne. Damit wird Shared Virtual Memory und somit einer der Kernpunkte von OpenCL 2.0 möglich. Doch populäre Betriebssysteme würden dies noch gar nicht unterstützen, so der Intel-Ingenieur Chennupaty, auf unsere Frage, wann wir entsprechende Treiber erwarten dürften. Sobald diese Betriebssystem-Patches oder entsprechend ausgestattete neue Betriebssysteme verfügbar wären, erscheine zeitnah ein OpenCL 2.0 Treiber. Auch AMD gibt für Kaveri an, dass die Hardware Open CL 2.0 unterstützen könne.

4
    • Kommentare (4)

      Zur Diskussion im Forum
      • Von Superwip Lötkolbengott/-göttin
        AW: IDF 2014: Neue Details zur Broadwell-Prozessorgrafik - OpenCL 2.0 und trotz Compute-Fokus zusätzliche Textureleistung

        Wenn Intel so weitermacht könnten sie vielleicht bald wieder ernsthaft versuchen auch bei dezidierten GraKas wieder mitzumischen... diesmal mit einem klassischeren Ansatz als bei Larrabee.
      • Von Superwip Lötkolbengott/-göttin
        AW: IDF 2014: Neue Details zur Broadwell-Prozessorgrafik - OpenCL 2.0 und trotz Compute-Fokus zusätzliche Textureleistung

        Wenn Intel so weitermacht könnten sie vielleicht bald wieder ernsthaft versuchen auch bei dezidierten GraKas wieder mitzumischen... diesmal mit einem klassischeren Ansatz als bei Larrabee.
      • Von CL4P-TP Volt-Modder(in)
        AW: IDF 2014: Neue Details zur Broadwell-Prozessorgrafik - OpenCL 2.0 und trotz Compute-Fokus zusätzliche Textureleistung

        Selbst wenn sich die Leistung verdoppeln sollte - wie ebastlers Review gezeigt hat wird kann man aktuelle Spiele doch ziemlich vergessen können.
      • Von Voyager10 PC-Selbstbauer(in)
        AW: IDF 2014: Neue Details zur Broadwell-Prozessorgrafik - OpenCL 2.0 und trotz Compute-Fokus zusätzliche Textureleistung

        Das liesst sich als könnte man das eher überspringen , seit SandyBridge wird mit der GT3000/GT4000/GT4600 Grafik doch nur gekleckert und nicht geklotzt , dabei könnte man seit dem kleineren IvyBridge DIE schon mehr draufpacken und ebenso hätte das der Verbrauch zugelassen wenn man schon da im IvyBridge mit der Grafik geklotzt hätte. Das im Haswell DIE schon mehr reinpasst zeigt doch die HD5000er Reihe mit doppelt sovielen EU´s.
        Mit Broadwell kommen auch wieder nur 4 popelige EU´s dazu , das könnse sich dort hinschmieren wo´s immer dunkel ist

        Ich denke Intel verbaut hier nur soviel wie von den Aktionären für nötig gehalten um das marketingtechnisch über Jahre zu strecken ohne das in 5 Jahren das Ding zu groß und zu teuer wird, weil man ja zwangsweise immer was neues liefern muss.
        Meine andere Theorie ist , Intel teilt sich mit AMD einvernehmlich den Markt für CPU´s mit IGP´s damit die Monopolkomission ruhig bleibt und man deshalb grafiktechnisch immer unterhalb der AMD iGPU Leistung rudert.
      • Von Rollora Kokü-Junkie (m/w)
        AW: IDF 2014: Neue Details zur Broadwell-Prozessorgrafik - OpenCL 2.0 und trotz Compute-Fokus zusätzliche Textureleistung

        Fein fein, dass Intel auf die Tube drückt. Zwar schade, dass die Rechenleistung nicht zunimmt, sondern nur die Texurleistung, schließlich will ich eine ordentliche OpenCL Performance, aber naja so haben wir 50% mehr Spieleperformance. Also reicht das Ding bald mehr und mehr für den HTPC daheim.
      Direkt zum Diskussionsende
  • Print / Abo
    Apps
    PCGH Magazin 07/2026 PC Games 07/2026 play5 07/2026 N-Zone 07/2026 Linux Magazin 07/2026 LinuxUser 07/2026 Raspberry Pi Geek 07/2026
    PC Games Hardware PC Games Linux Magazin Raspberry Pi Geek Computec Kiosk