Dem RV770 unter den Rock geschaut

RV770-Test: Radeon HD 4800 im Technik-Check

In den ersten Benchmarks der Radeon HD 4850 überraschte die Karte viele mit ihrer Leistungsfähigkeit. Heute sehen wir uns an, warum das so ist. (Spille, Vötter, 25.06.2008)
 
Radeon HD 4850 in GPU-Z (Bild: PCGH)
 
Radeon HD 4850 in GPU-Z (Bild: PCGH) [Quelle: siehe Bildergalerie]

Der RV770-Chip ist eine deutliche Verbreiterung des RV670-Designs, das wiederum auf dem oft kritisierten R600 aufbaut. Die Eckdaten des RV770-Chips zusammengefasst:


• 956 Millionen Transistoren (256 mm², 55 Nanometer Strukturbreite)
• Radeon HD 4870: 750/1.800 MHz (Chip-/Speichertakt)
• Radeon HD 4850: 625/993 MHz (Chip-/Speichertakt)
• 800 Shader-ALUs
• 256-Bit-Speicherinterface
• 40 Textureinheiten
• 16 ROPs (4 Z-Operationen pro Takt)
• 512 MiByte GDDR5-RAM
• 1x 6-Pin-(4850), 2 x 6-Pin Stromanschluss erforderlich (4870)
• Unterstützung für Direct X 10.1 und Shader-Model 4.1


Mit den Eckdaten des Vorgängers RV670 im Hinterkopf, beeindruckt der RV770. Während Die HD-3800-Serie über 320 skalare Shader-ALUs und 16 Textureinheiten (TMUs) verfügt, fährt der RV770 bei ähnlicher Taktung 2,5x so viele Rechenwerke auf. Dabei ist es keine große Kunst, zur Leistungssteigerung auf "viel hilft viel" zu setzen. Die Ingenieure sehen sich stets einem vorgegebenen Transistorbudget konfrontiert, welches eng mit den Herstellungskosten zusammenhängt. Hier glänzt der RV770: Obwohl 956 Millionen Transistoren zum Einsatz kommen, beträgt die Die-Größe nur 256 Quadratmillimeter. Das ermöglicht AMD eine günstige Fertigung der GPU, nur knapp über dem Niveau der HD-3800-Serie.

Radeon HD 48x0 im Detail
AMD hat viele Baustellen der R600-GPU mit dem RV770 in Angriff genommen und einen technisch sehr interessanten Chip geschaffen. Die zehn SIMD-Einheiten verfügen wie bisher über jeweils 16 Vector-5-Rechenwerke, deren Komponenten einzeln ansprechbar sind. Während man diese Betriebsart als skalar bezeichnen kann, müssen hier jedoch Grafikkartentreiber und der im Chip integrierte Programmverteiler (Scheduler) mehr Arbeit leisten, um die Berechnungen auf die zur Verfügung stehenden ALUs zu verteilen. Gelingt es nicht zu hundert Prozent, für einen Taktzyklus jeweils passende Arbeit zu finden, laufen mindestens eine und maximal vier der jeweils fünf Rechenwerke leer und Effizienz sowie Leistung sinken.

Nach wie vor stehen jedem der zehn SIMDs vier Textureinheiten zur Verfügung, deren Gesamtzahl also auf 40 Stück angestiegen ist. Diese Einheiten hat AMD stark überarbeitet und neben einer Verringerung der Grundfläche pro TMU auch deren Durchsatz und damit die Effizienz erhöht. Einzig FP16-Texturen, welche beispielsweise bei HDR-Rendering häufig als Bildzwischenspeicher zum Einsatz kommen, können aufgrund schmaler ausgelegter Datenpfade nicht mehr in einem Takt gefiltert werden. Diese Entscheidung sei bewusst aufgrund der zur Verfügung stehenden Speicherbandbreite getroffen worden, so AMD-Fellow Eric Demers, einer der Verantwortlichen für die RV7x0-Familie.

Die Schnittstelle zum Videospeicher wird durch einen 256 Bit breiten Bus geführt, der von AMDs seit 2005 bestehender Ring-Bus-Tradition abweicht. Es gibt nun wieder einen zentralen Verwaltungspunkt des Speichers ("Hub"), über den alle chipinternen Leitungen laufen. Den vier Texturcaches und ROP-Partitionen als größten Nutzern von Bandbreite stehen jeweils direkte Leitungen zu den nächstgelegenen Speicherchips zur Verfügung, welche sie durch die entstehende Lokalität schneller ansprechen können als den Rest des Grafikkartenspeichers (VRAM). Neben den acht Kanälen zum VRAM verwaltet der Hub noch die Anfragen des Video-Decoders UVD2 sowie der Display-Controller und es steht eine separate Leitung jeweils für die PCI-Express-2.0-Schnittstelle sowie einen Crossfire-X-Anschluss für den Multi-GPU-Betrieb zur Verfügung. Während die günstigere HD 4850 noch wie die Nvidia-Chips auf günstigen und breit verfügbaren GDDR3-RAM setzt, stattet AMD die HD 4870 mit dem modernen GDDR5-RAM aus, welches bei gleicher Breite der Speicherschnittstelle eine deutlich größere Bandbreite durch einen höheren Takt erreicht.

Die Raster Operatoren
In die Raster-Operatoren (ROPs, bei AMD traditionell "Render-Backends" genannt) wurde jedoch die meiste Arbeit investiert. Sie erinnern sich als treuer PCGH-Leser sicherlich noch an die heftigen Einbrüche mit aktivierter Kantenglättung, die nicht nur wir in unseren Tests bemängeln mussten - und das, obwohl die HD 2900 XT bereits über mehr als 100 GByte pro Sekunde an Speicherbandbreite verfügt. Grund: Die ROPs konnten in den älteren Chips lediglich zwei Multi-Sampling-Werte pro Takt liefern, brauchten also bereits für die Standardeinstellung von 4x FSAA zusätzlich Zeit. Erschwerend kam hinzu, dass die ROPs das Verrechnen der einzelnen Werte aus den Multi-Sample-Puffern nur unter bestimmten Voraussetzungen wie geplant übernehmen konnten. All dies ist im RV770 behoben: Die Standard-FSAA-Modi 2x-, 4x- und 8x-MSAA laufen per Box-Filter nun in voller Geschwindigkeit über die Render-Backends, und obwohl AMD deren Anzahl nicht erhöhte und weiterhin 16 Pixel gleichzeitig hindurchschiebt, hat sich damit die potenzielle GPU-Leistung pro Takt mit aktiver Kantenglättung verdoppelt. Die Custom-Filter-FSAA-Modi werden hingegen weiterhin durch die Shader-ALUs bearbeitet, legen durch deren hohe Anzahl aber ebenfalls an Geschwindigkeit zu.

[index]


Effizienzsteigerung
Auch AMD war mit der Geometry-Shaderleistung seiner GPU nicht zufrieden, obwohl diese deutlich über der Leistung der Geforce-Karten lag, und hat ebenfalls den Ausgabepuffer vergrößert. Ein Faktor von 4 steht hier im Raume, abgeleitet von der vierfachen Anzahl der Rendering-Threads, welche der RV770-Chip nun unterstützt. Die Radeon-Karten dürften in den meisten Geometry-Shader-Programmen also nach wie vor schneller arbeiten als vergleichbare Geforce-Karten. Zusätzlich verbesserte AMD die Tesselations-Einheit, welche die DX10-Radeons von der Xbox-360-GPU geerbt haben. Diese war zuvor nicht in der Lage, instanzierte Datenströme zu verarbeiten und nur über einen Umweg vom Spieleentwickler ansprechbar. Der neue Tesselator im RV770 ist AMDs Angaben zufolge Direct-X-10/10.1-kompatibel.

Der Hauptteil der Arbeiten floss allerdings in die Reduktion der nötigen Chipfläche für alle möglichen Funktionseinheiten - ganz nach der Maxime, die höchstmögliche Leistung pro Quadratmillimeter Chipfläche zu erreichen. Durch manuelles Feintuning konnte die Leistung pro Quadratmillimeter um 40 Prozent gegenüber der HD-3800-Reihe verbessert werden - zudem wurden noch weitere Features hinzugefügt, die besonders den GP-GPU-Bereich beschleunigen. Jede der 800 ALUs ist nun in der Lage, Bit-Shift-Operationen auszuführen, sodass diese Operationen insgesamt 12,5 Mal schneller als bei der RV670 ausgeführt werden können.

Die Textureinheiten konnten sogar noch mehr zulegen: Satte 70 Prozent mehr Leistung pro Quadratmillimeter erreicht AMD nun. Wie bereits angedeutet, ging es in diesem Falle nicht ohne Einsparungen. Neben der halbierten FP16-Filterrate gegenüber den Vorgänger-Chips sind auch die zusätzlichen vier Textur-Adressierungseinheiten aus der TMU herausgefallen. Die erhöhte Anzahl der Einheiten gleicht diese Einbußen jedoch mehr als aus, sodass selbst im schlechtestmöglichen Fall noch eine 25 Prozent höhere Leistung als beim RV670 erreicht wird. Dazu tragen auch die verbesserten Level-1- und -2-Caches ihren Teil bei.

FP64: Doppelte Präzision
Für den Goldesel GP-GPU haben beide Hersteller sich ordentlich ins Zeug gelegt, um potenziellen Kunden die Rechenleistung ihrer Grafikchips schmackhaft zu machen. Neben der von Direct X 10 bekannten FP32-Genauigkeit verfügen sowohl RV670/770 als auch GT200 über die Möglichkeit, das für wissenschaftliche Berechnungen wichtige FP64-Format zu unterstützen. Da es für PC-Spiele auf absehbare Zeit eher unwichtig ist, zeigen wir hier nur kurz die interessantesten Eckdaten auf.

[index]


Der Dual-Slot-Kühler der Radeon HD 4870 erinnert mit seinen zwei Heatpipes und dem 80-Millimeter-Radiallüfter an die 2900er-Serie - irgendwo müssen die 160 Watt (TDP) schließlich hin. Die HD 4850 begnügt sich mit einem Single-Slot-Design, das frappierend an das der HD 3850 erinnert.

Die Lautstärke haben wir wie immer in unserem schallarmen Raum mithilfe professioneller Messausrüstung geprüft, damit Sie sich nicht auf die billigen Dezibel-Meter aus dem Elektromarkt verlassen müssen, die oftmals bei solchen Tests zum Einsatz kommen.

Nach einigen Minuten beim FurMark dreht der Lüfter der HD 4870 so schnell, dass eine Lautheit von 3,9 Sone erreicht wird. Das ist alles andere als leise, die GTX 280 erreicht jedoch eine ähnliche Geräuschentwicklung. Im 2D-Leerlauf beträgt die Lautheit konstant 0,3 Sone - unhörbar. Während die HD 4850 unter Windows die gleiche Lautstärke erreicht, röhrt der kleine Radiallüfter nach wenigen Minuten im FurMark mit störenden 5 Sone.




Wie ihre Vorgänger besitzen die Neulinge auch einen 2D-Modus. Die HD 4850 arbeitet dann mit 160 MHz GPU- und 500 MHz Speichertakt, die HD 4870 noch mit 550/900 MHz.



Im Vergleich zur Vorgänger-Generation zeigen sich beide HD 4000 stromhungrig. Trotz Powerplay konsumiert die HD 4870 im 2D-Betrieb mehr Energie als eine an sich schon verschwenderische 8800GTX. Unter Last wird sogar der Wert der HD 2900 XT erreicht. Die HD 4850 dagegen liegt auf dem Niveau der 9800GTX.

[index]


Die HD-4800-Serie besticht durch energieeffizientes Design bei hoher Leistung. Während es die Radeon HD 4850 mit der Geforce 9800 GTX(+) aufnehmen und mit 8x FSAA auch die 8800 Ultra schlagen kann, ist die HD 4870 meist schneller als die GTX 260. Die GTX 280 spielt auch preislich in einer anderen Liga, welche AMD voraussichtlich im August mit dem "R700" aka HD 4870 X2 betreten will.

[index]


Bildergalerie zum Artikel
 
 
Alle Artikel zu Grafikkarten von Nvidia und AMD/Ati finden Sie auf der Grafik-Themenseite. Eine aktuelle Grafikkarten-Kaufberatung finden Sie im Artikel Ati- und Nvidia-Grafikkarten: Test-Übersicht und aktuelle Kauf-Tipps. Mehr zum Geforce-Entwickler Nvidia und Radeon-Entwickler AMD erfahren Sie in unseren Themen-Specials.
 
 
 
Verwandte Artikel:   Ati   AMD   R600   RV670   RV770   ALU   TMU   TA   AAA   ROP  
 
 
  1. Gigabyte GeForce GTX 670 OC
    € 378.30
  2. Palit GeForce GTX 670
    € 349.80
  3. ASUS GTX670-DC2T-2GD5
    € 409.80
  4. Palit GeForce GTX 670 JetStream
    € 377.90
  5. ASUS GTX670-DC2-2GD5
    € 394.80
  6. Sapphire Radeon HD 7850
    € 209.80
  7. Sapphire Radeon HD 7850 OC
    € 218.90
  8. Gainward GeForce GTX 670 Phantom
    € 390.80
  9. Sapphire Radeon HD 7870
    € 284.30
  10. EVGA GeForce GTX 670
    € 358.00
 
 
1425 User online
Anmelden & mitmachen
Benutzername:
Kennwort:
Angemeldet bleiben
Jetzt mitdiskutieren!
Jetzt bestellbar!
Alles zu Crysis 3
Die besten Deals
Komplett-PCs von PCGH
Komplett-PCs von PCGH
So unterstützen Sie PCGH
Folgen Sie PCGH
Aktuelle Heft-Ausgabe
Geforce GTX 680 im PCGH-Online-Test: Ich möchte …
lieber alle Benchmarks, die PCGH durchführt, aber beschränkt auf reines High-End, also HD 7970, GTX 680 und GTX 580 (49.68%)
lieber (deutlich) weniger Benchmarks, dafür mit weiteren Grafikkarten als Vergleichsmaßstab. (46.63%)
zwar klicken, aber zur Umfrage nichts weiter beitragen. (3.69%)
624 Teilnehmer
PCGH-Webshops