RV770-Test: Radeon HD 4800 im Technik-Check
In den ersten Benchmarks der Radeon HD 4850 überraschte die Karte viele mit ihrer Leistungsfähigkeit. Heute sehen wir uns an, warum das so ist.
Der RV770-Chip ist eine deutliche Verbreiterung des RV670-Designs, das wiederum auf dem oft kritisierten R600 aufbaut. Die Eckdaten des RV770-Chips zusammengefasst:
Radeon HD 4850 in GPU-Z (Bild: PCGH)
Radeon HD 4870 in GPU-Z (Bild: PCGH) • 956 Millionen Transistoren (256 mm², 55 Nanometer Strukturbreite)
• Radeon HD 4870: 750/1.800 MHz (Chip-/Speichertakt)
• Radeon HD 4850: 625/993 MHz (Chip-/Speichertakt)
• 800 Shader-ALUs
• 256-Bit-Speicherinterface
• 40 Textureinheiten
• 16 ROPs (4 Z-Operationen pro Takt)
• 512 MiByte GDDR5-RAM
• 1x 6-Pin-(4850), 2 x 6-Pin Stromanschluss erforderlich (4870)
• Unterstützung für Direct X 10.1 und Shader-Model 4.1
Mit den Eckdaten des Vorgängers RV670 im Hinterkopf, beeindruckt der RV770. Während Die HD-3800-Serie über 320 skalare Shader-ALUs und 16 Textureinheiten (TMUs) verfügt, fährt der RV770 bei ähnlicher Taktung 2,5x so viele Rechenwerke auf. Dabei ist es keine große Kunst, zur Leistungssteigerung auf "viel hilft viel" zu setzen. Die Ingenieure sehen sich stets einem vorgegebenen Transistorbudget konfrontiert, welches eng mit den Herstellungskosten zusammenhängt. Hier glänzt der RV770: Obwohl 956 Millionen Transistoren zum Einsatz kommen, beträgt die Die-Größe nur 256 Quadratmillimeter. Das ermöglicht AMD eine günstige Fertigung der GPU, nur knapp über dem Niveau der HD-3800-Serie.
Radeon HD 48x0 im Detail
AMD hat viele Baustellen der R600-GPU mit dem RV770 in Angriff genommen und einen technisch sehr interessanten Chip geschaffen. Die zehn SIMD-Einheiten verfügen wie bisher über jeweils 16 Vector-5-Rechenwerke, deren Komponenten einzeln ansprechbar sind. Während man diese Betriebsart als skalar bezeichnen kann, müssen hier jedoch Grafikkartentreiber und der im Chip integrierte Programmverteiler (Scheduler) mehr Arbeit leisten, um die Berechnungen auf die zur Verfügung stehenden ALUs zu verteilen. Gelingt es nicht zu hundert Prozent, für einen Taktzyklus jeweils passende Arbeit zu finden, laufen mindestens eine und maximal vier der jeweils fünf Rechenwerke leer und Effizienz sowie Leistung sinken.
Nach wie vor stehen jedem der zehn SIMDs vier Textureinheiten zur Verfügung, deren Gesamtzahl also auf 40 Stück angestiegen ist. Diese Einheiten hat AMD stark überarbeitet und neben einer Verringerung der Grundfläche pro TMU auch deren Durchsatz und damit die Effizienz erhöht. Einzig FP16-Texturen, welche beispielsweise bei HDR-Rendering häufig als Bildzwischenspeicher zum Einsatz kommen, können aufgrund schmaler ausgelegter Datenpfade nicht mehr in einem Takt gefiltert werden. Diese Entscheidung sei bewusst aufgrund der zur Verfügung stehenden Speicherbandbreite getroffen worden, so AMD-Fellow Eric Demers, einer der Verantwortlichen für die RV7x0-Familie.
Die Schnittstelle zum Videospeicher wird durch einen 256 Bit breiten Bus geführt, der von AMDs seit 2005 bestehender Ring-Bus-Tradition abweicht. Es gibt nun wieder einen zentralen Verwaltungspunkt des Speichers ("Hub"), über den alle chipinternen Leitungen laufen. Den vier Texturcaches und ROP-Partitionen als größten Nutzern von Bandbreite stehen jeweils direkte Leitungen zu den nächstgelegenen Speicherchips zur Verfügung, welche sie durch die entstehende Lokalität schneller ansprechen können als den Rest des Grafikkartenspeichers (VRAM). Neben den acht Kanälen zum VRAM verwaltet der Hub noch die Anfragen des Video-Decoders UVD2 sowie der Display-Controller und es steht eine separate Leitung jeweils für die PCI-Express-2.0-Schnittstelle sowie einen Crossfire-X-Anschluss für den Multi-GPU-Betrieb zur Verfügung. Während die günstigere HD 4850 noch wie die Nvidia-Chips auf günstigen und breit verfügbaren GDDR3-RAM setzt, stattet AMD die HD 4870 mit dem modernen GDDR5-RAM aus, welches bei gleicher Breite der Speicherschnittstelle eine deutlich größere Bandbreite durch einen höheren Takt erreicht.
Quelle: http://www.pcgameshardware.de
RV770-GPU (hier auf einer HD 4850) samt 1,0-Nanosekunden-GDDR3 (Bild: PCGH)
Die Raster Operatoren
In die Raster-Operatoren (ROPs, bei AMD traditionell "Render-Backends" genannt) wurde jedoch die meiste Arbeit investiert. Sie erinnern sich als treuer PCGH-Leser sicherlich noch an die heftigen Einbrüche mit aktivierter Kantenglättung, die nicht nur wir in unseren Tests bemängeln mussten - und das, obwohl die HD 2900 XT bereits über mehr als 100 GByte pro Sekunde an Speicherbandbreite verfügt. Grund: Die ROPs konnten in den älteren Chips lediglich zwei Multi-Sampling-Werte pro Takt liefern, brauchten also bereits für die Standardeinstellung von 4x FSAA zusätzlich Zeit. Erschwerend kam hinzu, dass die ROPs das Verrechnen der einzelnen Werte aus den Multi-Sample-Puffern nur unter bestimmten Voraussetzungen wie geplant übernehmen konnten. All dies ist im RV770 behoben: Die Standard-FSAA-Modi 2x-, 4x- und 8x-MSAA laufen per Box-Filter nun in voller Geschwindigkeit über die Render-Backends, und obwohl AMD deren Anzahl nicht erhöhte und weiterhin 16 Pixel gleichzeitig hindurchschiebt, hat sich damit die potenzielle GPU-Leistung pro Takt mit aktiver Kantenglättung verdoppelt. Die Custom-Filter-FSAA-Modi werden hingegen weiterhin durch die Shader-ALUs bearbeitet, legen durch deren hohe Anzahl aber ebenfalls an Geschwindigkeit zu.
