PCI-Express: Lanes, Routing, Sharing, Switches und Redriver erklärt [2024]

Auch 2024 ist PCI-E die wichtigste Schnittstelle im PC. Wir haben unseren Grundlagenartikel zu Lanes, Switches und Plattform-Konzepten umfassend überarbeitet.

Special 15.05.2024 um 10:45 Uhr Torsten Vogel Als bevorzugte Quelle auf Google hinzufügen

Quelle: PC Games Hardware

In diesem Artikel

Als Intel Ende 2004 zusammen mit dem Sockel 775 den neuen PCI-Express-Standard im Desktop-Segment einführt, sind einige Leute zunächst irritiert. Der damals übliche AG-Port gilt als schnell genug für Grafikkarten, viele Anwender sehen in der neuen Schnittstelle keinen (Leistungs-)Vorteil. Ganz anders die Mainboard-Hersteller, denn wesentlich dringender als AGP muss der PCI-Bus abgelöst werden - dessen Bandbreite reicht für SATA- und Gigabit-LAN-Controller schon länger nicht mehr aus. Seit damals hat sich die Menge und Leistung von PCI-Express-Geräten stetig weiter entwickelt. Neben der quantitativen Steigerung, TR5-WRX90 bietet mittlerweile 144 Lanes, stehen vor allem weitere Geschwindigkeitsverdoppelungen auf dem Plan. PCI-Express 5.0 hat sich mittlerweile etabliert, Beispielimplementationen für 6.0 werden bereits öffentlich vorgeführt und auch die Konzepte für 7.0 sind weit fortgeschritten. Unverändert bleiben dabei mögliche Komplikationen aus User-Sicht - PCI-Express ist direkt oder als Grundlage für andere Schnittstellen flexibel einsetzbar. Weiterhin bedeutet dies auf vielen Mainboards, dass ein Anschluss mal ganz dynamisch gar nicht funktioniert, weil ein anderer in Verwendung ist. Diese Gestaltungsmöglichkeiten für Mainboard-Hersteller bestehen weitestgehend seit PCI-Express 1.0; parallel zu den aktualisierten Texten laden wir daher weiterhin zu unseren bestehenden Grundlagen-Videos ein.

Empfohlener redaktioneller Inhalt [EMBED_URL] An dieser Stelle finden Sie externe Inhalte von [PLATTFORM]. Zum Schutz Ihrer persönlichen Daten werden externe Einbindungen erst angezeigt, wenn Sie dies durch Klick auf "Alle externen Inhalte laden" bestätigen: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt. Mehr dazu in unserer Datenschutzerklärung.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

PCI-Express-Vorgeschichte: PCI

Quelle: PC Games Hardware Rund 20 Jahre brauchte PCI-Express um, den Vorgänger vollständig zu verdrängen. Das letzte Mainboard mit PCI in der PCGH-Redaktion war Biostars B550GTA. Der PCI-Bus war aus Anwendersicht übersichtlich: 32 parallele, durchgehende Datenleitungen verbanden alle Slots und, falls vorhanden, alle Onboard-Controller untereinander sowie mit dem Chipsatz. Bei Bedarf beanspruchte ein Endgerät die volle Bandbreite und sendete an alle anderen Bus-Teilnehmer. Für Mainboard-Hersteller wurde diese Architektur jedoch zum Problem. Jedes zusätzliche Gerät steigert die Komplexität des Leiterbahnen-Layouts, die Störungen auf den Signalleitungen und die Dämpfung an deren Enden. Schon das bestehende Leistungsniveau in komplexeren PCs beizubehalten, war schwierig. Versuche die Leistung mit PCI66 gegenüber den ursprünglichen 33 MHz zu verdoppeln, scheiterten am Markt; doppelt so viele Datenleitungen (PCI64 und PCI-X - nicht mit PCI-Express zu verwechseln) waren nur für Server bezahlbar.

PCI-Express-Grundlagen: Was ist eine Lane?

PCI-Express übernahm von PCI daher nur den Namen und die Steuerbefehle. Letztere garantieren 100-prozentige Softwarekompatibilität - ein altes Betriebssystem bemerkt nicht einmal, dass es mit einer physisch neuen Technik arbeitet. Letztere schafft bei PCI-Express zunächst die Datenübertragung mit Impulsen auf einzelnen Datenleitungen ab. Stattdessen kommen differenzielle Adernpaare zum Einsatz; die Information ist in der Spannungsdifferenz zwischen beiden Leitungen codiert. Externe Störungen, die beide Adern ähnlich beeinflussen, können so keine Phantom-Signale mehr verursachen. Auch die Parallelschaltung von Datenleitungen ist Geschichte - PCI-Express ist in sogenannte Lanes strukturiert, von denen jede Daten nur auf einem Adernpaar sendet oder empfängt. Bei dieser seriellen Datenübertragung kommen Bits unabhängig von der Leitungslänge immer in der ursprünglichen Reihenfolge beim Empfänger an, während paralleles PCI eine exakte Abstimmung der Laufzeit aller 32 Leitungen erforderte, damit gleichzeitig ausgesandte Daten auch gleichzeitig eintreffen. Bereits zum Start mit 1.0 konnte PCI-E so mit bis zu 2 GT/s getaktet werden, also 250 MB/s je Lane senden, während das 32-mal breitere und komplexere PCI nur 133 MB/s schaffte.

Hierzu trägt auch bei, dass PCI-E als Punkt-zu-Punkt-Verbindung im Dual-Simplex-Betrieb arbeitet. Es gibt also je Lane ein getrenntes Adernpaar zum Senden und eins zum Empfangen und diese führen jeweils nur zu einem Gegenpart. Die 250 MB/s von 1.0 respektive knapp 4 GB/s von 5.0 stehen also jederzeit uneingeschränkt zur Verfügung. PCI hingegen verbannt alle Endpunkte mit allen im Halbduplex-Verfahren: Je mehr Geräte im System waren, desto schwächer wurde der von jedem einzelnen empfange Signalpegel, vor jeder Datenübertragung musste bestimmt werden, wer gerade aktiv sein darf und diesem standen dann die 133 MB/s exklusiv zur Verfügung - alle anderen mussten warten.

PCI-Express-Anbindungen: ×1, ×2, ×4, ×8, ×16?

Quelle: PC Games Hardware Auf Endkunden-Mainboards eher selten zu sehen: Ein mechanischer ×4-Slot. Supermicro gab auf seinen "SuperO"-Platinen vorbildicher Weise auch genau an, mit wie vielen Lanes er angebunden ist und woher diese stammen. Oberhalb des physischen Lane-Niveaus ist PCI-Express in PCI-E-"Links" organisiert. Jeder Link verbindet dabei zwei Endgeräte und besteht im einfachsten Fall einfach aus einer Lane. Benötigt ein Endgerät mehr als die 250 MB/s (PCI-Express 1.0/1.1) bis 3.938 MB/s (5.0), so können auch mehrere Lanes innerhalb eines Links gebündelt werden. Ein Klassiker ist der ×16-Slot für Grafikkarten, der mit "PCI-Express for Graphics" (PEG) sogar einen eigenen Namen hat. Darunter gibt es ×8, was für Grafikkarten ausreicht und vor allem in Multi-GPU-Systemen genutzt wurde, das vor allem für PCI-Express-SSDs interessante ×4-Format, seltener ×2-Verbindungen und natürlich ×1-Links mit nur einer Lane, die über die Jahre hinweg den alten PCI-Bus als Standard für Zusatzcontroller(-karten) verdrängt haben. Zusätzlich wurden ein ×12- und, ein ×24 und ein ×32-Format spezifiziert, praktisch aber nicht oder kaum umgesetzt.

Auch bei den kombinierten Multi-Lane-Links handelt es sich aber weiterhin um serielle Schnittstellen. Jedes Datenpaket wird jeweils nur über eine Lane übertragen und seine Bits können nicht durcheinander geraten. Erst der Empfänger setzt dann die einzelnen Pakete anhand ihrer Identifizierungsnummern wieder zu einer größeren Datenstruktur zusammen. Mit der elektrischen Anbindung skaliert bei Erweiterungskarten die mechanische Ausführung der Slots; eine große Grafikkarte braucht ohnehin eine bessere Arretierung als ein USB-Controller. Der Anfang aller Slots ist aber einheitlich gestaltet, nur die Länge des hinteren Bereiches wächst mit der Zahl der Lanes. So kann eine ×1 Karte auch in jedem ×16-Slot betrieben werden.

Externe Inhalte Mehr dazu in unserer Datenschutzerklärung.

PCI-Express-Slots: Mechanisch? Elektrisch?

Die Gegenrichtung ist allerdings komplexer und einer der ersten PCI-E-Fallstricke. Man kann nämlich nur anwenderseitig eine ×1-Karte in einen ×16-Slot stecken, sondern auch Mainboard-seitig dessen Anbindung auf ×-1 beschränken und die restlichen Kontakte entweder weg- oder blind auf dem PCB enden lassen. Funktional, das heißt elektrisch, verhält er sich dann wie ein normaler, kurzer ×1. Mechanisch sieht er aber nach einem ×16 aus. Das ist durchaus praktisch, denn die flexible Link-Breite wird nicht nur von PCI-Express-Host-Controllern, also den Mainboards und CPUs, unterstützt, sondern auch von den Endgeräten. Eine ×16-Grafikkarte arbeitet auch in einem ×1-Steckplatz - nicht so schnell, dass man damit spielen möchte, aber gut genug für Fehlerdiagnosen ist diese Möglichkeit allemal. Voraussetzung ist aber, dass man sie mechanisch einsetzen kann und dass die Stromversorgung des Steckplatzes ausreichend dimensioniert ist (PEG: 75 W, ×1-Slots dürfen sich auch auf 25 W beschränken). Auf Endkunden-Mainboards werden daher meist alle Erweiterungs-Steckplätze mit zwei oder mehr Lanes und manchmal auch ×1er mechanisch als ×16 ausgeführt.

Dass dies die Vorhaltung verschiedener Bauteile erspart, eindrucksvoller aussieht und im Marketing als "×16-Slot" bezeichnet werden kann, ist aus Sicht der Hersteller dabei offensichtlich ein positiver Nebeneffekt. Als Käufer heißt es hier aufpassen: Nur wo explizit die Geschwindigkeit respektive Link-Breite eines Slots angegeben ist, kann man sich einigermaßen auf den suggerierten Datendurchsatz verlassen. Mainstream-Plattformen wie Sockel AM5 und 1700 können hierbei von sich aus maximal einen "echten" ×16-Slot bereitstellen - alle darüber hinausgehenden Versprechen sollten misstrauisch machen. Im Falle von AMDs AM5, aber allgemein auch bei Workstation-Plattformen, gibt es zudem CPU-abhängig unterschiedliche Ausbaustufen. Während Ryzen-7000-CPUs besagten ×16-Link bereitstellen, fehlen bei Ryzen-8000-APUs die Hälfte oder gar Dreiviertel der benötigen Controller. Hier stehen dem ×16-Interface der Grafikkarte also 16 Dual-Adernpaare auf dem Mainboard gegenüber, die in 16 Sets Kontakte im CPU-Sockel münden. Aber davon enden acht bis zwölf blind im Prozessor-Package; genau wie bei einem verkürzten Slot kommt also nur ein ×8-Link beziehungsweise ×4-Link zustande.

PCI-Express-Sharing: Splitter

Quelle: PC Games Hardware Sehr typisch: Eine regelmäßige Gruppe von vier Chips dieser Größe und Format in der unteren Boardhälfte ist meist eine Phalanx von PCI-Express-Splittern, die 8 Lanes eines Slots an einen anderen umleiten. Aber auch mit gleichbleibendem Prozessor kann auf wechselnde Anbindungen stoßen. Zwar kann eine PCI-Express-Lane nicht mehrere Geräte versorgen, aber man kann die Lane über elektrische Splitter mit verschiedenen Leiterbahnen verbinden. Auf High-End-Mainboards weiterhin anzutreffen sind beispielsweise zwei mechanische ×16-Slots mit "shared"-Anbindung. 8 Lanes der CPU werden permanent zum ersten Slot geführt, 8 weitere Lanes aber zu einer Gruppe aus meist 4 Splittern. Diese verbinden sie wahlweise mit den hinteren 8 Kontakt-Sets des ersten Slots, sodass dieser als normaler elektrischer ×16 arbeitet. In diesem Betriebsmodus bleibt der zweite Slot aber komplett ohne Anbindung und ist funktionslos. Möchte man ihn für eine weitere (Grafik-)Karte nutzen, so leiten die Splitter hierfür ihre 8 Lanes um. Der erste Slot läuft nun im ×8-Modus, der zweite ebenfalls.

Da ×8-Slots ausreichend schnell für Grafikkarten sind und Mainstream-CPUs nicht über zweimal 16 Lanes verfügen, war dies ein probates Mittel, um Crossfire- und SLI-Betrieb zu ermöglichen. Störend sind solche (in der Umsetzung teuren) Arrangements dagegen, wenn man eigentlich nur eine Soundkarte verbauen möchte: Die neuen Lane des oberen Slots und die erste des unteren konkurrieren nun einmal um den gleichen Controller-Ports und PCI-E-Links werden immer "am Stück" verwaltet. Es bleibt also beim ×8/×8-Split, auch wenn das zweite Gerät gar keine acht Lanes braucht. Noch störender wird dies bei ×1-Links. Auch diese können umgeleitet werden, naturgemäß halbiert sich dabei aber nicht die Geschwindigkeit am ursprünglichen Zielort, sondern dieser wird ganz abgeschaltet. Weit verbreitet sind beispielsweise Verknüpfungen von PCI-E-basierten M.2-Slots und SATA-Anschlüssen: Verbaut man eine NVME-SSD in ersterem, wird ein Teil letzterer (bis zu vier Stück, je nach Board) deaktiviert. Diese Flexibilität ist natürlich toll, wenn man mittelfristig verbliebene SATA-Laufwerke durch M.2-Pendants ersetzen möchte, ohne ein neues oder von Anfang an ein teureres Mainboard zu kaufen. Man sollte vor der Anschaffung aber genau prüfen, ob die gleichzeitig benötigten Funktionen auch tatsächlich gleichzeitig genutzt werden können, denn alle Link-Geschwindigkeiten werden in den ersten Sekunden nach dem Einschalten des Systems ausgehandelt. Ein dynamischer Wechsel im laufenden Betrieb ist nicht möglich.

PCI-Express-Vervielfältigung: Switches

An dieser Stelle sei kurz ein Sonderfall erwähnt, der sich bis in PCI-E-3.0-Zeiten auf Mainboards (weit) jenseits der 300-Euro-Klasse fand, heute aber nur noch in Servern genutzt wird. Neben oben genannten Splittern, die oft auch als "Switches" (von engl. "Schalter") bezeichnet werden, gibt es nämlich auch PCI-Express-Switches, deren Funktion an Netzwerk-Switches erinnert. Diese werden nicht einfach in einen PCI-Express-Link eingeklinkt, sondern sie bauen selbst mehrere davon auf. So kann ein teurer 48-Port-PLX-Switch, gleichzeitig eine ×16-Verbindung zur CPU und je eine ×16-Verbindung zu zwei GPUs unterhalten. Die CPU sendet Daten dann einmalig mit zwei Empfängeradressen zwecks Weiterleitung an den Switch und GPU1 spricht ohne Belästigung der knappen CPU-Ressourcen mit GPU2 - in vielen Szenarien wurde die Zahl der effektiv zur Verfügung stehenden Lanes verdoppelt.

Noch nützlicher sind Switches bei kleineren Endgeräten. Viele davon brauchen die volle Transferrate eines ×1-Links nie oder nur in größeren Abständen. Relativ günstige 1-auf-4-Switch von AS Media ermöglichten es auf etlichen Oberklasse-Mainboards, dass sich mehrere LAN-Controller oder ×1-Slots eine der knappen Lanes teilten, ohne dass es zu Leistungsverlusten kam. Immer besser ausgestattete I/O-Hubs, auf AMD-Plattformen oft von AS Media selbst konstruiert, übernehmen diese Funktion mittlerweile auf den meisten Platinen.