Tensordyne Napier: Beast Mode gegen Nvidias KI-Dominanz
Das US-deutsche KI-Start-up Tensordyne stellt mit Napier ein Inferenz-System vor, das aktuelle Nvidia-Hardware um den Faktor 17 bei der Effizienz schlagen soll. Die Werte beruhen auf Projektionen, Systeme folgen erst ab Mitte 2027
Der Markt für KI-Inferenz wächst rasant, und mit ihm die Zahl der Herausforderer, welche Nvidia die dominante Stellung in den KI-Rechenzentren jetzt streitig machen wollen. Das Start-up Tensordyne reiht sich nun mit einem ungewöhnlichen Ansatz ein: logarithmischer Mathematik statt klassischer Gleitkomma-Rechnung. Wer die aktuelle Beschleuniger-Generation von Nvidia als Vergleichsmaßstab einordnen möchte, findet sämtliche Informationen dazu in unserer Berichterstattung zu Nvidia Vera Rubin.
Tensordyne greift Nvidias Dominanz bei der KI-Inferenz an
Tensordyne hat mit Napier ein komplettes Inferenz-System für KI-Rechenzentren vorgestellt und dafür den Tape-out des hauseigenen Chips bei TSMC abgeschlossen, welcher unter der Bezeichnung "TDN AIP" firmiert. Das US-Unternehmen mit Sitz im kalifornischen Sunnyvale und in München lässt seinen KI-Beschleuniger in 3 nm fremdfertigen, wofür der N3P-Prozess von TSMC zum Einsatz kommt.
Quelle: Tensordyne
Tensordyne Napier: Bis zu 288 KI-Beschleuniger liefern bis zu 608 PetaFLOPS.
Den Codenamen Napier trägt die erste Generation passend zum Rechenprinzip: John Napier gilt als Erfinder des Logarithmus. Die offizielle Ankündigung verspricht bis zu 17-mal mehr Tokens pro Watt und die 13-fache Tokenrate gegenüber Nvidias Blackwell-Systemen. Ein Vergleich zu Vera Rubin steht indes noch aus.
Logarithmische Mathematik: Rechenprinzip hinter TDN Math
Statt Zahlen im Gleitkommaformat darzustellen, rechnet Tensordyne logarithmisch und ersetzt damit einen Großteil der sehr teuren Multiplikationen durch simple Additionen. Grundlage ist die Rechenregel log(A×B) = log(A) + log(B).
Quelle: Tensodyne
Tensordyne Napier: Das Ökosystem aus TDN AIP, TDN Pod und TDN Rack zielt auf Nvidia.
Da KI-Modelle ihre Rechenzeit überwiegend in Matrixmultiplikationen verbringen, sinkt der Transistorbedarf der KI-Recheneinheiten, und der frei werdende Platz wandert in SRAM und Tensor-Logik. Den eigentlichen "Knackpunkt" bildet die Addition, die im logarithmischen Raum aufwendiger wird. Genau deren "effiziente Behandlung" beansprucht Tensordyne als proprietäres Know-how und gibt eine enorme Genauigkeit von 99,9 Prozent+ gegenüber den Ausgangsmodellen an.
TDN AIP: 3-nm-Chip im Detail
Der TDN AIP vereint 138 Milliarden Transistoren auf einem bei TSMC in N3P gefertigten Die und begnügt sich dabei mit 300 Watt TDP. Jeder Beschleuniger trägt 256 MiB SRAM mit 40 TB/s sowie 144 GiB HBM3e mit 4,7 TB/s und erreicht eine Rechenleistung von 2,1 PetaFLOPS bei Dense FP8.
Quelle: Tensordyne
Tensordyne TDN AIP: 2,1 PetaFLOPS ("Dense FP8") für KI-Inferencing bei einer TDP von 300 Watt.
Tensordyne nutzt nach eigenen Angaben einen weiterentwickelten SRAM-Prozess bei TSMC und kommt damit auf ein Verhältnis von Rechenfläche zu SRAM von rund 1:1. Die technischen Spezifikationen zu Speicher, Bandbreite und Datenformaten hat Tensordyne auf seiner Silicon-Übersicht zusammengefasst.
Vom Compute Tray zum Napier-Rack
Ein Napier-Rack bündelt 288 KI-Beschleuniger zu 608 PetaFLOPS, 42 TiB HBM3e und 74 GiB SRAM und lässt sich laut Tensordyne luftgekühlt bei 120 Kilowatt betreiben. Kleinste Fertigungseinheit ist das Compute Tray mit neun TDN-AIP-Chips, 8 TiB NVMe-SSD, zwei Ethernet-Anschlüssen mit jeweils 200 Gbit/s und einem Hauptprozessor alias Intel Xeon als Host für die Runtime-API.
Acht dieser Trays ergeben einen TDN72-Pod mit 72 Chips, vier Pods bilden das vollständige Rack. Für die Kommunikation der Beschleuniger setzt das Unternehmen auf den eigenen TDN Link mit 1 TB/s bidirektionaler Bandbreite bei einer Latenz von rund 1 µs, das gesamte Scale-up-Netzwerk soll 275 TB/s erreichen.
TDN72 gegen Nvidia NVL72: Tensordyne verspricht viel
Tensordyne verspricht im Vergleich zu Nvidias NVL72 ("Grace Blackwell"):
17 Mal mehr Tokens pro Watt, 13 Mal mehr Tokens pro Sekunde und bis zu 33 Millionen US-Dollar mehr Jahresumsatz pro Rack, oder noch etwas drastischer ausgedrückt: "Silicon for Beast-Mode Performance".
Quelle: Tensordyne
Als Referenz dient das Modell DeepSeek-R1: Hier nennt der Hersteller 363.000 Tokens pro Sekunde je Rack für das TDN72 gegenüber 27.400 beim GB300 NVL72 aus dem Hause Nvidia. Hochgerechnet auf ein KI-Rechenzentrum sollen für eine Milliarde Tokens pro Sekunde nur 350 TDN-Racks mit 30 Megawatt nötig sein anstatt entsprechend 2.000 GB300-Racks mit 240 Megawatt.
Bei einem Modell mit zwei Billionen Parametern beziffert Tensordyne den Preis auf elf US-Dollar je Million Tokens, während die Nvidia-Konfiguration aus neun Racks mit rund 150 US-Dollar zu Buche schlage. Wie hoch der Anschaffungspreis bei Nvidia ausfällt, zeigt unsere Analyse zum Vera-Rubin-Server-Rack.
Prefill und Decode: zwei Lasten, eine Hardware
Inferenz zerfällt in zwei Phasen mit gegensätzlichem Anforderungsprofil, die Tensordyne nach eigenen Angaben beide auf derselben Hardware bedient:
Im rechenintensiven Prefill verarbeitet das Modell den gesamten Prompt auf einmal und baut den Key-Value-Cache auf, eine gut parallelisierbare Aufgabe für Hardware mit hohem Durchsatz. Das anschließende Decode erzeugt die Antwort Token für Token und hängt damit vor allem an Latenz und Speicherzugriff.
Nvidia adressiert beide Phasen bislang getrennt, künftig mit Vera Rubin für das Prefill und Groq-LPUs für das Decode, AWS kombiniert eigene Trainium-Chips mit Cerebras. Tensordyne will diese Trennung vor zwei Jahren vorausgesehen und den TDN AIP für beide Lasten ausgelegt haben.
SDK ohne CUDA-Modus
Tensordyne liefert ein eigenes SDK, das Modelle von Hugging Face sowie PyTorch- und Triton-Code übersetzt, einen CUDA-Modus gibt es ausdrücklich nicht. Auch bereits feingetunte Modelle können überführt werden, notfalls übernimmt eine KI die Anpassung des Codes.
Die Hürde beim Umstieg auf neue Beschleuniger liegt erfahrungsgemäß weniger in der Rohleistung als im Software-Ökosystem, das Nvidia mit CUDA über Jahre aufgebaut hat.
Standort München: die deutschen Wurzeln von Tensordyne
Tensordyne unterhält neben dem Hauptsitz in Sunnyvale einen zweiten Standort in München und ging 2017 aus dem unter dem Namen Recogni gegründeten Chipentwickler hervor. 2024 erfolgten Umbenennung und Neuausrichtung vom reinen Chiplieferanten zum Anbieter kompletter Inferenzsysteme.
Im Chipdesign arbeitet das Unternehmen mit Broadcom zusammen, für Scale-up-Netzwerk und Gehäuse mit HPE und Juniper. Damit ist der KI-Inferenz-Vorstoß zu nennenswerten Teilen auch ein deutsches Projekt.
Marktstart Mitte 2027: Versprechen unter Vorbehalt
Erste fertige Napier-Systeme stellt Tensordyne erst für Mitte 2027 in Aussicht, die Eckdaten beruhen bislang ausschließlich auf Simulationen und Projektionen. Bis dahin liefert Nvidia die Vera-Rubin-Plattform aus, und AMD tritt mit der Instinct MI450 in 2 nm an, während Tensordyne noch auf 3 nm setzt.
Hinzu kommen Amazon, Cerebras und Google als Wettbewerber. Mit echter Hardware lassen sich die Zahlen also erst vergleichen, wenn die Konkurrenz eine Generation weiter ist. Untermauert wird der Anspruch derzeit durch mehr als ein Dutzend Absichtserklärungen und eine prognostizierte Nachfrage von über 200 Millionen US-Dollar, eine Series-D-Finanzierung soll noch in diesem Jahr folgen.
Ob die logarithmische Rechnung am Ende aufgeht, entscheidet sich somit nicht im Datenblatt, sondern Mitte 2027 im Rechenzentrum.
Mitmachen und kommentieren
Wie stehen Sie zu diesem Thema? Die PCGH-Redaktion freut sich schon über Ihre Meinung in den Kommentaren zu dieser Meldung. Sollten Sie hingegen noch keinen Extreme-Account haben, laden wir Sie zu einer Registrierung im Forum ein. Beachten Sie beim Kommentieren aber bitte die gültigen Forenregeln. Folgen Sie gerne PCGH bei 🔈 YouTube oder 💬 WhatsApp und erhalten Sie Neuigkeiten zu CPUs, Grafikkarten und Gaming direkt in Ihrem Feed.
Quelle: Tensordyne via Heise
