Rubin + Helios: Neue GPU-Plattformen von NVIDIA und AMD Rubin + Helios: Neue GPU-Plattformen von NVIDIA und AMD

Früher bedeutete eine neue GPU eine schnellere Karte und lautere Lüfter. Im Jahr 2026 spielt sich das eigentliche GPU-Drama in Rechenzentren ab: Reihen von Racks, ein ernstzunehmendes Kühlkonzept und Stromkabel, die so dick wirken, als gehörten sie in ein Umspannwerk. Dort kommen NVIDIAs Rubin-GPU-Plattform und AMDs rackskalige KI-Plattform Helios an — zwei Namen, die wie Raumfahrtprojekte klingen, in Wahrheit aber Systemdesigns sind, um KI im großen Maßstab zu bauen und zu betreiben.

Beide Unternehmen treiben dieselbe Idee voran: Ein einzelner Chip reicht nicht mehr. Ein modernes KI-System braucht eine GPU, einen CPU-Partner, schnelle Verbindungen zwischen GPUs im Rack, schnelles Networking zwischen Racks und Software, die alles monatelang auslastet. NVIDIA nennt das extremes “Co-Design” auf Rack-Ebene. AMD beschreibt Helios als offene, OCP-ausgerichtete Rack-Architektur, die mit Partnern aufgebaut wird.

Warum “GPU-Plattformen” die “eine GPU” ablösen

Die größten KI-Modelle von heute stoßen an Grenzen, die nicht einfach “mehr Kerne” heißen. Drei Beschränkungen tauchen immer wieder auf:

1) Speicher ist König. Das Training und der Betrieb (Serving) moderner Modelle benötigen enorme Speicherkapazität und -bandbreite. Deshalb gewinnt HBM (High Bandwidth Memory) weiter an Bedeutung.

2) Kommunikation entscheidet über die Geschwindigkeit. Viele aktuelle Workloads, insbesondere Mixture-of-Experts-(MoE)-Modelle, sind darauf angewiesen, dass GPUs schnell und vorhersagbar miteinander kommunizieren. MoE-Modelle “routen” Token zu verschiedenen Experten. Dieses Routing erzeugt viel GPU-zu-GPU-Verkehr. Ist der Interconnect schwach, warten teure GPUs im Leerlauf.

3) Kosten pro Token und Energieverbrauch zählen. Die Inferenz explodiert. Die Frage lautet nicht länger “Wie schnell ist eine einzelne GPU?”, sondern “Wie viele nützliche Token bekomme ich pro Watt und pro Euro?” Eine Plattform, die die Kosten pro Token senkt, kann Cloud-Preise, Modellgrößen und sogar die Produktstrategie verändern.

Also verkaufen sowohl NVIDIA als auch AMD Systeme, in denen ein Rack wie ein einziger riesiger Computer agiert. Die “Plattform” umfasst jetzt die Rechenchips plus das Fabric (Scale-up im Rack und Scale-out zwischen Racks) sowie Sicherheits- und Zuverlässigkeitsfunktionen, die die Maschine am Laufen halten.

Darum fühlen sich Rubin und Helios anders an als frühere Launches. Es geht weniger um “neue GPU-Karten” und mehr um “neue Rechenzentrums-Bausteine”.

NVIDIA Rubin GPU-Plattform 2026: Spezifikationen, Zeitplan und Schlüsselmerkmale

NVIDIA positioniert Rubin als Nachfolger von Blackwell, aufgebaut um rackskalige Systeme wie die Vera Rubin NVL72 (und kleinere HGX-Systeme). NVIDIA beschreibt Rubin als eine Sechs-Chip-Plattform, die auf Rack-Ebene gemeinsam entworfen wurde: die Vera-CPU, die Rubin-GPU, der NVLink-6-Switch, die ConnectX-9 SuperNIC, die BlueField-4 DPU und Spectrum-Ethernet-Switches.

Diese “Sechs-Chip”-Liste ist keine Dekoration. NVIDIA sagt: Das Rack ist das Produkt. Die GPU ist der Star, aber die Nebendarsteller erledigen die harte Arbeit, sie mit Daten zu versorgen, Ergebnisse zu bewegen und das System sicher zu halten.

Rubins großes Versprechen: Niedrigere Kosten pro Token, besonders für MoE und “Reasoning AI”

NVIDIA sagt, Rubin zielt auf agentische KI, fortgeschrittenes Reasoning und großskalige MoE-Inferenz. In seiner Launch-Kommunikation behauptet NVIDIA, Rubin könne bis zu 10x niedrigere Inferenzkosten pro Token als Blackwell liefern und bestimmte MoE-Modelle mit 4x weniger GPUs trainieren als die vorherige Plattform.

Das sind große Ansprüche, und die Ergebnisse in der Praxis hängen vom Modell und der Software ab. Dennoch ist die Richtung klar: Rubin ist darauf ausgelegt, das gesamte Rack effizienter zu machen, nicht nur eine einzelne Benchmark zu gewinnen.

Transformer Engine und NVFP4: Effizienzjagd ohne Genauigkeitsverlust

Auf seiner Rubin-Plattformseite hebt NVIDIA eine neue Transformer Engine mit hardwarebeschleunigter adaptiver Kompression hervor, um die NVFP4-Performance bei gleichbleibender Genauigkeit zu steigern. NVIDIA erklärt außerdem, Rubin könne bis zu 50 PetaFLOPS NVFP4-Inferenz erreichen.

Warum der Fokus auf Formate wie FP4? Weil Inferenz oft durch die Wirtschaftlichkeit begrenzt ist. Wenn sich Rechen- und Speicherkosten pro Token senken lassen, kann man mehr Nutzer bedienen, größere Kontextfenster fahren oder die Latenz niedrig halten, ohne ein weiteres Rack zu kaufen.

Scale-out-Networking: Wenn ein Rack nicht genügt

Ein einzelnes Rack kann leistungsfähig sein, doch große KI-Cluster müssen viele Racks verbinden. In NVIDIAs CES-Präsentation umfasst der Rubin-Plattform-Stack Spectrum-X Ethernet Photonics für Scale-out-Networking sowie ConnectX-9 und BlueField-4.

Das verweist auf einen zentralen Trend: Netzwerkkapazität und Latenz sind inzwischen Teil der GPU-Plattform. Die Datenbewegung zwischen Racks kann genauso viel kosten (an Zeit und Energie) wie das Rechnen selbst.

Zeitplan und Signale zur Einführung

Auf der CES 2026 sagte NVIDIA, Rubin befinde sich in voller Produktion, mit Partnerprodukten, die in der zweiten Jahreshälfte 2026 erwartet werden.
Reuters berichtete zudem, dass NVIDIAs mehrjähriger Liefervertrag mit Meta Blackwell- und zukünftige Rubin-AI-Chips sowie Grace- und Vera-CPUs umfasst.
Wenn Hyperscaler um eine Plattform herum planen, bedeutet das meist: Die Plattform wird real — und zwar bald.

AMD Helios Rack-Scale-KI-Plattform: MI450/MI455X, UALink und Zeitplan

Helios ist AMDs Antwort auf rackskalige KI, wird aber von AMD anders vermarktet. AMD beschreibt Helios als ein offenes, OCP-ausgerichtetes Rack-Design, das auf Spezifikationen basiert, die von Meta beim Open Compute Project eingereicht wurden. AMD gibt an, Helios werde als Referenzdesign an OEM/ODM-Partner ausgegeben; der breite Rollout wird 2026 erwartet.

Anders ausgedrückt: Helios soll von vielen Systemherstellern kopiert, angepasst und gebaut werden — nicht nur als ein streng kontrollierter Stack.

Helios in der Praxis: die Meta-Bereitstellung und Maßstab Gigawatt

Am 24. Februar 2026 gaben AMD und Meta eine endgültige Partnerschaft bekannt, um über mehrere Generationen hinweg bis zu 6 Gigawatt AMD-Instinct-GPUs zu deployen. AMD sagte, dass Lieferungen für die erste Gigawatt-Bereitstellung in der zweiten Jahreshälfte 2026 beginnen sollen, angetrieben von einer kundenspezifischen Instinct-GPU auf Basis der MI450-Architektur und 6. Gen EPYC “Venice”-CPUs mit ROCm, gebaut auf Helios.

“GPU-Bereitstellung im Gigawatt-Maßstab” signalisiert, dass dieser Markt die Hobbyphase hinter sich gelassen hat.

Offenheit und Interconnect: UALink, plus die “ersten Schritte”

Ein rackskaliges System ist nur so gut wie sein Scale-up-Fabric. Helios ist mit der Idee offener Interconnects wie UALink verknüpft, doch Berichte deuten darauf hin, dass frühe Helios-Systeme zunächst UALink über Ethernet nutzen könnten, während natives UALink später hochfährt.

Für Käufer können offene Links die Herstellerbindung verringern. Für AMD ist das eine große Ökosystemaufgabe: Hardware, Switching und Software müssen gleichzeitig reifen.

Was wir über Rack-Dichte und Leistungsziele wissen

Unabhängige Berichte beschreiben Helios als sehr dichtes Rack-Design. Tom’s Hardware berichtet, dass Helios-Racks 72 Instinct MI455X-Beschleuniger mit rund 31 TB HBM4 aufnehmen können, mit Zielwerten von etwa 2,9 FP4-ExaFLOPS für Inferenz und 1,4 FP8-ExaFLOPS für Training (mit dem Hinweis auf UALink über Ethernet in frühen Maschinen).

The Next Platform hat ebenfalls über Helios-Rack-Konfigurationen und Bandbreitenzahlen im großen Maßstab berichtet.

Diese Zahlen werden je nach final ausgelieferten Systemen variieren, zeigen aber, dass AMD auf dasselbe “AI factory”-Niveau zielt wie NVIDIAs Rack-Systeme.

Die Partnerstrategie: Indien, Systemanbieter und ein Ökosystem-Ansatz

AMD treibt Helios über Partnerschaften voran. Im Februar 2026 kündigte AMD die Zusammenarbeit mit Tata Consultancy Services (TCS) rund um ein Helios-basiertes rackskaliges KI-Infrastrukturdesign für Deployments in Indien an.

Und Helios hält Einzug in die kommerzielle Serverwelt: Tom’s Hardware berichtete, dass HPE 2026 Helios-basierte Systeme weltweit verfügbar machen wollte.

Das ist ein klassischer AMD-Schachzug: mit Partnerschaften, Standarddesigns und vielen Marktzugängen gewinnen.

Rubin vs. Helios: der kurze, nützliche Vergleich

Beide Plattformen sind für dieselbe Realität gebaut: KI wird heute durch Speicher, Networking und die Effizienz des Gesamtsystems begrenzt. Daher steht bei beiden das Rack an erster Stelle.

Die interessanten Unterschiede betreffen den Weg dorthin:

  • NVIDIA Rubin = extreme Integration. NVIDIA betont Codesign über sechs Chips hinweg und forciert NVLink 6 als zentrales Rack-Fabric.
  • AMD Helios = offene Rack-Architektur. AMD betont OCP-Ausrichtung, Referenzdesigns und ein Ökosystem, das Helios-ähnliche Racks auf unterschiedliche Weise bauen kann.

Für viele Käufer werden die Entscheidungsfaktoren weniger poetisch sein:

  • Software-Reibung: Reifegrad von CUDA vs. ROCm für Ihre spezifischen Modelle und Bibliotheken.
  • Netzwerkbereitschaft: NVLink 6 ist NVIDIAs etablierter Pfad; AMDs offene Interconnect-Pläne sind vielversprechend, hängen aber vom Timing des Ökosystems ab.
  • Lieferung und Verfügbarkeit: Wenn das komplette Rack nicht rechtzeitig zu bekommen ist, wird die beste Roadmap zu einem sehr teuren PDF.

Spielt das eine Rolle, wenn Sie kein Hyperscaler sind?

Ja, auch wenn Sie nie ein Rack mit 72 GPUs besitzen werden (und es bevorzugen, dass Ihr Gebäude auf dem Boden bleibt). Rubin und Helios werden die Cloud-Dienste prägen, die viele Teams täglich nutzen.

Wenn Rechenzentren effizienter werden, kann Cloud-KI günstiger oder leistungsfähiger werden. Das kann größere Kontextfenster, schnellere Antworten oder stärker spezialisierte Modelle in realen Produkten bedeuten. Es kann auch mehr Wettbewerb zwischen Cloud-Anbietern bedeuten, weil es endlich mehr ernstzunehmende Hardwareoptionen im großen Maßstab gibt.

Es gibt auch einen “Trickle-down”-Effekt. Rechenzentrumsplattformen beeinflussen häufig zukünftige Enterprise-Server, Workstation-Funktionen und mit der Zeit manchmal sogar Ideen für Consumer-GPUs. Sie sollten nächste Woche keine “Rubin-Gaming-Karte” erwarten, aber Sie können davon ausgehen, dass das Plattformrennen Dinge wie bessere Speichertechnologien, besseres Interconnect-Denken und reifere KI-Software-Stacks vorantreibt.

Selbst wenn Rubin und Helios in der Cloud leben, werden die Auswirkungen auf Ihrem Bildschirm sichtbar.

Fazit

Rubin und Helios zeigen, dass sich GPUs zu vollständigen Plattformen entwickeln: Compute + Speicher + Fabric + Sicherheit + Software. Der Wettbewerb lautet nicht mehr “wessen Chip ist schneller”, sondern “wessen Rack bleibt ausgelastet, bleibt sicher und bleibt bezahlbar”.

NVIDIA Rubin setzt auf tiefe Integration, NVLink-Scale-up-Bandbreite und einen eng abgestimmten Sechs-Chip-Stack. AMD Helios setzt auf Offenheit, OCP-Designs und sehr große Partnerbereitstellungen, gemessen in Gigawatt.

Die Namen klingen immer noch wie ein Sci-Fi-Staffelfinale. Dieser Teil mag Marketing sein. Der Plattformwechsel nicht.

Weitere Beiträge des Autors

Anthropics Claude Mythos: Ist das Modell zu riskant für eine öffentliche Freigabe?
Artikel
Anthropics Claude Mythos: Ist das Modell zu riskant für eine öffentliche Freigabe?
Claude Mythos Preview ist Anthropics bislang umstrittenste KI-Veröffentlichung. Erfahren Sie, warum sie eingeschränkt ist, was sie kann und warum Aufsichtsbehörden und Banken darauf achten.
Was 81,000 Menschen Anthropic gesagt haben, was sie sich von KI wünschen
Artikel
Was 81,000 Menschen Anthropic gesagt haben, was sie sich von KI wünschen
Anthropic hat 80.508 Interviews mit KI-Nutzern in 159 Ländern analysiert, um zu erfahren, was Menschen von KI wollen, was sie beunruhigt und wo die heutigen Tools noch nicht ausreichen.
Claude Code vs. Codex: Warum KI-Programmieragenten überall sind
Artikel
Claude Code vs. Codex: Warum KI-Programmieragenten überall sind
Claude Code vs. Codex: Vergleichen Sie Funktionen, Arbeitsabläufe, Sicherheit und Anwendungsfälle und sehen Sie, warum KI‑Programmierassistenten plötzlich überall sind.
Zuverlässige KI weiß, wann sie sagen muss: „Das ergibt keinen Sinn“
Artikel
Zuverlässige KI weiß, wann sie sagen muss: „Das ergibt keinen Sinn“
BullshitBench zeigt, warum eine verlässliche KI fehlerhafte Prämissen erkennen muss – und nicht nur flüssige Antworten erzeugen darf. Ein Blick auf KI‑Zuverlässigkeit, Widerspruch und die Erkennung falscher Prämissen.