Rubin + Helios : Nouvelles plateformes GPU de NVIDIA et d’AMD Rubin + Helios : Nouvelles plateformes GPU de NVIDIA et d’AMD

Autrefois, un nouveau GPU signifiait une carte plus rapide et des ventilateurs plus bruyants. En 2026, le vrai feuilleton des GPU se joue dans les centres de données : des rangées de baies, un plan de refroidissement sérieux, et des câbles d’alimentation assez épais pour sembler appartenir à un poste électrique. C’est là qu’arrivent la plateforme GPU Rubin de NVIDIA et la plateforme IA Helios à l’échelle du rack d’AMD — deux noms qui sonnent comme des projets spatiaux, mais qui sont en réalité des conceptions de systèmes pour construire et faire tourner l’IA à très grande échelle.

Les deux entreprises défendent la même idée : une seule puce ne suffit plus. Un système d’IA moderne a besoin d’un GPU, d’un partenaire CPU, de liaisons rapides entre GPU à l’intérieur du rack, d’un réseau rapide entre racks, et d’un logiciel qui maintient le tout occupé pendant des mois. NVIDIA appelle cela une co-conception poussée au niveau du rack. AMD présente Helios comme une architecture de rack ouverte, alignée sur l’OCP, construite avec des partenaires.

Pourquoi les “plateformes GPU” remplacent “un GPU”

Les plus grands modèles d’IA actuels atteignent des limites qui ne se résument pas à « plus de cœurs ». Trois contraintes reviennent sans cesse :

1) La mémoire est reine. L’entraînement et le service des modèles modernes exigent une capacité et une bande passante mémoire immenses. C’est pourquoi la HBM (mémoire à large bande passante) prend de plus en plus d’importance.

2) La communication détermine la vitesse. De nombreuses charges actuelles, en particulier les modèles mixture-of-experts (MoE), dépendent d’échanges rapides et prévisibles entre GPU. Les modèles MoE « acheminent » les jetons vers différents experts. Cet acheminement génère beaucoup de trafic GPU-à-GPU. Si l’interconnexion est faible, des GPU coûteux restent inactifs.

3) Le coût par jeton et la puissance comptent. L’inference explose. La question n’est plus « Quelle est la vitesse d’un GPU ? » mais « Combien de jetons utiles ai-je par watt et par euro ? ». Une plateforme qui réduit le coût par jeton peut changer les prix du cloud, les choix de taille de modèle et même la stratégie produit.

Ainsi, NVIDIA et AMD vendent des systèmes où un rack se comporte comme un géant ordinateur unique. La « plateforme » inclut désormais les puces de calcul plus le tissu d’interconnexion (scale-up à l’intérieur du rack et scale-out entre les racks), ainsi que des fonctions de sécurité et de fiabilité qui maintiennent la machine en fonctionnement.

C’est pourquoi Rubin et Helios diffèrent des anciens lancements. Ils ressemblent moins à de « nouvelles cartes GPU » qu’à de « nouveaux blocs de construction pour centres de données ».

Plateforme GPU NVIDIA Rubin 2026 : spécifications, fenêtre de lancement et fonctionnalités clés

NVIDIA positionne Rubin comme le successeur de Blackwell, conçu autour de systèmes à l’échelle du rack tels que le Vera Rubin NVL72 (et des systèmes HGX plus petits). NVIDIA décrit Rubin comme une plateforme à six puces conçues ensemble au niveau du rack : le CPU Vera, le GPU Rubin, le commutateur NVLink 6, la SuperNIC ConnectX-9, la DPU BlueField-4 et des commutateurs Ethernet Spectrum.

Cette liste « six puces » n’est pas décorative. NVIDIA dit : le rack est le produit. Le GPU est la vedette, mais les composants d’accompagnement font le travail difficile d’alimentation en données, de circulation des résultats et de sécurisation du système.

La grande promesse de Rubin : un coût par jeton plus faible, surtout pour les MoE et l’“IA de raisonnement”

NVIDIA affirme que Rubin cible l’IA agentique, le raisonnement avancé et l’inference MoE à grande échelle. Dans son discours de lancement, NVIDIA annonce que Rubin peut fournir jusqu’à 10x de réduction du coût d’inference par jeton par rapport à Blackwell, et peut entraîner certains modèles MoE avec jusqu’à 4x moins de GPU que la plateforme précédente.

Ce sont de grandes promesses, et les résultats réels dépendront du modèle et du logiciel. La direction reste claire : Rubin est conçu pour rendre l’ensemble du rack plus efficace, pas seulement pour gagner un benchmark.

Transformer Engine et NVFP4 : traquer l’efficacité sans perdre en précision

Sur la page de la plateforme Rubin, NVIDIA met en avant un nouveau Transformer Engine avec compression adaptative accélérée par le matériel afin d’améliorer les performances NVFP4 tout en préservant la précision. NVIDIA indique également que Rubin peut atteindre jusqu’à 50 petaFLOPS d’inference NVFP4.

Pourquoi se concentrer sur des formats comme le FP4 ? Parce que l’inference est souvent limitée par l’économie. Si vous pouvez réduire le coût de calcul et de mémoire par jeton, vous pouvez servir plus d’utilisateurs, faire tourner de plus grandes fenêtres de contexte, ou maintenir une faible latence sans acheter un autre rack.

Mise à l’échelle réseau (scale-out) : quand un seul rack ne suffit pas

Un seul rack peut être puissant, mais les grands clusters d’IA doivent relier de nombreux racks. Dans la présentation CES de NVIDIA, la pile de la plateforme Rubin inclut Spectrum-X Ethernet Photonics pour la mise à l’échelle réseau, ainsi que ConnectX-9 et BlueField-4.

Cela pointe une tendance clé : la puissance et la latence réseau font désormais partie de l’équation de la plateforme GPU. Les déplacements de données entre racks peuvent coûter autant (en temps et en énergie) que le calcul lui-même.

Calendrier et signes d’adoption

Au CES 2026, NVIDIA a déclaré que Rubin est en pleine production, avec des produits partenaires attendus au second semestre 2026.
Reuters a également rapporté que l’accord pluriannuel de NVIDIA pour fournir Meta inclut Blackwell et de futurs puces IA Rubin, ainsi que les CPU Grace et Vera.
Quand les hyperscalers planifient autour d’une plateforme, cela signifie généralement que la plateforme sera réelle — et bientôt.

Plateforme IA à l’échelle du rack AMD Helios : MI450/MI455X, UALink et calendrier

Helios est la réponse d’AMD à l’IA à l’échelle du rack, mais AMD la présente avec un style différent. AMD cadre Helios comme une conception de rack ouverte, alignée sur l’OCP, reposant sur des spécifications soumises par Meta à l’Open Compute Project. AMD indique que Helios est publiée comme une conception de référence destinée aux partenaires OEM/ODM, avec un déploiement en volume attendu en 2026.

En d’autres termes : Helios est conçue pour être copiée, adaptée et construite par de nombreux fabricants de systèmes — pas seulement comme une pile strictement contrôlée.

Helios dans le monde réel : le déploiement chez Meta et l’échelle du gigawatt

Le 24 février 2026, AMD et Meta ont annoncé un partenariat définitif pour déployer jusqu’à 6 gigawatts de GPU AMD Instinct sur plusieurs générations. AMD a déclaré que les expéditions pour le premier déploiement d’un gigawatt devraient commencer au second semestre 2026, propulsé par un GPU Instinct personnalisé basé sur l’architecture MI450 et des processeurs EPYC « Venice » de 6e génération exécutant ROCm, le tout bâti sur Helios.

« Déploiement de GPU à l’échelle du gigawatt » indique que ce marché a quitté la phase du bricolage.

Ouverture et interconnexion : UALink, et les “premiers pas”

Un système à l’échelle du rack ne vaut que par son tissu d’interconnexion interne (scale-up). Helios est lié à l’idée d’interconnexions ouvertes comme UALink, mais certaines couvertures suggèrent que les premiers systèmes Helios pourraient utiliser UALink sur Ethernet d’abord, avec un UALink natif qui montera en puissance plus tard.

Pour les acheteurs, des liens ouverts peuvent réduire le verrouillage fournisseur. Pour AMD, c’est un grand chantier écosystémique : le matériel, la commutation et le logiciel doivent tous mûrir en même temps.

Ce que l’on sait de la densité par rack et des objectifs de performances

Des reportages indépendants décrivent Helios comme une conception de rack très dense. Tom’s Hardware rapporte que les racks Helios peuvent embarquer 72 accélérateurs Instinct MI455X avec environ 31 To de HBM4, visant environ 2,9 exaFLOPS FP4 pour l’inference et 1,4 exaFLOPS FP8 pour l’entraînement (avec la mention de l’UALink sur Ethernet dans les premières machines).

The Next Platform a également rapporté des configurations de racks Helios et des chiffres de bande passante à grande échelle.

Ces chiffres varieront selon les systèmes finaux livrés, mais ils montrent qu’AMD vise le même niveau de « fabrique d’IA » que les systèmes de rack de NVIDIA.

La stratégie partenaires : Inde, fabricants de systèmes et pari écosystémique

AMD pousse Helios via des partenariats. En février 2026, AMD a annoncé un travail avec Tata Consultancy Services (TCS) autour d’une conception d’infrastructure IA à l’échelle du rack basée sur Helios pour des déploiements en Inde.

Et Helios entre dans le monde des serveurs commerciaux : Tom’s Hardware a rapporté que HPE prévoyait de proposer des systèmes basés sur Helios dans le monde entier en 2026.

C’est une approche classique d’AMD : gagner grâce aux partenariats, aux conceptions standard et à de multiples canaux de commercialisation.

Rubin vs Helios : la comparaison courte et utile

Les deux plateformes sont conçues pour la même réalité : l’IA est désormais limitée par la mémoire, le réseau et l’efficacité globale du système. Elles placent donc le rack en premier.

Les différences intéressantes portent sur la façon d’y parvenir :

  • NVIDIA Rubin = intégration extrême. NVIDIA met l’accent sur la co-conception à travers six puces et promeut NVLink 6 comme tissu clé du rack.
  • AMD Helios = architecture de rack ouverte. AMD met l’accent sur l’alignement OCP, les conceptions de référence et un écosystème capable de construire des racks de type Helios de différentes manières.

Pour beaucoup d’acheteurs, les points déterminants seront moins poétiques :

  • Friction logicielle : la maturité de CUDA vs ROCm pour vos modèles et bibliothèques spécifiques.
  • Préparation réseau : NVLink 6 est la voie établie de NVIDIA ; les plans d’interconnexion ouverte d’AMD sont prometteurs mais dépendent du calendrier de l’écosystème.
  • Livraison et approvisionnement : si vous ne pouvez pas obtenir le rack complet à temps, la meilleure feuille de route reste un PDF très coûteux.

Est-ce important si vous n’êtes pas un hyperscaler ?

Oui, même si vous ne posséderez jamais un rack avec 72 GPU (et que vous préférez que votre bâtiment reste au sol). Rubin et Helios façonneront les services cloud que de nombreuses équipes utilisent au quotidien.

Quand les centres de données deviennent plus efficaces, l’IA dans le cloud peut devenir moins chère ou plus capable. Cela peut signifier des fenêtres de contexte plus larges, des réponses plus rapides, ou des modèles plus spécialisés dans des produits réels. Cela peut aussi signifier plus de concurrence entre fournisseurs de cloud, car il existe enfin plus d’options matérielles sérieuses à l’échelle.

Il existe aussi un effet de « ruissellement ». Les plateformes de centre de données influencent souvent les futurs serveurs d’entreprise, les fonctionnalités de stations de travail, et parfois même, avec le temps, des idées pour les GPU grand public. Vous ne devez pas vous attendre à une « carte graphique Rubin » pour le jeu la semaine prochaine, mais vous pouvez vous attendre à ce que la course aux plateformes fasse progresser des technologies de mémoire améliorées, des interconnexions plus abouties et des piles logicielles d’IA plus matures.

Ainsi, même si Rubin et Helios vivent dans le cloud, leurs effets apparaîtront sur votre écran.

À retenir

Rubin et Helios montrent que les GPU évoluent vers des plateformes complètes : calcul + mémoire + tissu d’interconnexion + sécurité + logiciel. La compétition n’est plus « à qui a la puce la plus rapide », mais « à qui a le rack qui reste occupé, reste sécurisé et reste abordable ».

NVIDIA Rubin parie sur une intégration poussée, la bande passante de scale-up via NVLink et une pile à six puces étroitement conçue. AMD Helios parie sur l’ouverture, les conceptions OCP et des déploiements partenaires très vastes mesurés en gigawatts.

Les noms sonnent toujours comme un final de saison de science-fiction. Cette partie relève peut-être du marketing. Le virage vers les plateformes, lui, est bien réel.

Autres publications de l’auteur

Claude Code vs. Codex : Pourquoi les agents de programmation IA sont partout
Article
Claude Code vs. Codex : Pourquoi les agents de programmation IA sont partout
Claude Code vs Codex : comparez les fonctionnalités, les flux de travail, la sécurité et les cas d’usage, et voyez pourquoi les assistants de codage IA sont soudain partout.
Une IA fiable sait quand dire : « Cela n’a aucun sens »
Article
Une IA fiable sait quand dire : « Cela n’a aucun sens »
BullshitBench montre pourquoi une IA fiable doit détecter des prémisses erronées, et pas seulement produire des réponses fluides. Un regard sur la fiabilité de l’IA, la contestation, et la détection des fausses prémisses.
Le navigateur devient l’agent : pourquoi la recherche commence à agir
Article
Le navigateur devient l’agent : pourquoi la recherche commence à agir
La recherche par IA apprend à agir dans le navigateur, pas seulement à répondre. Voici comment les agents de navigateur transforment le SEO, le trafic, la confidentialité et l’avenir du web ouvert.
Anthropic remporte la première manche dans l’affrontement autour de l’IA au Pentagone
Article
Anthropic remporte la première manche dans l’affrontement autour de l’IA au Pentagone
Anthropic remporte une première bataille judiciaire dans son différend avec le Pentagone au sujet de l’IA, soulevant de plus grandes questions sur les garde-fous de l’IA militaire, les contrats et le contrôle.