Rubin + Helios: Nuove piattaforme GPU di NVIDIA e AMD
Ai vecchi tempi, una nuova GPU significava una scheda più veloce e ventole più rumorose. Nel 2026, il vero dramma delle GPU si consuma nei data center: file di rack, un piano di raffreddamento serio e cavi di alimentazione abbastanza spessi da sembrare appartenere a una sottostazione. È lì che arrivano la piattaforma GPU Rubin di NVIDIA e la piattaforma di IA su scala rack Helios di AMD — due nomi che suonano come progetti spaziali, ma che in realtà sono progetti di sistema per costruire ed eseguire l'IA su scala massiva.
Entrambe le aziende stanno spingendo la stessa idea: un solo chip non basta più. Un sistema di IA moderno ha bisogno di una GPU, di un partner CPU, di collegamenti veloci tra le GPU all'interno del rack, di una rete veloce tra i rack e di software che tenga tutto occupato per mesi. NVIDIA chiama questo estremo “co-design” a livello di rack. AMD presenta Helios come un'architettura di rack aperta, allineata a OCP, costruita con i partner.
Perché le “piattaforme GPU” stanno sostituendo “una GPU”
I modelli di IA più grandi di oggi incontrano limiti che non sono semplicemente “più core”. Tre vincoli si ripresentano di continuo:
1) La memoria è regina. L'addestramento e il serving dei modelli moderni richiedono enorme capacità e banda della memoria. Ecco perché l'HBM (high-bandwidth memory) continua a crescere in importanza.
2) La comunicazione decide la velocità. Molti carichi di lavoro attuali, soprattutto i modelli mixture-of-experts (MoE), dipendono dal fatto che le GPU si parlino rapidamente e in modo prevedibile. I modelli MoE “instradano” i token verso esperti diversi. Questo instradamento crea molto traffico da GPU a GPU. Se l'interconnessione è debole, le costose GPU restano in attesa inattive.
3) Contano costo per token e potenza. L'inferenza sta esplodendo. La domanda non è più “Quanto è veloce una GPU?” ma “Quanti token utili ottengo per watt e per euro?” Una piattaforma che riduce il costo per token può cambiare i prezzi del cloud, le scelte sulla dimensione dei modelli e persino la strategia di prodotto.
Così sia NVIDIA sia AMD vendono sistemi in cui un rack agisce come un unico grande computer. La “piattaforma” ora include i chip di calcolo più il fabric (scale-up all'interno del rack e scale-out tra i rack), oltre a funzionalità di sicurezza e affidabilità che tengono la macchina in funzione.
Ecco perché Rubin e Helios risultano diversi dai lanci di una volta. Somigliano meno a “nuove schede GPU” e più a “nuovi blocchi costruttivi per data center”.
Piattaforma GPU NVIDIA Rubin 2026: specifiche, finestra di rilascio e caratteristiche chiave
NVIDIA posiziona Rubin come il successore di Blackwell, costruito attorno a sistemi su scala rack come il Vera Rubin NVL72 (e sistemi HGX più piccoli). NVIDIA descrive Rubin come una piattaforma a sei chip progettata insieme a livello di rack: la CPU Vera, la GPU Rubin, lo switch NVLink 6, la ConnectX-9 SuperNIC, la DPU BlueField-4 e gli switch Ethernet Spectrum.
Quel elenco “a sei chip” non è decorazione. NVIDIA sta dicendo: il rack è il prodotto. La GPU è la star, ma il cast di supporto svolge il lavoro duro di alimentarla con dati, spostare i risultati e mantenere il sistema al sicuro.
La grande promessa di Rubin: costo per token inferiore, soprattutto per MoE e “IA di ragionamento”
NVIDIA afferma che Rubin punta all'IA agentica, al ragionamento avanzato e all'inferenza MoE su larga scala. Nel suo messaggio di lancio, NVIDIA sostiene che Rubin può offrire fino a 10x di costo di inferenza per token in meno rispetto a Blackwell e può addestrare alcuni modelli MoE usando 4x meno GPU rispetto alla piattaforma precedente.
Sono affermazioni importanti, e i risultati reali dipenderanno dal modello e dal software. Tuttavia, la direzione è chiara: Rubin è progettato per rendere più efficiente l'intero rack, non solo per vincere un singolo benchmark.
Transformer Engine e NVFP4: puntare all'efficienza senza perdere accuratezza
Nella pagina della piattaforma Rubin, NVIDIA evidenzia un nuovo Transformer Engine con compressione adattiva accelerata in hardware per potenziare le prestazioni NVFP4 preservando l'accuratezza. NVIDIA afferma anche che Rubin può raggiungere fino a 50 petaFLOPS di inferenza NVFP4.
Perché concentrarsi su formati come FP4? Perché l'inferenza è spesso limitata dall'economia. Se puoi ridurre il costo di calcolo e memoria per token, puoi servire più utenti, eseguire finestre di contesto più grandi o mantenere bassa la latenza senza comprare un altro rack.
Rete scale-out: quando un solo rack non basta
Un singolo rack può essere potente, ma i grandi cluster di IA devono collegare molti rack. Nella presentazione di NVIDIA al CES, lo stack della piattaforma Rubin include Spectrum-X Ethernet Photonics per il networking di scale-out, oltre a ConnectX-9 e BlueField-4.
Questo indica una tendenza chiave: potenza e latenza del networking ora fanno parte della storia della piattaforma GPU. Lo spostamento dei dati tra rack può costare quanto (in tempo e potenza) il calcolo stesso.
Tempistiche e segnali di adozione
Al CES 2026, NVIDIA ha dichiarato che Rubin è in piena produzione, con prodotti dei partner attesi nella seconda metà del 2026.
Reuters ha anche riportato che l'accordo pluriennale di NVIDIA per fornire Meta include Blackwell e futuri chip di IA Rubin, oltre alle CPU Grace e Vera.
Quando gli hyperscaler pianificano attorno a una piattaforma, di solito significa che la piattaforma sarà reale — e presto.
Piattaforma di IA su scala rack AMD Helios: MI450/MI455X, UALink e tempistiche
Helios è la risposta di AMD alla IA su scala rack, ma AMD la propone con uno stile diverso. AMD presenta Helios come un design di rack aperto, allineato a OCP, basato su specifiche presentate da Meta all'Open Compute Project. AMD afferma che Helios viene rilasciato come design di riferimento per partner OEM/ODM, con distribuzione a volume prevista nel 2026.
In altre parole: Helios è pensata per essere copiata, adattata e costruita da molti produttori di sistemi — non solo come uno stack rigidamente controllato.
Helios nel mondo reale: la distribuzione di Meta e la scala dei gigawatt
Il 24 febbraio 2026, AMD e Meta hanno annunciato un partenariato definitivo per distribuire fino a 6 gigawatt di GPU AMD Instinct su più generazioni. AMD ha dichiarato che le spedizioni per la prima distribuzione da un gigawatt dovrebbero iniziare nella seconda metà del 2026, alimentate da una GPU Instinct personalizzata basata sull'architettura MI450 e da CPU EPYC di sesta generazione “Venice” che eseguono ROCm, il tutto costruito su Helios.
“Distribuzione di GPU su scala gigawatt” ti segnala che questo mercato ha lasciato la fase hobbistica alle spalle.
Apertura e interconnessione: UALink, più i “primi passi”
Un sistema su scala rack è valido solo quanto il suo fabric di scale-up. Helios è legata all'idea di interconnessioni aperte come UALink, ma le analisi suggeriscono che i primi sistemi Helios potrebbero usare UALink over Ethernet all'inizio, con UALink nativo che aumenterà in seguito.
Per gli acquirenti, collegamenti aperti possono ridurre il lock-in verso i fornitori. Per AMD, questa è una grande impresa di ecosistema: hardware, switching e software devono maturare tutti contemporaneamente.
Cosa sappiamo sulla densità del rack e sugli obiettivi di prestazioni
Resoconti indipendenti descrivono Helios come un design di rack molto denso. Tom’s Hardware riporta che i rack Helios possono ospitare 72 acceleratori Instinct MI455X con circa 31 TB di HBM4, puntando a circa 2.9 FP4 exaFLOPS per l'inferenza e 1.4 FP8 exaFLOPS per l'addestramento (con la nota su UALink over Ethernet nelle prime macchine).
The Next Platform ha anche riportato configurazioni dei rack Helios e larghezze di banda su larga scala.
Questi numeri varieranno nei sistemi finali in spedizione, ma mostrano che AMD mira allo stesso livello di “fabbrica di IA” dei sistemi a rack di NVIDIA.
La strategia dei partner: India, fornitori di sistemi e una mossa di ecosistema
AMD sta spingendo Helios attraverso partnership. A febbraio 2026, AMD ha annunciato la collaborazione con Tata Consultancy Services (TCS) su un design di infrastruttura di IA su scala rack basato su Helios per distribuzioni in India.
E Helios sta entrando nel mondo dei server commerciali: Tom’s Hardware ha riportato che HPE prevedeva di rendere disponibili sistemi basati su Helios in tutto il mondo nel 2026.
Questa è una mossa classica di AMD: vincere con partnership, design standard e molte vie per arrivare al mercato.
Rubin vs Helios: il confronto breve e utile
Entrambe le piattaforme sono costruite per la stessa realtà: l'IA è ora limitata da memoria, networking ed efficienza dell'intero sistema. Quindi entrambe mettono il rack al primo posto.
Le differenze interessanti riguardano il modo in cui ci si arriva:
- NVIDIA Rubin = integrazione estrema. NVIDIA enfatizza il codesign su sei chip e spinge NVLink 6 come fabric di rack chiave.
- AMD Helios = architettura di rack aperta. AMD enfatizza l'allineamento a OCP, i design di riferimento e un ecosistema che può costruire rack in stile Helios in modi diversi.
Per molti acquirenti, i punti decisivi saranno meno poetici:
- Attriti software: maturità di CUDA vs ROCm per i tuoi modelli e le tue librerie specifiche.
- Prontezza del networking: NVLink 6 è il percorso consolidato di NVIDIA; i piani di interconnessione aperta di AMD sono promettenti ma dipendono dai tempi dell'ecosistema.
- Consegna e fornitura: se non puoi ottenere l'intero rack in tempo, la migliore roadmap diventa un PDF molto costoso.
Conta qualcosa se non sei un hyperscaler?
Sì, anche se non possiederai mai un rack con 72 GPU (e ti piace che il tuo edificio resti ben piantato a terra). Rubin e Helios modelleranno i servizi cloud che molti team usano ogni giorno.
Quando i data center diventano più efficienti, l'IA nel cloud può diventare più economica o più capace. Ciò può significare finestre di contesto più grandi, risposte più rapide o modelli più specializzati nei prodotti reali. Può anche significare più concorrenza tra i provider cloud, perché finalmente ci sono più opzioni hardware serie su scala.
C'è anche un effetto “a cascata”. Le piattaforme per data center spesso influenzano i futuri server enterprise, le funzionalità delle workstation e talvolta persino le idee per GPU consumer nel tempo. Non dovresti aspettarti una “scheda gaming Rubin” la prossima settimana, ma puoi aspettarti che la corsa alle piattaforme spinga cose come una memoria migliore, un pensiero migliore sulle interconnessioni e stack software di IA più maturi.
Quindi, anche se Rubin e Helios vivono nel cloud, gli effetti appariranno sul tuo schermo.
Messaggio finale
Rubin e Helios mostrano che le GPU stanno evolvendo in piattaforme complete: calcolo + memoria + fabric + sicurezza + software. La competizione non è più “di chi è il chip più veloce,” ma “di chi è il rack che resta impegnato, resta sicuro e resta conveniente.”
NVIDIA Rubin punta su un'integrazione profonda, sulla banda di scale-up di NVLink e su uno stack strettamente progettato a sei chip. AMD Helios punta sull'apertura, sui design OCP e su distribuzioni di partner molto grandi misurate in gigawatt.
I nomi sembrano ancora il finale di stagione di una serie di fantascienza. Quella parte forse è marketing. Il passaggio di piattaforma non lo è.