Rubin + Helios: Nền tảng GPU mới từ NVIDIA và AMD
Ngày trước, một GPU mới đồng nghĩa với một card nhanh hơn và quạt ồn hơn. Năm 2026, màn kịch GPU thực sự diễn ra trong các trung tâm dữ liệu: những dãy rack liên tiếp, một kế hoạch làm mát nghiêm túc, và các dây cáp nguồn trông đủ dày để thuộc về một trạm biến áp. Đó là nơi nền tảng GPU Rubin của NVIDIA và nền tảng AI quy mô rack Helios của AMD xuất hiện — hai cái tên nghe như dự án không gian, nhưng thực ra là các thiết kế hệ thống để xây dựng và vận hành AI ở quy mô khổng lồ.
Cả hai công ty đều thúc đẩy cùng một ý tưởng: một con chip không còn đủ nữa. Một hệ thống AI hiện đại cần một GPU, một đối tác CPU, các liên kết tốc độ cao giữa các GPU trong cùng rack, mạng tốc độ cao giữa các rack, và phần mềm giữ cho mọi thứ bận rộn trong nhiều tháng. NVIDIA gọi đây là “đồng thiết kế” ở cấp độ rack. AMD mô tả Helios như một kiến trúc rack mở, phù hợp OCP, được xây dựng với các đối tác.
Vì sao “Nền tảng GPU” đang thay thế “một GPU”
Các mô hình AI lớn nhất ngày nay chạm tới những giới hạn không chỉ là “nhiều lõi hơn.” Ba ràng buộc lặp đi lặp lại:
1) Bộ nhớ là vua. Huấn luyện và phục vụ các mô hình hiện đại cần dung lượng và băng thông bộ nhớ khổng lồ. Đó là lý do HBM (bộ nhớ băng thông cao) ngày càng quan trọng.
2) Truyền thông quyết định tốc độ. Nhiều khối lượng công việc hiện nay, đặc biệt là các mô hình hỗn hợp chuyên gia (MoE), phụ thuộc vào việc các GPU trao đổi với nhau nhanh và có thể dự đoán. Các mô hình MoE “định tuyến” token tới các chuyên gia khác nhau. Việc định tuyến đó tạo ra rất nhiều lưu lượng GPU-to-GPU. Nếu kết nối liên GPU yếu, các GPU đắt tiền sẽ phải chờ rỗi.
3) Chi phí trên mỗi token và điện năng là quan trọng. Nhu cầu suy luận đang bùng nổ. Câu hỏi không còn là “Một GPU nhanh đến mức nào?” mà là “Bạn nhận được bao nhiêu token hữu ích trên mỗi watt và mỗi euro?” Một nền tảng có thể giảm chi phí trên mỗi token sẽ tác động đến giá đám mây, lựa chọn kích thước mô hình, và cả chiến lược sản phẩm.
Vì vậy cả NVIDIA và AMD đều bán các hệ thống nơi một rack hoạt động như một máy tính khổng lồ. “Nền tảng” giờ bao gồm chip tính toán cùng với fabric (scale-up trong rack và scale-out giữa các rack), cùng các tính năng bảo mật và độ tin cậy giúp hệ thống vận hành liên tục.
Đó là lý do Rubin và Helios mang cảm giác khác các lần ra mắt trước đây. Chúng ít giống “các card GPU mới” và giống “các khối xây dựng trung tâm dữ liệu mới” hơn.
Nền tảng GPU NVIDIA Rubin 2026: thông số, thời điểm phát hành và các tính năng chính
NVIDIA định vị Rubin là người kế nhiệm Blackwell, được xây quanh các hệ thống cấp rack như Vera Rubin NVL72 (và các hệ thống HGX nhỏ hơn). NVIDIA mô tả Rubin là một nền tảng sáu chip được đồng thiết kế ở cấp độ rack: CPU Vera, GPU Rubin, switch NVLink 6, ConnectX-9 SuperNIC, DPU BlueField-4, và switch Ethernet Spectrum.
Danh sách “sáu chip” đó không phải để trang trí. NVIDIA đang nói: rack chính là sản phẩm. GPU là ngôi sao, nhưng dàn thành phần hỗ trợ đảm nhiệm công việc khó là cấp dữ liệu, chuyển kết quả, và giữ cho hệ thống an toàn.
Lời hứa lớn của Rubin: giảm chi phí mỗi token, đặc biệt cho MoE và “AI lập luận”
NVIDIA nói Rubin nhắm tới AI tác tử, lập luận nâng cao, và suy luận MoE quy mô lớn. Trong thông điệp ra mắt, NVIDIA tuyên bố Rubin có thể mang lại chi phí suy luận trên mỗi token thấp hơn tới 10 lần so với Blackwell, và có thể huấn luyện một số mô hình MoE chỉ cần 1/4 số GPU so với nền tảng trước.
Đó là những tuyên bố lớn, và kết quả thực tế sẽ phụ thuộc vào mô hình và phần mềm. Dù vậy, hướng đi đã rõ: Rubin được thiết kế để làm cho cả rack hiệu quả hơn, không chỉ để thắng một bài đo đơn lẻ.
Transformer Engine và NVFP4: theo đuổi hiệu quả mà không đánh mất độ chính xác
Trên trang nền tảng Rubin, NVIDIA nhấn mạnh một Transformer Engine mới với nén thích ứng tăng tốc bằng phần cứng nhằm tăng hiệu năng NVFP4 trong khi vẫn giữ độ chính xác. NVIDIA cũng cho biết Rubin có thể đạt tới 50 petaFLOPS suy luận NVFP4.
Vì sao tập trung vào các định dạng như FP4? Bởi việc suy luận thường bị giới hạn bởi bài toán kinh tế. Nếu bạn có thể giảm chi phí tính toán và bộ nhớ trên mỗi token, bạn có thể phục vụ nhiều người dùng hơn, chạy cửa sổ ngữ cảnh lớn hơn, hoặc giữ độ trễ thấp mà không phải mua thêm một rack khác.
Mạng scale-out: khi một rack là chưa đủ
Một rack đơn lẻ có thể rất mạnh, nhưng các cụm AI lớn cần kết nối nhiều rack. Trong bài thuyết trình tại CES, ngăn xếp nền tảng Rubin bao gồm Spectrum-X Ethernet Photonics cho mạng scale-out, cùng ConnectX-9 và BlueField-4.
Điều này chỉ ra một xu hướng then chốt: năng lực mạng và độ trễ giờ là một phần của câu chuyện nền tảng GPU. Việc di chuyển dữ liệu giữa các rack có thể tốn kém không kém (về thời gian và điện năng) so với chính phần tính toán.
Mốc thời gian và tín hiệu tiếp nhận
Tại CES 2026, NVIDIA cho biết Rubin đã bước vào sản xuất hàng loạt, với các sản phẩm đối tác dự kiến trong nửa sau năm 2026.
Reuters cũng đưa tin thỏa thuận nhiều năm của NVIDIA cung cấp cho Meta bao gồm Blackwell và các chip AI Rubin trong tương lai, cùng CPU Grace và Vera.
Khi các hyperscaler lập kế hoạch xoay quanh một nền tảng, điều đó thường có nghĩa là nền tảng sẽ trở thành hiện thực — và sớm thôi.
Nền tảng AI quy mô rack AMD Helios: MI450/MI455X, UALink, và mốc thời gian
Helios là câu trả lời của AMD cho AI quy mô rack, nhưng AMD tiếp cận theo một phong cách khác. AMD mô tả Helios như một thiết kế rack mở, phù hợp OCP, dựa trên các đặc tả do Meta gửi lên Open Compute Project. AMD cho biết Helios đang được phát hành như một thiết kế tham chiếu cho các đối tác OEM/ODM, với triển khai số lượng lớn dự kiến vào năm 2026.
Nói cách khác: Helios được định hướng để nhiều nhà sản xuất hệ thống sao chép, điều chỉnh và xây dựng — chứ không chỉ như một ngăn xếp bị kiểm soát chặt chẽ duy nhất.
Helios trong thế giới thực: triển khai cùng Meta và quy mô gigawatt
Ngày 24 tháng 2 năm 2026, AMD và Meta công bố quan hệ đối tác dứt khoát để triển khai tới 6 gigawatt GPU AMD Instinct qua nhiều thế hệ. AMD cho biết các lô giao hàng cho đợt triển khai 1 gigawatt đầu tiên dự kiến bắt đầu vào nửa sau năm 2026, được vận hành bởi một GPU Instinct tùy biến dựa trên kiến trúc MI450 và CPU EPYC thế hệ 6 “Venice” chạy ROCm, xây dựng trên Helios.
“Triển khai GPU quy mô gigawatt” cho thấy thị trường này đã vượt xa giai đoạn thử chơi.
Tính mở và liên kết: UALink, cùng những “bước đầu”
Một hệ thống quy mô rack chỉ tốt ngang với fabric scale-up của nó. Helios gắn với ý tưởng về các liên kết mở như UALink, nhưng nhiều nguồn cho thấy các hệ thống Helios giai đoạn đầu có thể dùng UALink over Ethernet trước, với UALink thuần tăng tốc sau đó.
Với người mua, các liên kết mở có thể giảm khóa chặt nhà cung cấp. Với AMD, đây là một bài toán hệ sinh thái lớn: phần cứng, chuyển mạch và phần mềm phải cùng trưởng thành theo thời gian.
Những gì chúng ta biết về mật độ rack và mục tiêu hiệu năng
Các báo cáo độc lập mô tả Helios là một thiết kế rack có mật độ rất cao. Tom’s Hardware cho biết các rack Helios có thể chứa 72 tăng tốc Instinct MI455X với khoảng 31 TB HBM4, nhắm tới khoảng 2,9 exaFLOPS FP4 cho suy luận và 1,4 exaFLOPS FP8 cho huấn luyện (với lưu ý về UALink over Ethernet ở các máy giai đoạn đầu).
The Next Platform cũng đã đưa tin về các cấu hình rack Helios và các con số băng thông ở quy mô lớn.
Những con số này sẽ thay đổi tùy hệ thống xuất xưởng cuối cùng, nhưng chúng cho thấy AMD đang nhắm tới cùng mức “nhà máy AI” như các hệ thống rack của NVIDIA.
Chiến lược đối tác: Ấn Độ, nhà cung cấp hệ thống, và một nước đi hệ sinh thái
AMD đang thúc đẩy Helios thông qua các quan hệ đối tác. Vào tháng 2 năm 2026, AMD công bố hợp tác với Tata Consultancy Services (TCS) quanh một thiết kế hạ tầng AI quy mô rack dựa trên Helios cho các triển khai tại Ấn Độ.
Và Helios đang bước vào thế giới máy chủ thương mại: Tom’s Hardware đưa tin HPE dự định cung cấp các hệ thống dựa trên Helios trên toàn cầu vào năm 2026.
Đó là một nước đi rất “kiểu AMD”: chiến thắng nhờ quan hệ đối tác, thiết kế tiêu chuẩn, và nhiều con đường ra thị trường.
Rubin vs Helios: so sánh ngắn gọn, hữu ích
Cả hai nền tảng được xây cho cùng một thực tế: AI giờ bị giới hạn bởi bộ nhớ, mạng, và hiệu quả của toàn bộ hệ thống. Vì thế cả hai đều đặt rack lên trước.
Điểm khác biệt thú vị nằm ở cách bạn đi tới đích:
- NVIDIA Rubin = tích hợp cực sâu. NVIDIA nhấn mạnh đồng thiết kế xuyên suốt sáu chip và thúc đẩy NVLink 6 như fabric chủ chốt trong rack.
- AMD Helios = kiến trúc rack mở. AMD nhấn mạnh sự phù hợp OCP, các thiết kế tham chiếu, và một hệ sinh thái có thể xây dựng các rack kiểu Helios theo nhiều cách.
Với nhiều người mua, các điểm quyết định sẽ kém thi vị hơn:
- Độ chín phần mềm: mức độ trưởng thành của CUDA so với ROCm cho các mô hình và thư viện cụ thể của bạn.
- Sự sẵn sàng về mạng: NVLink 6 là con đường đã thành hình của NVIDIA; các kế hoạch liên kết mở của AMD đầy hứa hẹn nhưng phụ thuộc vào tiến độ hệ sinh thái.
- Giao hàng và nguồn cung: nếu bạn không thể nhận đủ cả rack đúng hạn, lộ trình tốt nhất cũng chỉ là một tệp PDF rất đắt đỏ.
Điều này có quan trọng nếu bạn không phải hyperscaler?
Có, ngay cả khi bạn sẽ không bao giờ sở hữu một rack với 72 GPU (và bạn muốn tòa nhà của mình vẫn đứng vững). Rubin và Helios sẽ định hình các dịch vụ đám mây mà nhiều đội ngũ sử dụng hằng ngày.
Khi trung tâm dữ liệu hiệu quả hơn, AI đám mây có thể rẻ hơn hoặc mạnh hơn. Điều đó có thể đồng nghĩa với cửa sổ ngữ cảnh lớn hơn, phản hồi nhanh hơn, hoặc các mô hình chuyên biệt hơn trong sản phẩm thực tế. Nó cũng có thể mang lại nhiều cạnh tranh hơn giữa các nhà cung cấp đám mây, vì cuối cùng đã có thêm nhiều lựa chọn phần cứng nghiêm túc ở quy mô lớn.
Cũng có hiệu ứng “lan tỏa”. Các nền tảng trung tâm dữ liệu thường ảnh hưởng tới máy chủ doanh nghiệp tương lai, tính năng máy trạm, và đôi khi cả ý tưởng GPU tiêu dùng theo thời gian. Bạn không nên trông đợi một “card chơi game Rubin” vào tuần tới, nhưng có thể kỳ vọng cuộc đua nền tảng sẽ thúc đẩy những thứ như công nghệ bộ nhớ tốt hơn, tư duy về liên kết tốt hơn, và các ngăn xếp phần mềm AI trưởng thành hơn.
Vì vậy, dù Rubin và Helios sống trên đám mây, tác động của chúng sẽ xuất hiện trên màn hình của bạn.
Kết luận chính
Rubin và Helios cho thấy GPU đang tiến hóa thành các nền tảng đầy đủ: tính toán + bộ nhớ + fabric + bảo mật + phần mềm. Cuộc cạnh tranh không còn là “chip của ai nhanh hơn,” mà là “rack của ai hoạt động liên tục, an toàn, và phải chăng hơn.”
NVIDIA Rubin đặt cược vào tích hợp sâu, băng thông scale-up của NVLink, và một ngăn xếp sáu chip được thiết kế chặt chẽ. AMD Helios đặt cược vào tính mở, thiết kế theo OCP, và các triển khai đối tác rất lớn được đo bằng gigawatt.
Những cái tên vẫn nghe như một tập cuối mùa phim khoa học viễn tưởng. Phần đó có thể là marketing. Còn sự dịch chuyển sang nền tảng thì không.