Rubin + Helios: NVIDIA와 AMD의 새로운 GPU 플랫폼
예전에는 새 GPU라면 더 빠른 카드와 더 시끄러운 팬을 의미했다. 2026년의 진짜 GPU 드라마는 데이터 센터에서 벌어진다. 랙이 줄지어 서 있고, 본격적인 냉각 계획과 변전소에나 있을 법한 굵기의 전원 케이블이 보인다. 바로 그곳에 NVIDIA의 Rubin GPU 플랫폼과 AMD의 Helios 랙스케일 AI 플랫폼이 등장한다 — 우주 프로젝트처럼 들리는 두 이름이지만, 실제로는 초대규모로 AI를 구축하고 운영하기 위한 시스템 설계다.
두 회사가 밀고 있는 생각은 같다: 이제는 칩 하나로는 충분하지 않다. 현대 AI 시스템에는 GPU, 이를 보조하는 CPU, 랙 내부 GPU 간의 빠른 링크, 랙 간의 빠른 네트워킹, 그리고 수개월 동안 모든 자원을 바쁘게 유지시키는 소프트웨어가 필요하다. NVIDIA는 이를 랙 수준의 극단적 “공동 설계(co-design)”라고 부른다. AMD는 Helios를 파트너와 함께 만든 개방형, OCP 정렬 랙 아키텍처로 규정한다.
왜 “GPU 플랫폼”이 “단일 GPU”를 대체하고 있을까
오늘날 가장 큰 AI 모델들은 단순히 “더 많은 코어”로는 넘기 어려운 한계에 부딪힌다. 세 가지 제약이 반복해서 드러난다:
1) 메모리가 핵심이다. 최신 모델의 학습과 서빙에는 막대한 메모리 용량과 대역폭이 필요하다. 그래서 HBM(고대역폭 메모리)의 중요성이 계속 커진다.
2) 통신이 속도를 좌우한다. 특히 Mixture-of-Experts(MoE) 같은 현재 워크로드는 GPU들끼리 빠르고 예측 가능하게 소통하는 능력에 크게 의존한다. MoE 모델은 토큰을 서로 다른 전문가에게 “라우팅”하며, 이 라우팅이 많은 GPU 간 트래픽을 만든다. 인터커넥트가 약하면 비싼 GPU가 대기만 하게 된다.
3) 토큰당 비용과 전력이 중요하다. 추론 수요가 폭발하고 있다. 질문은 더 이상 “한 장의 GPU가 얼마나 빠른가?”가 아니라 “와트당, 유로당 얼마나 많은 유용한 토큰을 얻는가?”다. 토큰당 비용을 낮추는 플랫폼은 클라우드 요금, 모델 크기 선택, 심지어 제품 전략까지 바꿀 수 있다.
그래서 NVIDIA와 AMD 모두 랙이 하나의 거대한 컴퓨터처럼 동작하는 시스템을 판다. 이제 “플랫폼”은 컴퓨팅 칩뿐 아니라 패브릭(랙 내부 스케일업과 랙 간 스케일아웃), 그리고 시스템을 계속 가동시키는 보안과 안정성 기능까지 포함한다.
이 때문에 Rubin과 Helios는 예전 출시와는 다르게 느껴진다. 더 이상 “새 GPU 카드”라기보다 “새 데이터 센터 구성 블록”에 가깝다.
NVIDIA Rubin GPU 플랫폼 2026: 사양, 출시 시기, 핵심 기능
NVIDIA는 Rubin을 Blackwell의 후속으로 위치시키며, Vera Rubin NVL72(및 더 작은 HGX 시스템) 같은 랙스케일 시스템을 중심에 둔다. NVIDIA는 Rubin을 랙 수준에서 함께 설계된 6개 칩 플랫폼이라고 설명한다: Vera CPU, Rubin GPU, NVLink 6 스위치, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum 이더넷 스위치.
그 “six-chip” 목록은 장식이 아니다. NVIDIA가 말하는 것은 명확하다: 랙이 곧 제품이다. GPU가 주연이라면, 나머지 조연들은 데이터 공급, 결과 이동, 시스템 안전을 책임지며 힘든 일을 한다.
Rubin의 큰 약속: MoE와 “추론형 AI”에서 더 낮은 토큰당 비용
NVIDIA는 Rubin이 에이전트형 AI, 고도 추론, 대규모 MoE 추론을 겨냥한다고 말한다. 출시 메시지에서 NVIDIA는 Rubin이 Blackwell 대비 추론 토큰당 비용을 최대 10배 낮추고, 특정 MoE 모델 학습에 필요한 GPU 수를 이전 플랫폼 대비 4분의 1로 줄일 수 있다고 주장한다.
큰 주장이다. 실제 성과는 모델과 소프트웨어에 따라 달라질 것이다. 그럼에도 방향성은 분명하다: Rubin은 단일 벤치마크 우승보다 랙 전체의 효율을 높이도록 설계되었다.
트랜스포머 엔진과 NVFP4: 정확도를 잃지 않으면서 효율 추구
NVIDIA는 Rubin 플랫폼 페이지에서 정확도를 유지하면서 NVFP4 성능을 끌어올리기 위한 하드웨어 가속 적응형 압축을 갖춘 새로운 트랜스포머 엔진을 강조한다. 또한 Rubin이 NVFP4 추론에서 최대 50 페타FLOPS에 도달할 수 있다고 밝힌다.
왜 FP4 같은 형식에 집중할까? 추론은 종종 경제성에 의해 제한되기 때문이다. 토큰당 연산과 메모리 비용을 낮출 수 있다면 더 많은 사용자를 서비스하고, 더 큰 컨텍스트 윈도를 운영하거나, 랙을 추가 구매하지 않고도 지연 시간을 낮게 유지할 수 있다.
스케일아웃 네트워킹: 랙 하나로는 충분하지 않을 때
랙 하나도 강력하지만, 대규모 AI 클러스터는 많은 랙을 연결해야 한다. NVIDIA의 CES 발표에서 Rubin 플랫폼 스택은 스케일아웃 네트워킹을 위한 Spectrum-X 이더넷 포토닉스와 함께 ConnectX-9, BlueField-4를 포함한다.
이는 중요한 흐름을 가리킨다: 이제 네트워킹의 성능과 지연도 GPU 플랫폼 이야기의 일부다. 랙 간 데이터 이동은 시간과 전력 측면에서 연산만큼이나 비용이 들 수 있다.
타임라인과 도입 신호
CES 2026에서 NVIDIA는 Rubin이 양산 중이며, 파트너 제품은 2026년 하반기에 나올 것으로 밝혔다.
로이터는 또한 NVIDIA가 메타에 Blackwell과 향후 Rubin AI 칩, 그리고 Grace와 Vera CPU를 공급하는 다년 계약을 맺었다고 보도했다.
하이퍼스케일러가 플랫폼을 기준으로 계획하기 시작하면, 그 플랫폼은 실제로 — 그리고 곧 — 나온다는 뜻인 경우가 많다.
AMD Helios 랙스케일 AI 플랫폼: MI450/MI455X, UALink, 타임라인
Helios는 AMD의 랙스케일 AI 해답이지만, 판매 방식은 다르다. AMD는 Helios를 메타가 오픈 컴퓨트 프로젝트(OCP)에 제출한 사양을 바탕으로 한 개방형, OCP 정렬 랙 설계로 제시한다. AMD는 Helios를 OEM/ODM 파트너에게 레퍼런스 디자인으로 제공하며, 2026년 양산 배치를 예상한다고 말한다.
즉, Helios는 하나의 엄격히 통제된 스택이 아니라, 여러 시스템 업체가 복제하고, 맞춤화하고, 구축하도록 의도된 설계다.
현실 세계의 Helios: 메타 배치와 기가와트 규모
2026년 2월 24일, AMD와 메타는 여러 세대에 걸쳐 최대 6 기가와트 규모의 AMD Instinct GPU를 배치하기 위한 확정적 파트너십을 발표했다. AMD는 MI450 아키텍처 기반의 커스텀 Instinct GPU와 ROCm을 구동하는 6세대 EPYC “Venice” CPU, 그리고 Helios 기반 인프라로 구성된 첫 1 기가와트 배치의 출하가 2026년 하반기에 시작될 것으로 밝혔다.
“기가와트 규모의 GPU 배치”라는 문구는 이 시장이 이미 취미 단계를 훌쩍 넘어섰음을 알려준다.
개방성과 인터커넥트: UALink, 그리고 “초기 단계”
랙스케일 시스템의 성패는 스케일업 패브릭에 달려 있다. Helios는 UALink 같은 개방형 인터커넥트 구상과 맞물려 있지만, 초기 Helios 시스템은 먼저 UALink over Ethernet을 사용하고, 이후 네이티브 UALink가 확대될 것이라는 보도가 나온다.
구매자 입장에선 개방형 링크가 벤더 종속을 줄일 수 있다. AMD에게는 하드웨어, 스위칭, 소프트웨어가 동시에 성숙해야 하는 큰 생태계 과제다.
랙 밀도와 성능 목표에 대해 알려진 것
독립 보도에 따르면 Helios는 매우 높은 밀도의 랙 설계다. Tom’s Hardware는 Helios 랙이 약 31TB의 HBM4와 함께 Instinct MI455X 가속기 72개를 탑재할 수 있으며, 추론 약 2.9 FP4 엑사FLOPS, 학습 약 1.4 FP8 엑사FLOPS를 목표로 한다고 전한다(초기 장비에서 UALink over Ethernet 사용 주의).
The Next Platform 역시 Helios 랙 구성과 대규모 대역폭 수치를 보도했다.
수치는 최종 출하 시스템에 따라 달라지겠지만, AMD가 NVIDIA의 랙 시스템과 동일한 “AI 공장” 수준을 겨냥하고 있음을 보여준다.
파트너 전략: 인도, 시스템 벤더, 생태계 플레이
AMD는 파트너십을 통해 Helios를 밀고 있다. 2026년 2월, AMD는 인도 배치를 위한 Helios 기반 랙스케일 AI 인프라 설계와 관련해 Tata Consultancy Services(TCS)와의 협업을 발표했다.
또한 Helios는 상용 서버 시장으로 들어가고 있다. Tom’s Hardware에 따르면 HPE가 2026년에 Helios 기반 시스템을 전 세계에 제공할 계획이었다고 한다.
이는 전형적인 AMD식 접근이다: 파트너십, 표준 설계, 그리고 다양한 시장 진입 경로로 승부한다.
Rubin vs Helios: 짧고 유용한 비교
두 플랫폼 모두 같은 현실을 전제로 한다: 이제 AI의 한계는 메모리, 네트워킹, 그리고 전체 시스템 효율이다. 그래서 둘 다 랙을 우선한다.
차이는 접근 방식에서 드러난다:
- NVIDIA Rubin = 극단적 통합. NVIDIA는 여섯 칩에 걸친 공동 설계를 강조하고, NVLink 6를 핵심 랙 패브릭으로 내세운다.
- AMD Helios = 개방형 랙 아키텍처. AMD는 OCP 정렬, 레퍼런스 디자인, 그리고 다양한 방식으로 Helios류 랙을 구축할 수 있는 생태계를 강조한다.
많은 구매자에게 결정 포인트는 더 간단하다:
- 소프트웨어 마찰: 귀사의 특정 모델과 라이브러리에 대한 CUDA vs ROCm의 성숙도.
- 네트워크 준비도: NVLink 6는 NVIDIA의 검증된 경로; AMD의 개방형 인터커넥트 구상은 유망하지만 생태계의 타이밍에 좌우된다.
- 납기와 공급: 제때 완전한 랙을 받지 못하면, 최고의 로드맵도 값비싼 PDF에 불과하다.
하이퍼스케일러가 아니라도 중요할까?
그렇다. 72개의 GPU가 있는 랙을 소유할 일이 없더라도(그리고 건물이 날아가지 않길 바라더라도), Rubin과 Helios는 많은 팀이 매일 사용하는 클라우드 서비스를 좌우할 것이다.
데이터 센터가 더 효율적이 될수록, 클라우드 AI는 더 저렴해지거나 더 강력해질 수 있다. 이는 더 큰 컨텍스트 윈도, 더 빠른 응답, 혹은 실제 제품 속 더 특화된 모델로 이어질 수 있다. 또한 대규모 하드웨어 선택지가 늘어나면서 클라우드 제공자 간 경쟁이 심화될 수 있다.
“낙수 효과”도 있다. 데이터 센터 플랫폼은 종종 향후 엔터프라이즈 서버, 워크스테이션 기능, 때로는 소비자용 GPU 아이디어에까지 영향을 준다. 당장 “Rubin 게이밍 카드”를 기대할 수는 없지만, 플랫폼 경쟁은 더 나은 메모리 기술, 더 나은 인터커넥트 사고방식, 더 성숙한 AI 소프트웨어 스택을 촉진할 것이다.
그러니 Rubin과 Helios가 클라우드에 산다 하더라도, 그 영향은 곧 당신의 화면에 나타날 것이다.
핵심 요약
Rubin과 Helios는 GPU가 컴퓨트 + 메모리 + 패브릭 + 보안 + 소프트웨어를 아우르는 완전한 플랫폼으로 진화하고 있음을 보여준다. 경쟁은 더 이상 “누구 칩이 더 빠른가”가 아니라 “누구의 랙이 더 오래 바쁘고, 더 안전하며, 더 저렴한가”다.
NVIDIA Rubin은 깊은 통합, NVLink 기반 스케일업 대역폭, 긴밀히 설계된 6칩 스택에 베팅한다. AMD Helios는 개방성, OCP 설계, 기가와트 단위의 대형 파트너 배치에 베팅한다.
이름은 여전히 SF 시즌 피날레처럼 들린다. 그 부분은 마케팅일 수 있다. 하지만 플랫폼 전환만큼은 아니다.