2026년 초, AI 출시 소식을 따라가는 일이 더 어려워졌다: 업데이트가 너무 자주 나와 며칠 만에 헤드라인이 구식처럼 느껴질 정도다. 어느 날의 초점은 “더 강한 추론”이고, 그다음 날은 속도와 더 낮은 지연, 곧이어 팀원처럼 코드를 쓰는 AI가 된다. 주말이 되면 경쟁사가 새 시스템 카드를 게시하고, 대화는 금세 벤치마크와 무엇이 “진짜” 진전인지에 대한 논쟁으로 옮겨간다.
OpenAI’s 최신 행보는 GPT‑5.3‑Codex — 에이전틱 코딩에 초점을 맞춘 모델로, 계획을 세우고 도구를 사용하며 적은 개입으로도 다단계 작업을 수행할 수 있다는 뜻이다. OpenAI는 이전 Codex 버전의 최고 수준 코딩 성능에 GPT‑5 계열의 더 강한 추론과 전문 지식을 결합했으며, Codex 사용자 기준으로 속도도 25% 빨라졌다고 설명한다.
GPT‑5.3‑Codex가 무엇을 바꾸고, 왜 중요한지, 그리고 주요 플레이어들이 어떻게 반응하는지 살펴보자.
왜 GPT‑5.3이 중요한가
우선 작지만 중요한 점부터: 사람들이 “GPT‑5.3”이라고 말할 때, 현재 공개 출시된 것은 소프트웨어 구축과 컴퓨터 기반 작업을 겨냥한 Codex 모델인 GPT‑5.3‑Codex다. 이는 질의응답형 챗봇이라기보다, 연구, 도구 사용, 복잡한 실행을 포함한 장시간 작업을 당신의 지시에 따라 수행하는 동료에 가깝도록 설계됐다.
OpenAI는 공상과학처럼 들리지만 문면 그대로의 주장을 덧붙인다: GPT‑5.3‑Codex가 “자기 자신을 만드는 데 핵심적 역할을 했다.” Codex 팀은 초기 버전을 이용해 학습을 디버깅하고, 배포를 관리하고, 테스트 결과를 진단했으며 — 이는 곧 이 모델이 자체 개발 주기를 가속하는 데 기여했음을 뜻한다.
이것이 중요한 이유는 하나, 피드백 루프 때문이다. AI 도구가 다음 AI 도구를 더 빨리 만드는 것을 돕기 시작하면 출시 속도는 다시 한 번 빨라질 수 있다. 이미 AI 발전이 빠르게 느껴졌다면, 이제는 롤러 스케이트까지 신는 순간이다.
GPT‑5.3‑Codex 출시일, 핵심 기능, 가격
OpenAI는 2026년 2월 5일 GPT‑5.3‑Codex를 공개하며, 지금까지 가장 강력한 에이전틱 코딩 모델이라고 소개했다. 또한 속도 향상(25% 더 빠름)과 코딩 및 에이전트 벤치마크에서의 더 강한 성능을 강조했다.
GPT‑5.3‑Codex의 설계 목적
OpenAI는 장시간 실행되는 작업을 강조한다: 수 시간 소요되고, 도구를 포함하며, 많은 단계를 요구하는 작업들이다.
또한 SWE‑Bench Pro와 Terminal‑Bench를 포함해 실제 소프트웨어 공학과 에이전트 행태를 평가하는 벤치마크에서 강한 성능을 보였다고 보고하며, 현실 세계의 도구 사용 능력을 측정하려는 벤치마크인 OSWorld와 GDPval에서도 성능을 언급한다.
안전 태세는 이전보다 더 강조됐다
시스템 카드에는 분명한 문구가 있다: OpenAI는 이번 출시를 고성능 사이버보안 레이블 하의 첫 런치로 간주하며, 보호 장치를 활성화했다고 밝힌다.
이는 중요한 “군비 경쟁” 신호다. 기업들은 순수한 능력뿐 아니라 안전 프레임워크, 모니터링, 신뢰성에서도 경쟁하고 있다.
GPT‑5.3‑Codex 요금(OpenAI API)
스탠다드 티어의 요금은 다음과 같다:
- $1.75 입력 / 100만 토큰
- $0.175 캐시된 입력 / 100만 토큰
- $14.00 출력 / 100만 토큰
프라이오리티 티어는 다음과 같다:
- $3.50 입력 / 100만 토큰
- $0.35 캐시된 입력 / 100만 토큰
- $28.00 출력 / 100만 토큰
속도가 무기가 된다: GPT‑5.3‑Codex‑Spark와 지연 시간 경쟁
메인 GPT‑5.3‑Codex 출시 일주일 뒤인 2026년 2월 12일, OpenAI는 GPT‑5.3‑Codex‑Spark를 연구 미리보기로 소개하며, 실시간 코딩을 위해 설계된 첫 모델이라고 밝혔다.
OpenAI에 따르면 Codex‑Spark는 초저지연 하드웨어에 최적화되어 초당 1000 토큰을 넘는 처리량을 제공할 수 있으며, 거의 즉시 반응하는 경험을 목표로 한다.
출시 시점 기준 사양은 다음과 같다:
- 128k 컨텍스트 윈도우
- 텍스트 전용
- ChatGPT Pro 사용자 대상 연구 미리보기로 순차 배포(미리보기 기간 동안 별도의 레이트 리밋 적용)
OpenAI는 Codex‑Spark가 Cerebras Wafer Scale Engine 3에서 구동된다고 밝히며, 이를 Cerebras와의 파트너십에서 중요한 이정표로 묘사한다.
또한 백엔드 전반에서 지연을 줄이기 위한 작업도 설명하는데, 지속 연결과 추론 스택 최적화 같은 변경을 통해 왕복당 오버헤드를 80% 줄이고, 첫 토큰까지의 시간(time-to-first-token)을 50% 개선했다고 언급한다.
독립 보도는 이번 배포에 Cerebras를 활용한 것이 전형적인 Nvidia 중심 스택을 넘어 추론 하드웨어를 다변화하려는 전략적 시도를 보여준다고 지적한다.
간단히 말해, 이제 경쟁에는 칩, 네트워킹, 그리고 “time-to-first-token”까지 포함된다. 이는 매우 현대적인 문장이면서도, “로딩…”이 당연하던 때를 기억한다면 조금은 웃기기도 하다.
GPT‑5.3 vs Claude Opus 4.6 vs Gemini 3.1 Pro: AI 군비 경쟁 비교
OpenAI가 GPT‑5.3‑Codex를 빈 무대에 내놓은 것은 아니다. 같은 달에 주요 경쟁사들도 — 종종 자체 시스템 카드, 벤치마크 주장, 안전성 메모와 함께 — 대규모 업그레이드를 잇달아 출시했다.
Anthropic: Claude Opus 4.6은 강한 추론과 안전성 테스트에 집중
Anthropic은 2026년 2월 5일 — GPT‑5.3‑Codex와 같은 날 — Claude Opus 4.6을 발표하고, 상세한 능력과 안전성 평가가 담긴 시스템 카드를 공개했다.
Anthropic은 능력 향상이 정렬(alignment)을 악화시키지 않았다고 강조하며, Opus 4.6이 자동화된 행동 감사에서(기만과 아첨을 포함한) 불일치 행동 빈도가 낮게 나타났다고 말한다. 또한 확장된 안전성 평가와 새로운 보호 장치를 언급한다.
주목할 주제는 사이버보안이다: Anthropic은 Opus 4.6이 강화된 사이버보안 능력을 보였으며, 오남용 패턴을 추적하기 위해 6개의 새로운 사이버보안 프로브를 개발했다고 밝혔다.
즉, OpenAI가 대비 태세(Preparedness Framework) 아래에서 사이버보안 역량을 명시하는 동안, Anthropic은 새로운 사이버보안 테스트와 프로브를 부각한다. 접근법은 다르지만 메시지는 같다: 이 모델들은 강력하고, 그만큼 사이버 위험이 이제 출시 스토리의 표준 요소가 되었다.
Google: Gemini 3.1 Pro는 추론과 멀티모달 강점을 밀어붙인다
Google은 Gemini 3.1 Pro를 프리뷰로 소개하며, 소비자 및 개발자 제품 전반으로 롤아웃 중이라고 밝혔다.
Google은 ARC‑AGI‑2에서 검증된 77.1% 점수를 포함한 벤치마크 향상을 강조하며, 이는 Gemini 3 Pro의 추론 성능을 두 배 이상 상회한다고 설명한다.
군비 경쟁의 관점에서 Google의 전략은 다음과 같이 보인다: 추론 + 멀티모달 + 광범위한 제품 유통(Gemini 앱, NotebookLM, 개발자 도구, 엔터프라이즈 채널).
Meta: Llama 4는 오픈 웨이트로 시장에 압박을 유지한다
Meta의 Llama 4 패밀리(2025년 4월 출시)는 2026년에도 여전히 중요한 역할을 한다. 오픈 웨이트 모델은 다른 모두가 더 빨리 움직이고 더 영리하게 가격을 책정하도록 압박하기 때문이다. Meta는 네이티브 멀티모달 AI 모델인 Llama 4 Scout와 Maverick을 선보였다.
언론 보도는 Llama 4 모델이 WhatsApp과 Instagram 같은 제품 전반에서 Meta AI를 구동한다는 점, 그리고 Scout의 매우 큰 컨텍스트 윈도우(한 보도에서는 1,000만 토큰으로 전해짐) 같은 세부사항도 강조한다.
경쟁의 그늘: 증류 공방, 데이터 확보, 그리고 소송
시장이 이처럼 가치가 커지면, 특히 데이터와 관련된 규칙을 두고 갑론을박이 시작된다.
큰 사례가 2026년 2월에 드러났다. Anthropic은 여러 중국 AI 기업이 “증류(distillation)”를 통해 Claude 출력물을 사용하여 자사 모델을 개선했다고 주장하며, 약 24,000개의 가짜 계정과 1,600만 건이 넘는 상호작용에 이르는 대규모 남용이었고, 약관과 접근 제한을 위반했다고 밝혔다.
증류는 기계학습에서 일반적인 기법일 수 있다. 그러나 타사의 폐쇄형 모델 출력을 허가 없이 사용하면, 이는 순식간에 지식재산권과 보안 분쟁으로 번진다. 여기에 법정 공방도 있다. 2026년 2월 24일, 로이터는 미국 판사가 OpenAI의 영업비밀 탈취를 주장한 xAI의 소송을 (일단) 각하했지만, xAI에 소장을 수정할 시간을 허용했다고 보도했다.
개발자와 비즈니스(그리고 비전문가)에게 의미하는 바
소프트웨어를 만든다면, GPT‑5.3‑Codex와 Codex‑Spark는 다음과 같은 미래를 가리킨다:
- 단일 프롬프트가 아니라 작업을 할당한다(“이 버그를 조사하고, 수정안을 제안하고, 테스트를 실행하고, PR을 열어라”)
- AI가 더 오래 일하고, 컨텍스트를 유지하며, 도구를 더 신뢰성 있게 사용한다
- 속도가 일상의 생산성 요인이 된다
팀을 관리한다면, 질문도 바뀐다. 이제는 “AI를 써야 할까?”가 아니라 다음과 같다:
- 어떤 모델이 우리 위험 수준에 맞는가(특히 코드, 보안, 민감 데이터 측면에서)?
- 출력을 어떻게 검증하고, 눈에 띄지 않는 실패를 어떻게 막을 것인가?
- 토큰과 사용량이 늘어나면 실제 비용은 얼마가 되는가?
당신의 역할이 점차 AI가 생성한 작업만 검토하는 쪽으로 밀려나지 않도록 하려면, 다음의 실용적인 원칙이 도움이 된다:
과업에 맞춰 모델을 고르라.
- 깊은 에이전틱 코딩이 필요한가? GPT‑5.3‑Codex가 그 용도로 포지셔닝되어 있다.
- 빠른 상호작용형 편집이 필요한가? Codex‑Spark는 저지연 반복을 위해 제작됐다.
- 폭넓은 추론과 멀티모달 입력이 필요한가? Gemini 3.1 Pro가 그 방향으로 강하게 마케팅되고 있다.
- 안전 중심의 문서화와 강력한 엔터프라이즈 메시징이 필요한가? Claude Opus 4.6은 시스템 카드와 감사를 전면에 내세운다.
결론: GPT‑5.3는 볼륨을 한 단계 올린다
GPT‑5.3‑Codex는 속도 향상, 강한 벤치마크 포지셔닝, 그리고 사이버보안 역량을 공개적으로 표기하는 안전 태세와 함께 컴퓨터 상의 에이전틱 작업을 향한 한 걸음이다.
이어 Codex‑Spark는 두 번째 메시지를 더한다: 다음 싸움은 지능만이 아니라 지연 시간 — 사람들이 이미 쓰는 도구 안에서 AI를 진정한 실시간처럼 느끼게 누가 만들 수 있는가 — 에 관한 것이다.
한편, Claude Opus 4.6과 Gemini 3.1 Pro는 경쟁자들이 순서를 공손히 기다리지 않는다는 것을 보여준다. 그들은 빠르게 출시하고, 시스템 카드를 공개하며, 추론과 멀티모달 능력을 강하게 밀어붙이고 있다.
AI 군비 경쟁은 뜨거워지고 있다. 약간 아이러니한 점은, 승패가 지루하게 들리는 것들 — 토큰 가격, 안전 프로브, 레이트 리밋, 첫 토큰까지의 시간 — 에 의해 갈릴 수도 있다는 것이다. 그러나 2026년에는 “지루함” 속에 미래가 숨어 있는 경우가 흔하다.