Cuộc chạy đua vũ trang AI nóng lên với GPT‑5.3
Vào đầu năm 2026, việc theo kịp các bản phát hành AI đã trở nên khó hơn: cập nhật xuất hiện dày đặc đến mức tiêu đề có thể lỗi thời chỉ sau vài ngày. Hôm nay, trọng tâm là “lý luận mạnh hơn,” hôm sau là tốc độ và độ trễ thấp hơn, và chẳng lâu sau lại là một AI viết mã giống đồng đội hơn. Đến cuối tuần, một đối thủ đăng một thẻ hệ thống mới, và cuộc trò chuyện nhanh chóng chuyển sang các điểm chuẩn và tranh luận về điều gì được xem là “tiến bộ thực sự”.
Nước đi mới nhất của OpenAI trong cuộc đua tốc độ này là GPT‑5.3‑Codex — một mô hình tập trung vào lập trình mang tính tác tử (agentic), nghĩa là nó có thể lập kế hoạch, sử dụng công cụ và xử lý các tác vụ nhiều bước với ít cần kèm cặp hơn. OpenAI mô tả nó là sự kết hợp giữa hiệu năng viết mã hàng đầu từ các phiên bản Codex trước đây với khả năng lý luận mạnh hơn và kiến thức chuyên môn từ họ GPT‑5, đồng thời chạy nhanh hơn 25% đối với người dùng Codex.
Hãy cùng phân tích GPT‑5.3‑Codex thay đổi điều gì, vì sao điều đó quan trọng, và các ông lớn phản ứng ra sao.
Vì sao GPT‑5.3 là một bước tiến lớn
Trước hết, một chi tiết nhỏ nhưng quan trọng: khi mọi người nói “GPT‑5.3,” phiên bản công khai hiện tại là GPT‑5.3‑Codex, một mô hình Codex hướng tới xây dựng phần mềm và làm việc trên máy tính. Nó được thiết kế để xử lý các nhiệm vụ kéo dài bao gồm nghiên cứu, sử dụng công cụ và thực thi phức tạp — giống một đồng nghiệp bạn có thể dẫn dắt hơn là một chatbot đơn giản để hỏi đáp.
OpenAI cũng đưa ra một tuyên bố nghe như khoa học viễn tưởng nhưng được ghi rõ ràng: GPT‑5.3‑Codex đã “đóng vai trò quan trọng trong việc tạo ra chính nó.” Nhóm Codex dùng các phiên bản sớm để gỡ lỗi quá trình huấn luyện, quản lý triển khai và chẩn đoán kết quả thử nghiệm — tức là mô hình đã giúp tăng tốc vòng đời phát triển của chính nó.
Điều đó quan trọng vì một lý do: các vòng phản hồi. Khi công cụ AI giúp xây dựng thế hệ công cụ AI tiếp theo nhanh hơn, nhịp độ phát hành có thể lại tăng. Nếu tiến bộ AI vốn đã nhanh, thì đây là lúc nó “xỏ giày trượt.”
Ngày phát hành, tính năng chính và giá của GPT‑5.3‑Codex
OpenAI giới thiệu GPT‑5.3‑Codex vào ngày 5 tháng 2 năm 2026, mô tả đây là mô hình lập trình mang tính tác tử mạnh mẽ nhất của hãng cho đến nay, và nhấn mạnh cải thiện tốc độ (nhanh hơn 25%) cùng hiệu năng cao hơn trên các điểm chuẩn về lập trình và tác tử.
GPT‑5.3‑Codex được xây dựng để làm gì
OpenAI nhấn mạnh các công việc chạy dài: những tác vụ có thể kéo dài hàng giờ, liên quan đến công cụ và cần nhiều bước.
Họ cũng báo cáo hiệu năng mạnh trên các điểm chuẩn dùng để kiểm tra kỹ nghệ phần mềm thực tế và hành vi tác tử, bao gồm SWE‑Bench Pro và Terminal‑Bench, và đề cập kết quả trên OSWorld và GDPval (các điểm chuẩn nhằm đo lường năng lực sử dụng công cụ trong bối cảnh thực).
Lập trường an toàn được nhấn mạnh hơn trước
Thẻ hệ thống có một dòng rõ ràng: OpenAI xem đây là lần ra mắt đầu tiên dưới nhãn an ninh mạng năng lực cao, với các biện pháp bảo vệ được kích hoạt.
Đó là một tín hiệu quan trọng trong “cuộc chạy đua vũ trang.” Các công ty cạnh tranh về năng lực thuần, nhưng cũng cạnh tranh về khung an toàn, giám sát và mức độ tin cậy.
Giá (OpenAI API) cho GPT‑5.3‑Codex
Với gói Tiêu chuẩn, GPT‑5.3‑Codex được niêm yết:
- $1.75 đầu vào / 1 triệu token
- $0.175 đầu vào được lưu đệm / 1 triệu token
- $14.00 đầu ra / 1 triệu token
Với gói Ưu tiên, mức giá là:
- $3.50 đầu vào / 1 triệu token
- $0.35 đầu vào được lưu đệm / 1 triệu token
- $28.00 đầu ra / 1 triệu token
Tốc độ trở thành vũ khí: GPT‑5.3‑Codex‑Spark và cuộc đua độ trễ
Một tuần sau bản phát hành chính GPT‑5.3‑Codex, OpenAI giới thiệu GPT‑5.3‑Codex‑Spark (ngày 12 tháng 2 năm 2026), gọi đây là một bản xem trước nghiên cứu và là mô hình đầu tiên được thiết kế cho lập trình theo thời gian thực.
OpenAI cho biết Codex‑Spark được tối ưu cho phần cứng siêu thấp độ trễ và có thể tạo hơn 1000 token mỗi giây, hướng tới trải nghiệm gần như tức thì.
Khi ra mắt, OpenAI nêu rõ:
- Cửa sổ ngữ cảnh 128k
- chỉ văn bản
- triển khai dần dưới dạng bản xem trước nghiên cứu cho người dùng ChatGPT Pro, với giới hạn tốc độ riêng trong giai đoạn xem trước
OpenAI cho biết Codex‑Spark chạy trên Cerebras Wafer Scale Engine 3, coi đây là một cột mốc trong quan hệ hợp tác với Cerebras.
OpenAI thậm chí mô tả công việc backend để cắt giảm độ trễ trên toàn bộ pipeline, với các cải thiện như giảm 80% chi phí mỗi lượt trao đổi và cải thiện 50% thời gian tới token đầu tiên nhờ các thay đổi như kết nối duy trì (persistent) và tối ưu hoá tầng suy luận.
Các bài viết độc lập cũng chỉ ra góc độ chiến lược: dùng Cerebras cho đợt triển khai này cho thấy nỗ lực đa dạng hoá phần cứng suy luận, vượt ra khỏi một ngăn xếp vốn phụ thuộc nặng vào Nvidia.
Nói đơn giản: cuộc đua giờ bao gồm chip, mạng, và “thời gian tới token đầu tiên.” Một câu rất thời thượng, và cũng hơi thú vị nếu bạn còn nhớ khi “đang tải…” là chuyện bình thường.
GPT‑5.3 vs Claude Opus 4.6 vs Gemini 3.1 Pro: So sánh trong cuộc chạy đua AI
OpenAI không tung GPT‑5.3‑Codex vào một đấu trường trống. Cùng tháng đó, các đối thủ lớn cũng phát hành nâng cấp đáng kể — thường kèm thẻ hệ thống, tuyên bố điểm chuẩn và ghi chú an toàn của riêng họ.
Anthropic: Claude Opus 4.6 tập trung vào lý luận mạnh và kiểm thử an toàn
Anthropic công bố Claude Opus 4.6 vào ngày 5 tháng 2 năm 2026 — cùng ngày với GPT‑5.3‑Codex — và dẫn độc giả tới thẻ hệ thống với các đánh giá chi tiết về năng lực và an toàn.
Anthropic cũng nhấn mạnh rằng tăng năng lực không đi kèm lệch chuẩn về căn chỉnh, nói rằng Opus 4.6 thể hiện tỷ lệ thấp các hành vi lệch chuẩn (bao gồm lừa dối và nịnh bợ) trong kiểm toán hành vi tự động, và đề cập mở rộng các đánh giá an toàn cùng biện pháp bảo vệ mới.
Một chủ điểm đáng chú ý là an ninh mạng: Anthropic cho biết Opus 4.6 thể hiện năng lực an ninh mạng được tăng cường và họ đã phát triển sáu phép thử (probe) an ninh mạng mới để theo dõi các mẫu lạm dụng.
Vì vậy, trong khi OpenAI gắn cờ năng lực an ninh mạng theo Khung Sẵn sàng (Preparedness Framework) của mình, Anthropic làm nổi bật các bài kiểm thử và probe an ninh mạng mới. Cách tiếp cận khác nhau, thông điệp giống nhau: các mô hình này đủ mạnh để rủi ro mạng trở thành phần tiêu chuẩn trong câu chuyện phát hành.
Google: Gemini 3.1 Pro thúc đẩy lý luận và sức mạnh đa phương thức
Google giới thiệu Gemini 3.1 Pro ở dạng xem trước và cho biết đang triển khai trên các sản phẩm cho người dùng và nhà phát triển.
Google nhấn mạnh tiến bộ trên các điểm chuẩn, bao gồm điểm đã xác minh 77,1% trên ARC‑AGI‑2, được mô tả là hơn gấp đôi hiệu năng lý luận của Gemini 3 Pro.
Trong cuộc chạy đua, chiến lược của Google có vẻ là: lý luận + đa phương thức + phân phối rộng khắp sản phẩm (ứng dụng Gemini, NotebookLM, công cụ nhà phát triển, kênh doanh nghiệp).
Meta: Llama 4 duy trì sức ép trọng số mở lên thị trường
Dòng Llama 4 của Meta (ra mắt tháng 4 năm 2025) vẫn đóng vai trò quan trọng trong năm 2026, vì các mô hình có trọng số mở buộc những bên khác phải tăng tốc và định giá thông minh hơn. Meta giới thiệu Llama 4 Scout và Maverick như các mô hình AI đa phương thức bản địa.
Truyền thông cũng ghi nhận rằng các mô hình Llama 4 cung cấp năng lực cho Meta AI trên các sản phẩm như WhatsApp và Instagram, và nhấn mạnh chi tiết như cửa sổ ngữ cảnh cực lớn của Scout (một báo cáo cho biết tới 10 triệu token).
Mặt tối của cuộc đua: Tranh chấp chưng cất, thu gom dữ liệu và kiện tụng
Mỗi khi một thị trường trở nên giá trị như vậy, người ta bắt đầu tranh cãi về luật lệ, đặc biệt là các quy tắc liên quan đến dữ liệu.
Một ví dụ lớn xuất hiện vào tháng 2 năm 2026: Anthropic nói rằng một số công ty AI Trung Quốc đã dùng đầu ra của Claude để cải thiện mô hình của họ thông qua “chưng cất (distillation),” mô tả hành vi lạm dụng quy mô lớn với khoảng 24.000 tài khoản giả và hơn 16 triệu tương tác, vi phạm điều khoản và hạn chế truy cập.
Chưng cất có thể là kỹ thuật bình thường trong học máy. Nhưng khi dùng đầu ra từ mô hình đóng của công ty khác mà không được phép, nó nhanh chóng trở thành xung đột về sở hữu trí tuệ (IP) và an ninh. Rồi đến các cuộc chiến pháp đình. Ngày 24 tháng 2 năm 2026, Reuters đưa tin một thẩm phán Hoa Kỳ đã bác bỏ (tạm thời) vụ kiện của xAI cáo buộc OpenAI chiếm đoạt bí mật thương mại, đồng thời cho phép xAI thời gian để sửa đổi đơn kiện.
Điều này có ý nghĩa gì với nhà phát triển và doanh nghiệp (và cả người không chuyên)
Nếu bạn xây dựng phần mềm, GPT‑5.3‑Codex và Codex‑Spark gợi mở một tương lai nơi:
- Bạn giao một nhiệm vụ, không phải một lời nhắc đơn lẻ (“điều tra lỗi này, đề xuất sửa, chạy kiểm thử, mở một PR”)
- AI làm việc lâu hơn, giữ ngữ cảnh và sử dụng công cụ đáng tin cậy hơn
- Tốc độ trở thành yếu tố năng suất hàng ngày
Nếu bạn quản lý một đội, câu hỏi cũng thay đổi. Ít còn là “Chúng ta có nên dùng AI không?” mà nhiều hơn là:
- Mô hình nào phù hợp mức rủi ro của chúng ta (đặc biệt với mã nguồn, bảo mật và dữ liệu nhạy cảm)?
- Chúng ta kiểm thử đầu ra và ngăn các lỗi âm thầm như thế nào?
- Chi phí thực là gì khi token và mức sử dụng tăng quy mô?
Nếu bạn đang cố đảm bảo vai trò của mình không dần chuyển thành chỉ rà soát công việc do AI tạo, một quy tắc thực dụng có thể giúp:
Chọn mô hình dựa trên nhiệm vụ.
- Cần lập trình mang tính tác tử chuyên sâu? GPT‑5.3‑Codex được định vị cho việc đó.
- Cần chỉnh sửa tương tác nhanh? Codex‑Spark được xây để lặp nhanh với độ trễ thấp.
- Cần lý luận rộng + đầu vào đa phương thức? Gemini 3.1 Pro được quảng bá mạnh theo hướng đó.
- Cần tài liệu nặng về an toàn và thông điệp doanh nghiệp mạnh? Claude Opus 4.6 đặt thẻ hệ thống và kiểm toán ở vị trí trung tâm.
Kết luận: GPT‑5.3 vặn âm lượng lên
GPT‑5.3‑Codex là một bước tiến hướng tới công việc mang tính tác tử trên máy tính, với cải thiện tốc độ, vị thế mạnh trên các điểm chuẩn, và một lập trường an toàn công khai gắn cờ năng lực an ninh mạng.
Rồi Codex‑Spark thêm thông điệp thứ hai: trận đấu tiếp theo không chỉ là trí tuệ, mà còn là độ trễ — ai có thể khiến AI thực sự theo thời gian thực bên trong các công cụ mà mọi người đã dùng.
Trong khi đó, Claude Opus 4.6 và Gemini 3.1 Pro cho thấy đối thủ không lịch sự chờ đến lượt. Họ phát hành nhanh, công bố thẻ hệ thống, và đẩy mạnh khả năng lý luận cùng đa phương thức.
Cuộc chạy đua AI đang nóng lên. Điều hơi trớ trêu là người chiến thắng có thể được quyết định bởi những thứ nghe có vẻ “nhàm chán” — giá token, phép thử an toàn, giới hạn tốc độ và thời gian tới token đầu tiên. Nhưng vào năm 2026, “nhàm chán” lại thường là nơi tương lai ẩn mình.