رقابت تسلیحاتی هوش مصنوعی با GPT‑5.3 شدت میگیرد
در اوایل ۲۰۲۶، همگام ماندن با انتشارهای هوش مصنوعی دشوارتر شده است: بهروزرسانیها آنقدر پیدرپی میرسند که تیترها ظرف چند روز کهنه بهنظر میرسند. یک روز تمرکز بر “استدلال قویتر,” است، روز بعد بر سرعت و کاهش تأخیر، و کمی بعدتر بر یک هوش مصنوعی که شبیه یک همتیمی کدنویسی میکند. تا آخر هفته، رقیبی یک کارت سیستم تازه منتشر میکند و گفتگو بهسرعت به بنچمارکها و بحث دربارهٔ اینکه چه چیزی “پیشرفت واقعی” محسوب میشود، تغییر مسیر میدهد.
OpenAI’s آخرین حرکت در این رقابت پرشتاب GPT‑5.3‑Codex است — مدلی متمرکز بر کدنویسی عاملمحور؛ یعنی میتواند برنامهریزی کند، از ابزارها استفاده کند و کارهای چندمرحلهای را با اتکای کمتر به راهنمایی انسان پیش ببرد. OpenAI آن را چنین توصیف میکند: ترکیبِ عملکرد برتر کدنویسی از نسخههای پیشین Codex با استدلال قویتر و دانش حرفهای خانوادهٔ GPT‑5 و اجرا شدن ۲۵٪ سریعتر برای کاربران Codex.
بیایید ببینیم GPT‑5.3‑Codex چه چیزهایی را تغییر میدهد، چرا مهم است، و بازیگران بزرگ چگونه واکنش نشان میدهند.
چرا GPT‑5.3 مهم است
اول، یک نکتهٔ کوچک اما مهم: وقتی مردم میگویند “GPT‑5.3”، انتشار عمومی فعلاً GPT‑5.3‑Codex است؛ یک مدل Codex که برای ساخت نرمافزار و کارهای رایانهمحور طراحی شده. این مدل طوری ساخته شده که کارهای طولانی را که شامل تحقیق، استفاده از ابزار، و اجرای پیچیده هستند، بیش از یک چتبات ساده و شبیه یک همکار هدایتشدنی انجام دهد.
OpenAI همچنین ادعایی میکند که شبیه داستان علمیتخیلی بهنظر میرسد، اما بهروشنی نوشته شده: GPT‑5.3‑Codex “نقش محوری در ساختن خودش” داشته است. تیم Codex از نسخههای اولیه برای اشکالزداییِ فرایند آموزش، مدیریت استقرار، و عیبیابی نتایج آزمون استفاده کرده است — یعنی خودِ مدل به تسریع چرخهٔ توسعهٔ خودش کمک کرده است.
این به یک دلیل مهم است: حلقههای بازخورد. وقتی ابزارهای هوش مصنوعی به ساخت سریعتر نسل بعدی ابزارهای هوش مصنوعی کمک میکنند، آهنگ انتشارها میتواند دوباره تندتر شود. اگر پیشرفتِ هوش مصنوعی از قبل هم تند بهنظر میرسید، این همان جایی است که کفشهای چرخدار میپوشد.
تاریخ انتشار، ویژگیهای کلیدی و قیمت GPT‑5.3‑Codex
OpenAI در ۵ فوریهٔ ۲۰۲۶ GPT‑5.3‑Codex را معرفی کرد، آن را توانمندترین مدل عاملمحورِ کدنویسی خود تاکنون خواند و بر افزایش سرعت (۲۵٪ سریعتر) بههمراه عملکرد قویتر در بنچمارکهای کدنویسی و عاملمحور تأکید کرد.
GPT‑5.3‑Codex برای چه ساخته شده است
OpenAI بر کارهای طولانیمدت تأکید میکند: وظایفی که ممکن است ساعتها طول بکشند، درگیرِ ابزارها شوند و به مراحل متعدد نیاز داشته باشند.
همچنین گزارش میدهد که این مدل در بنچمارکهایی که مهندسی نرمافزار واقعی و رفتار عاملها را میسنجند عملکرد نیرومندی دارد، از جمله SWE‑Bench Pro و Terminal‑Bench، و به نتایج در OSWorld و GDPval (بنچمارکهایی برای سنجش تواناییهای واقعیِ ابزارمحور) اشاره میکند.
موضع ایمنی پررنگتر از قبل است
کارت سیستم یک خط روشن دارد: OpenAI این را نخستین انتشار خود ذیل برچسب “قابلیتِ بالا در امنیت سایبری” با فعالسازی تدابیر محافظتی میداند.
این یک سیگنال مهم در “رقابت تسلیحاتی” است. شرکتها بر سر توان خام رقابت میکنند، اما همزمان بر سر چارچوبهای ایمنی، پایش و اعتبار هم رقابت دارند.
قیمتگذاری (API شرکت OpenAI) برای GPT‑5.3‑Codex
برای لایهٔ Standard، GPT‑5.3‑Codex اینگونه فهرست شده است:
- $1.75 ورودی / 1M توکن
- $0.175 ورودیِ کششده / 1M توکن
- $14.00 خروجی / 1M توکن
برای لایهٔ Priority، اینگونه فهرست شده است:
- $3.50 ورودی / 1M توکن
- $0.35 ورودیِ کششده / 1M توکن
- $28.00 خروجی / 1M توکن
سرعت به سلاح تبدیل میشود: GPT‑5.3‑Codex‑Spark و رقابتِ تأخیر
یک هفته پس از انتشار اصلی GPT‑5.3‑Codex، OpenAI در ۱۲ فوریهٔ ۲۰۲۶ GPT‑5.3‑Codex‑Spark را معرفی کرد و آن را یک پیشنمایش پژوهشی و نخستین مدل خود برای کدنویسی بلادرنگ نامید.
OpenAI میگوید Codex‑Spark برای سختافزارِ فوقکمتأخیر بهینه شده و میتواند بیش از ۱۰۰۰ توکن در ثانیه تولید کند تا تجربهای تقریباً آنی فراهم آورد.
در زمان عرضه، OpenAI اعلام میکند:
- پنجرهٔ زمینهٔ 128k
- فقط متن
- عرضه بهصورت پیشنمایش پژوهشی برای کاربران ChatGPT Pro، با محدودیتهای نرخ جداگانه طی دورهٔ پیشنمایش
OpenAI میگوید Codex‑Spark بر روی Cerebras Wafer Scale Engine 3 اجرا میشود و آن را نقطهٔ عطفی در شراکت خود با Cerebras توصیف میکند.
OpenAI حتی به کارهای بکاند برای کاهش تأخیر در سراسر خط لوله اشاره میکند، از جمله کاهشهایی مانند ۸۰٪ سربار کمتر در هر رفتوبرگشت و ۵۰٪ بهبود در “زمان تا اولین توکن” از طریق تغییراتی نظیر اتصالهای پایدار و بهینهسازیهای پشتهٔ استنتاج.
گزارشهای مستقل همچنین به بُعد راهبردی اشاره میکنند: استفاده از Cerebras برای این استقرار نشان میدهد تلاشی در جریان است تا سختافزار استنتاج فراتر از پشتهٔ معمولاً سنگینِ انویدیا متنوع شود.
به بیان ساده: رقابت اکنون شامل تراشهها، شبکهسازی و “زمان تا اولین توکن” هم میشود. که جملهای بسیار مدرن است، و کمی هم بامزه اگر به یاد بیاورید زمانی که “loading…” عادی بود.
مقایسهٔ رقابت تسلیحاتی هوش مصنوعی: GPT‑5.3 در برابر Claude Opus 4.6 و Gemini 3.1 Pro
OpenAI، GPT‑5.3‑Codex را در میدانِ خالی منتشر نکرد. در همان ماه، رقبای بزرگ نیز ارتقاهای عمدهای عرضه کردند — اغلب با کارتهای سیستم، ادعاهای بنچمارکی و نکات ایمنیِ مخصوص خود.
Anthropic: تمرکز Claude Opus 4.6 بر استدلال قوی و آزمونهای ایمنی
Anthropic در ۵ فوریهٔ ۲۰۲۶ — در همان روزِ GPT‑5.3‑Codex — Claude Opus 4.6 را اعلام کرد و خوانندگان را به کارت سیستمی با ارزیابیهای مفصل توانمندی و ایمنی ارجاع داد.
Anthropic همچنین تأکید میکند که افزایش توانمندی با بدتر شدن همسویی همراه نشده است، و میگوید Opus 4.6 در ممیزی رفتاریِ خودکارش نرخ پایینی از رفتارهای ناهمسو (از جمله فریب و تملقگویی) نشان میدهد و به ارزیابیهای ایمنیِ گسترشیافته و حفاظهای جدید اشاره میکند.
تمایز چشمگیر، امنیت سایبری است: Anthropic میگوید Opus 4.6 توانمندیهای امنیت سایبری تقویتشدهای نشان میدهد و اینکه شش پروب امنیت سایبری تازه برای رصد الگوهای سوءاستفاده توسعه داده است.
پس در حالی که OpenAI قابلیتهای امنیت سایبری را ذیل چارچوب آمادگی خود پرچمگذاری میکند، Anthropic بر آزمونها و پروبهای امنیت سایبریِ جدید تأکید میکند. رویکردی متفاوت، اما پیامی مشابه: این مدلها آنقدر نیرومند شدهاند که ریسک سایبری اکنون جزئی ثابت از روایتِ انتشار است.
Google: Gemini 3.1 Pro پیشبرندهٔ استدلال و توان چندوجهی
Google، Gemini 3.1 Pro را در پیشنمایش معرفی کرده و میگوید در محصولات مصرفی و توسعهدهندگان در حال عرضه است.
Google بر پیشرفت در بنچمارکها تأکید میکند، از جمله امتیاز تأییدشدهٔ ۷۷.۱٪ در ARC‑AGI‑2، و آن را بیش از دو برابرِ عملکرد استدلالیِ Gemini 3 Pro توصیف میکند.
برای این رقابت تسلیحاتی، راهبرد Google چنین بهنظر میرسد: استدلال + چندوجهی + توزیعِ گسترده در محصولات (اپلیکیشن Gemini، NotebookLM، ابزارهای توسعه، و کانالهای سازمانی).
Meta: خانوادهٔ Llama 4 فشارِ وزنهای باز را بر بازار حفظ میکند
خانوادهٔ Llama 4 (منتشرشده در آوریل ۲۰۲۵) در ۲۰۲۶ همچنان نقش مهمی بازی میکند، زیرا مدلهای با وزنهای باز همهٔ دیگران را وادار میکنند سریعتر حرکت کنند و هوشمندانهتر قیمتگذاری کنند. Meta، Llama 4 Scout و Maverick را بهعنوان مدلهای ذاتاً چندوجهی معرفی کرد.
رسانهها همچنین اشاره میکنند که مدلهای Llama 4، Meta AI را در سراسر محصولاتی مانند WhatsApp و Instagram توان میبخشند و به جزئیاتی مانند پنجرهٔ زمینهٔ بسیار بزرگِ Scout (در یک گزارش تا ۱۰ میلیون توکن) اشاره دارند.
روی تیرهتر رقابت: نبردهای تقطیر، گردآوری داده و دعاوی حقوقی
هرگاه بازاری اینقدر ارزشمند شود، مردم بر سر قواعد دعوا میکنند؛ بهویژه قواعد مربوط به داده.
مثالی بزرگ در فوریهٔ ۲۰۲۶ مطرح شد: Anthropic گفت چندین شرکت چینیِ هوش مصنوعی از خروجیهای Claude برای بهبود مدلهای خود از طریق “تقطیر” استفاده کردهاند و آن را سوءاستفادهٔ گسترده با حدود ۲۴٬۰۰۰ حساب جعلی و بیش از ۱۶ میلیون تعامل توصیف کرد که ناقض شرایط و محدودیتهای دسترسی بوده است.
تقطیر میتواند روشی معمول در یادگیری ماشین باشد. اما وقتی بدون اجازه از خروجیهای یک مدل بستهٔ متعلق به شرکت دیگر استفاده کند، خیلی سریع به مناقشهٔ مالکیت فکری و امنیت تبدیل میشود. بعد هم دعواهای دادگاهی هست. در ۲۴ فوریهٔ ۲۰۲۶، رویترز گزارش داد که یک قاضی آمریکایی فعلاً شکایت xAI علیه OpenAI به اتهام تصاحب اسرار تجاری را رد کرده، در عین حال به xAI مهلت داده تا دادخواست خود را اصلاح کند.
این برای توسعهدهندگان و کسبوکارها چه معنایی دارد (و برای غیرمتخصصان)
اگر نرمافزار میسازید، GPT‑5.3‑Codex و Codex‑Spark نوید آیندهای را میدهند که در آن:
- یک وظیفه میسپارید، نه یک پرامپتِ تکی (“این باگ را بررسی کن، راهکار پیشنهاد بده، تستها را اجرا کن، یک PR باز کن”)
- هوش مصنوعی مدتزمان بیشتری کار میکند، زمینه را حفظ میکند و ابزارها را مطمئنتر بهکار میگیرد
- سرعت به عامل روزمرهٔ بهرهوری تبدیل میشود
اگر تیمی را مدیریت میکنید، پرسش هم عوض میشود. دیگر کمتر این است که “آیا باید از هوش مصنوعی استفاده کنیم؟” و بیشتر اینکه:
- کدام مدل با سطح ریسک ما سازگار است (بهویژه برای کد، امنیت و دادههای حساس)؟
- خروجیها را چگونه بیازماییم و از شکستهای پنهان جلوگیری کنیم؟
- وقتی توکنها و مصرف مقیاس میگیرند، هزینهٔ واقعی چیست؟
اگر میکوشید مطمئن شوید نقش شما آهستهآهسته به “فقط بازبینی کار تولیدشده توسط هوش مصنوعی” تقلیل پیدا نکند، یک قاعدهٔ عملی میتواند کمک کند:
مدلها را بر اساس وظیفه انتخاب کنید.
- کدنویسی عمیقِ عاملمحور میخواهید؟ GPT‑5.3‑Codex دقیقاً برای همین جایگاهدهی شده است.
- ویرایش تعاملیِ سریع میخواهید؟ Codex‑Spark برای تکرارهای کمتأخیر ساخته شده است.
- استدلال گسترده + ورودیهای چندوجهی میخواهید؟ Gemini 3.1 Pro بهشدت در این جهت معرفی شده است.
- مستندسازیِ پررنگِ ایمنی و پیامرسانی سازمانیِ قوی میخواهید؟ Claude Opus 4.6 کارتهای سیستم و ممیزیها را در مرکز توجه میگذارد.
جمعبندی: GPT‑5.3 ولوم را بالا میبرد
GPT‑5.3‑Codex گامی بهسوی کارِ عاملمحور روی رایانههاست، با بهبودهای سرعت، جایگاهگیریِ قوی در بنچمارکها، و موضع ایمنیای که توانمندی امنیت سایبری را بهصراحت پرچمگذاری میکند.
و سپس Codex‑Spark پیام دومی میافزاید: نبرد بعدی فقط بر سر هوش نیست، بلکه بر سر تأخیر هم هست — اینکه چه کسی میتواند حسِ واقعاً بلادرنگ را در ابزارهایی که مردم همین حالا استفاده میکنند ایجاد کند.
در همین حال، Claude Opus 4.6 و Gemini 3.1 Pro نشان میدهند که رقبا مؤدبانه منتظر نوبت نمیمانند. آنها سریع عرضه میکنند، کارتهای سیستم منتشر میکنند و بهشدت بر استدلال و قابلیتهای چندوجهی فشار میآورند.
رقابت تسلیحاتی هوش مصنوعی داغتر میشود. بخشِ کمی طنزآمیز ماجرا این است که شاید برندگان را چیزهایی تعیین کنند که حوصلهسربر بهنظر میرسند — قیمت توکن، پروبهای ایمنی، محدودیتهای نرخ و زمان تا اولین توکن. اما در ۲۰۲۶، “حوصلهسربر” اغلب همانجایی است که آینده پنهان شده است.