מרוץ החימוש בבינה מלאכותית מתחמם עם GPT‑5.3 מרוץ החימוש בבינה מלאכותית מתחמם עם GPT‑5.3

בתחילת 2026, קשה יותר לעמוד בקצב ההשקות בתחום ה-AI: עדכונים מגיעים בתדירות כה גבוהה שהכותרות יכולות להרגיש מיושנות בתוך ימים. יום אחד המוקד הוא “היגיון חזק יותר,” ביום שאחריו זה מהירות ושיהוי נמוך יותר, ומיד לאחר מכן זו בינה מלאכותית שכותבת קוד יותר כמו עמית לצוות. עד סוף השבוע, מתחרה מפרסם כרטיס מערכת חדש, והשיחה זזה במהירות לבנצ'מרקים ולוויכוחים על מה נחשב להתקדמות “אמיתית”.

המהלך האחרון של OpenAI במרוץ המהיר הזה הוא GPT‑5.3‑Codex — מודל שממוקד בקידוד אג׳נטי, כלומר הוא יכול לתכנן, להשתמש בכלים ולעבור משימות מרובות שלבים עם פחות החזקה ביד. OpenAI מתארת אותו כשילוב של ביצועי קידוד מובילים מגרסאות Codex קודמות עם היגיון חזק יותר וידע מקצועי ממשפחת GPT‑5, והוא רץ מהר יותר ב-25% עבור משתמשי Codex.

בואו נפרק מה GPT‑5.3‑Codex משנה, למה זה חשוב, וכיצד השחקנים הגדולים מגיבים.

למה GPT‑5.3 הוא עניין גדול

ראשית, פרט קטן אך חשוב: כשאומרים “GPT‑5.3,” כרגע ההשקה לציבור היא GPT‑5.3‑Codex, מודל Codex שמיועד לבניית תוכנה ולעבודה ממוחשבת. הוא תוכנן לטפל במשימות ארוכות הכוללות מחקר, שימוש בכלים וביצוע מורכב, יותר כמו קולגה שאפשר להדריך מאשר צ׳אטבוט פשוט שמקבלים ממנו תשובות.

OpenAI גם מציינת משפט שנשמע כמו מדע בדיוני, אבל כתוב במפורש: GPT‑5.3‑Codex היה “חיוני ביצירת עצמו.” צוות Codex השתמש בגרסאות מוקדמות כדי לנפות שגיאות באימון, לנהל פריסה ולאבחן תוצאות בדיקה — כלומר המודל סייע להאיץ את מחזור הפיתוח של עצמו.

זה חשוב מסיבה אחת: לולאות משוב. כשכלי AI מסייעים לבנות את דור כלי ה-AI הבא מהר יותר, קצב ההשקות יכול שוב להאיץ. אם ההתקדמות כבר הרגישה מהירה, זה החלק שבו היא נועלת גלגיליות.

תאריך השקה, יכולות עיקריות ותמחור של GPT‑5.3‑Codex

OpenAI הציגה את GPT‑5.3‑Codex ב-5 בפברואר 2026, תיארה אותו כמודל הקידוד האג׳נטי המתקדם ביותר שלה עד כה, והדגישה שיפור מהירות (מהיר יותר ב-25%) וכן ביצועים חזקים יותר בבנצ'מרקים של קוד וסוכנים.

למה נבנה GPT‑5.3‑Codex

OpenAI מדגישה עבודה ארוכת-ריצה: משימות שיכולות להימשך שעות, מערבות כלים, ודורשות צעדים רבים.

היא גם מדווחת על ביצועים חזקים בבנצ'מרקים המשמשים לבחינת הנדסת תוכנה אמיתית והתנהגות אג׳נטית, כולל SWE‑Bench Pro ו-Terminal‑Bench, ומציינת ביצועים על OSWorld ו-GDPval (בנצ'מרקים שמטרתם למדוד יכולות מציאותיות של שימוש בכלים).

עמדת הבטיחות בולטת יותר מבעבר

כרטיס המערכת כולל שורה ברורה: OpenAI מתייחסת לזה כהשקה הראשונה תחת תווית סייבר-ביטחון בעלת-יכולת-גבוהה, עם אמצעי מגן מופעלים.

זהו אות חשוב ל“מרוץ חימוש”. החברות מתחרות על יכולת גולמית, אבל הן גם מתחרות על מסגרות בטיחות, ניטור ואמינות.

תמחור (OpenAI API) עבור GPT‑5.3‑Codex

בשכבת Standard, GPT‑5.3‑Codex מתומחר כך:

  • $1.75 קלט / 1M טוקנים
  • $0.175 קלט במטמון / 1M טוקנים
  • $14.00 פלט / 1M טוקנים

בשכבת Priority, הוא מתומחר כך:

  • $3.50 קלט / 1M טוקנים
  • $0.35 קלט במטמון / 1M טוקנים
  • $28.00 פלט / 1M טוקנים

מהירות הופכת לנשק: GPT‑5.3‑Codex‑Spark ומרוץ ההשהיה

שבוע לאחר ההשקה הראשית של GPT‑5.3‑Codex, OpenAI הציגה את GPT‑5.3‑Codex‑Spark (12 בפברואר 2026), וכינתה אותו תצוגה מקדימה מחקרית והמודל הראשון שלה שתוכנן לקידוד בזמן אמת.

OpenAI אומרת ש-Codex‑Spark מותאם לחומרה בעלת שיהוי אולטרה-נמוך ויכול לספק יותר מ-1000 טוקנים לשנייה, תוך שאיפה לחוויה כמעט מיידית.

בעת ההשקה, OpenAI מציינת:

  • חלון הקשר של 128k
  • טקסט בלבד
  • נפרס כתצוגה מקדימה מחקרית עבור משתמשי ChatGPT Pro, עם מגבלות קצב נפרדות במהלך התצוגה המקדימה

OpenAI אומרת ש-Codex‑Spark רץ על Cerebras Wafer Scale Engine 3, ומתארת זאת כאבן דרך בשותפות שלה עם Cerebras.

OpenAI אף מתארת עבודת צד-שרת להפחתת שיהוי לאורך כל הצנרת, ומזכירה הפחתות כמו 80% פחות תקורה לכל סבב ו-50% שיפור בזמן-עד-לטוקן-ראשון, באמצעות שינויים כגון חיבורים מתמשכים ואופטימיזציות בערימת האינפרנס.

סיקור עצמאי מצביע גם על הזווית האסטרטגית: השימוש ב-Cerebras לפריסה זו מדגיש מאמצים לגוון חומרת אינפרנס מעבר לערימה שרובה Nvidia טיפוסית.

במילים פשוטות: המרוץ כולל כעת שבבים, רשתות, ו“time-to-first-token.” זוהי אמירה מודרנית מאוד, וגם קצת משעשעת אם אתם זוכרים כש“loading…” היה נורמלי.

GPT‑5.3 מול Claude Opus 4.6 מול Gemini 3.1 Pro: השוואת מרוץ החימוש ב-AI

OpenAI לא שחררה את GPT‑5.3‑Codex לאולם ריק. באותו חודש, מתחרים מרכזיים שיגרו גם הם שדרוגים גדולים — לעיתים עם כרטיסי מערכת, טענות בנצ'מרק והערות בטיחות משלהם.

Anthropic: Claude Opus 4.6 מתמקד בהיגיון חזק ובבדיקות בטיחות

Anthropic הכריזה על Claude Opus 4.6 ב-5 בפברואר 2026 — באותו יום של GPT‑5.3‑Codex — והפנתה הקוראים לכרטיס מערכת עם הערכות מפורטות של יכולות ובטיחות.

Anthropic גם מדגישה שהשיפורים ביכולת אינם מגיעים על חשבון היישור, ואומרת כי Opus 4.6 מציג שיעור נמוך של התנהגויות בלתי מיושרות (כולל הטעיה וחנופה) בביקורת ההתנהגות האוטומטית שלו, ומזכירה הערכות בטיחות מורחבות ואמצעי מגן חדשים.

נושא בולט הוא סייבר: Anthropic אומרת כי Opus 4.6 מפגין יכולות סייבר משופרות וכי פיתחה שישה פרובי-סייבר חדשים למעקב אחר דפוסי שימוש לרעה.

כלומר, בעוד OpenAI מסמנת יכולות סייבר תחת ה-Preparedness Framework שלה, Anthropic מדגישה בדיקות סייבר ופרובים חדשים. גישה שונה, אותו מסר: המודלים הללו חזקים מספיק כך שסיכון סייבר הוא כעת חלק סטנדרטי מסיפור ההשקה.

Google: Gemini 3.1 Pro דוחף היגיון ועוצמה מולטימודלית

Google הציגה את Gemini 3.1 Pro בתצוגה מקדימה ואומרת שהוא מתגלגל ברחבי מוצרי צרכן ומפתחים.

Google מדגישה התקדמות בבנצ'מרקים, כולל ציון מאומת של 77.1% ב-ARC‑AGI‑2, ומתארת זאת ביותר מכפילת ביצועי ההיגיון לעומת Gemini 3 Pro.

לצורכי מרוץ החימוש, האסטרטגיה של Google נראית כך: היגיון + מולטימודליות + הפצה רחבה במוצרים (אפליקציית Gemini, NotebookLM, כלי מפתחים, ערוצים ארגוניים).

Meta: Llama 4 ממשיך להפעיל לחץ שוק עם משקלים פתוחים

משפחת Llama 4 של Meta (הושקה באפריל 2025) עדיין משחקת תפקיד חשוב ב-2026, משום שמודלים בעלי משקלים פתוחים מכריחים את כולם לנוע מהר יותר ולתמחר בחוכמה. Meta הציגה את Llama 4 Scout ו-Maverick כמודלים מולטימודליים באופן טבעי.

סיקור בתקשורת מדגיש גם שמודלי Llama 4 מניעים את Meta AI ברחבי מוצרים כמו WhatsApp ו-Instagram, ומבליטים פרטים כמו חלון ההקשר הענקי של Scout (מדווח כ-10 מיליון טוקנים באחד הדיווחים).

הצד האפל יותר של המרוץ: מאבקי דיסטילציה, איסופי נתונים ותביעות

כשהשוק הופך יקר ערך כל כך, מתחילים להתווכח על החוקים, במיוחד על החוקים סביב נתונים.

דוגמה גדולה הגיחה בפברואר 2026: Anthropic אמרה שכמה חברות AI סיניות השתמשו בפלטים של Claude כדי לשפר מודלים משלהן באמצעות “דיסטילציה,” ותיארה ניצול רחב-היקף עם כ-24,000 חשבונות מזויפים ולמעלה מ-16 מיליון אינטראקציות, תוך הפרת תנאים והגבלות גישה.

דיסטילציה יכולה להיות טכניקה רגילה בלמידת מכונה. אבל כשהיא עושה שימוש בפלטים של מודל סגור של חברה אחרת ללא רשות, זה מהר מאוד הופך לעימות על קניין רוחני וביטחון. ואז מגיעים הקרבות בבית המשפט. ב-24 בפברואר 2026, רויטרס דיווחה ששופט פדרלי בארה״ב דחה (לעת עתה) את התביעה של xAI בטענה של גזילת סודות מסחריים מצד OpenAI, תוך מתן זמן ל-xAI לתקן את כתב התביעה.

מה זה אומר למפתחים ולעסקים (ולמי שאינם מומחים)

אם אתם בונים תוכנה, GPT‑5.3‑Codex ו-Codex‑Spark מצביעים על עתיד שבו:

  • אתם מגדירים משימה, לא פרומפט בודד (“תחקורו את הבאג הזה, הציעו תיקונים, הריצו בדיקות, פתחו PR”)
  • ה-AI עובד לאורך זמן, שומר הקשר, ומשתמש בכלים באופן אמין יותר
  • מהירות הופכת לגורם פרודוקטיביות יומיומי

אם אתם מנהלים צוות, השאלה משתנה גם כן. היא הופכת לפחות “האם להשתמש ב-AI?” ויותר:

  • איזה מודל מתאים לרמת הסיכון שלנו (במיוחד לקוד, אבטחה ונתונים רגישים)?
  • איך בודקים פלטים ומונעים כשלים שקטים?
  • מה העלות האמיתית כשנפחי הטוקנים והשימוש גדלים?

אם אתם מנסים לוודא שהתפקיד שלכם לא יוסט בהדרגה רק לביקורת על עבודה שנוצרה בידי AI, כלל מעשי אחד יכול לעזור:

בחרו מודלים לפי משימות.

  • צריכים קידוד אג׳נטי עמוק? GPT‑5.3‑Codex ממוקם בדיוק לזה.
  • צריכים עריכות אינטראקטיביות מהירות? Codex‑Spark בנוי לאיטרציה בעלת שיהוי נמוך.
  • צריכים היגיון רחב + קלטים מולטימודליים? Gemini 3.1 Pro משווק חזק בכיוון הזה.
  • צריכים תיעוד בטיחות כבד ומסר ארגוני חזק? Claude Opus 4.6 מציב כרטיסי מערכת וביקורות בחזית.

סיכום: GPT‑5.3 מעלה את הווליום

GPT‑5.3‑Codex הוא צעד לעבר עבודה אג׳נטית במחשבים, עם שיפורי מהירות, מיצוב חזק בבנצ'מרקים, ועמדת בטיחות שמסמנת בגלוי יכולת סייבר.

ואז Codex‑Spark מוסיף מסר שני: הקרב הבא הוא לא רק על אינטליגנציה, אלא גם על שיהוי — מי יצליח לגרום ל-AI להרגיש בזמן אמת ממש בתוך הכלים שאנשים כבר משתמשים בהם.

במקביל, Claude Opus 4.6 ו-Gemini 3.1 Pro מראים שהמתחרים לא ממתינים בנימוס לתורם. הם משגרים במהירות, מפרסמים כרטיסי מערכת, ודוחפים חזק את יכולות ההיגיון והמולטימודליות.

מרוץ החימוש ב-AI מתחמם. החלק האירוני במקצת הוא שהמנצחים עשויים להיות מוכרעים על-ידי דברים שנשמעים “משעממים” — מחירי טוקנים, בדיקות בטיחות, מגבלות קצב, ו-time-to-first-token. אבל ב-2026, “משעמם” הוא לעיתים המקום שבו העתיד מסתתר.

פוסטים נוספים של המחבר

Claude Mythos של Anthropic: האם המודל מסוכן מדי לשחרור לציבור?
מאמר
Claude Mythos של Anthropic: האם המודל מסוכן מדי לשחרור לציבור?
Claude Mythos Preview היא השקת ה-AI השנויה ביותר במחלוקת של Anthropic עד כה. גלו מדוע היא מוגבלת, מה היא יכולה לעשות, ומדוע רגולטורים ובנקים שמים לב.
מה 81,000 אנשים אמרו ל-Anthropic שהם רוצים מבינה מלאכותית
מאמר
מה 81,000 אנשים אמרו ל-Anthropic שהם רוצים מבינה מלאכותית
Anthropic ניתחה 80,508 ראיונות עם משתמשי בינה מלאכותית ב־159 מדינות כדי להבין מה אנשים רוצים מ‑AI, מה מדאיג אותם, והיכן הכלים של היום עדיין לוקים בחסר.
נביוס מתכננת מרכז נתוני בינה מלאכותית בשווי 10 מיליארד דולר בפינלנד על רקע מירוץ ה-AI באירופה
מאמר
נביוס מתכננת מרכז נתוני בינה מלאכותית בשווי 10 מיליארד דולר בפינלנד על רקע מירוץ ה-AI באירופה
Nebius מתכננת מרכז נתוני בינה מלאכותית בהספק 310 מגה-ואט בפינלנד. הנה מדוע פרויקט לאפנראנטה חשוב למרוץ ה-AI של אירופה, לתשתיות ולריבונות.
הדפדפן הופך לסוכן: מדוע החיפוש מתחיל לפעול
מאמר
הדפדפן הופך לסוכן: מדוע החיפוש מתחיל לפעול
חיפוש מבוסס בינה מלאכותית לומד לפעול בתוך הדפדפן, לא רק להשיב. כך סוכני הדפדפן משנים את קידום האתרים (SEO), התעבורה, הפרטיות ועתיד הרשת הפתוחה.