Das KI‑Wettrüsten heizt sich mit GPT‑5.3 auf
Anfang 2026 ist es schwieriger geworden, mit KI-Veröffentlichungen Schritt zu halten: Updates kommen so häufig, dass sich Schlagzeilen binnen Tagen veraltet anfühlen. An einem Tag lautet der Fokus “stärkeres Reasoning,” am nächsten geht es um Geschwindigkeit und geringere Latenz, und kurz darauf um eine KI, die Code eher wie ein Teamkollege schreibt. Bis zum Wochenende postet ein Wettbewerber eine neue Systemkarte, und die Diskussion verschiebt sich schnell zu Benchmarks und Debatten darüber, was als “echter” Fortschritt gilt.
Der neueste Schritt von OpenAI in diesem schnellen Rennen ist GPT‑5.3‑Codex — ein Modell, das auf agentisches Programmieren fokussiert ist, also planen, Werkzeuge nutzen und mehrschrittige Aufgaben mit weniger Betreuung abarbeiten kann. OpenAI beschreibt es als die Kombination aus Spitzenleistung beim Programmieren aus früheren Codex-Versionen mit stärkerem Reasoning und professionellem Wissen aus der GPT‑5-Familie und als 25% schneller für Codex-Nutzer.
Schauen wir uns an, was GPT‑5.3‑Codex ändert, warum es wichtig ist und wie die großen Akteure reagieren.
Warum GPT‑5.3 ein großes Ding ist
Zunächst ein kleines, aber wichtiges Detail: Wenn Leute “GPT‑5.3” sagen, ist die derzeitige öffentliche Veröffentlichung GPT‑5.3‑Codex, ein Codex-Modell, das auf die Erstellung von Software und computerbasierte Arbeit ausgerichtet ist. Es ist dafür gedacht, lange Aufgaben zu bewältigen, die Recherche, Tool-Nutzung und komplexe Ausführung umfassen — eher wie eine Kollegin oder ein Kollege, den man anleitet, als wie ein einfacher Chatbot, den man befragt.
OpenAI macht zudem eine Aussage, die wie Science-Fiction klingt, aber im Klartext steht: GPT‑5.3‑Codex war “maßgeblich an der eigenen Entstehung beteiligt.” Das Codex-Team nutzte frühe Versionen, um das Training zu debuggen, die Bereitstellung zu steuern und Testergebnisse zu diagnostizieren — das heißt, das Modell half, seinen eigenen Entwicklungszyklus zu beschleunigen.
Das ist aus einem Grund wichtig: Rückkopplungsschleifen. Wenn KI-Tools dabei helfen, die nächsten KI-Tools schneller zu bauen, kann das Tempo der Veröffentlichungen erneut steigen. Wenn sich KI-Fortschritt schon schnell anfühlte, ist das der Moment, in dem er sich Rollschuhe anzieht.
GPT‑5.3‑Codex: Veröffentlichungsdatum, Schlüsselfunktionen und Preise
OpenAI stellte GPT‑5.3‑Codex am 5. Februar 2026 vor, beschrieb es als sein bisher fähigstes Modell für agentisches Programmieren und hob einen Geschwindigkeitsgewinn (25% schneller) sowie stärkere Leistung bei Coding- und Agent-Benchmarks hervor.
Wofür GPT‑5.3‑Codex gebaut ist
OpenAI betont langlaufende Arbeit: Aufgaben, die Stunden dauern können, Tools einbeziehen und viele Schritte erfordern.
Außerdem berichtet das Unternehmen von starker Performance bei Benchmarks, die echte Softwaretechnik und Agentenverhalten testen, darunter SWE‑Bench Pro und Terminal‑Bench, und nennt Leistungen bei OSWorld und GDPval (Benchmarks zur Messung realer, toolgestützter Fähigkeiten).
Die Sicherheitsausrichtung ist deutlicher als zuvor
Die Systemkarte enthält eine klare Aussage: OpenAI behandelt dies als seinen ersten Start unter einem High‑Capability‑Cybersecurity‑Label, mit aktivierten Schutzmaßnahmen.
Das ist ein wichtiges Signal im “Wettrüsten”. Unternehmen konkurrieren nicht nur bei der reinen Leistungsfähigkeit, sondern auch bei Sicherheitsrahmenwerken, Monitoring und Glaubwürdigkeit.
Preise (OpenAI API) für GPT‑5.3‑Codex
Für die Standard-Stufe ist GPT‑5.3‑Codex wie folgt angegeben:
- $1,75 Eingabe / 1 Mio. Token
- $0,175 zwischengespeicherte Eingabe / 1 Mio. Token
- $14,00 Ausgabe / 1 Mio. Token
Für die Priority-Stufe ist es wie folgt angegeben:
- $3,50 Eingabe / 1 Mio. Token
- $0,35 zwischengespeicherte Eingabe / 1 Mio. Token
- $28,00 Ausgabe / 1 Mio. Token
Geschwindigkeit wird zur Waffe: GPT‑5.3‑Codex‑Spark und das Latenzrennen
Eine Woche nach der Hauptveröffentlichung von GPT‑5.3‑Codex stellte OpenAI am 12. Februar 2026 GPT‑5.3‑Codex‑Spark vor, nannte es eine Forschungsvorschau und sein erstes Modell, das für Echtzeit-Programmierung entwickelt wurde.
OpenAI sagt, Codex‑Spark sei für Hardware mit ultraniedriger Latenz optimiert und könne mehr als 1000 Token pro Sekunde liefern, mit dem Ziel einer nahezu sofortigen Erfahrung.
Zum Start nennt OpenAI:
- 128k Kontextfenster
- nur Text
- Rollout als Forschungsvorschau für ChatGPT-Pro-Nutzer, mit separaten Ratenlimits während der Vorschau
OpenAI sagt, Codex‑Spark laufe auf der Cerebras Wafer Scale Engine 3 und bezeichnet dies als Meilenstein in der Partnerschaft mit Cerebras.
OpenAI beschreibt sogar Backend-Arbeiten zur Senkung der Latenz in der gesamten Pipeline und erwähnt Reduktionen wie 80% weniger Overhead pro Roundtrip und 50% Verbesserung bei der Time‑to‑First‑Token durch Änderungen wie persistente Verbindungen und Optimierungen im Inferenz-Stack.
Unabhängige Berichte heben zudem den strategischen Aspekt hervor: Die Nutzung von Cerebras für diesen Einsatz unterstreicht die Bemühungen, die Inferenz-Hardware über einen typischerweise Nvidia-lastigen Stack hinaus zu diversifizieren.
Kurz gesagt: Zum Rennen gehören jetzt Chips, Netzwerke und “Time‑to‑First‑Token.” Das ist ein sehr moderner Satz — und auch ein bisschen lustig, wenn man sich daran erinnert, als “Wird geladen…” normal war.
GPT‑5.3 vs Claude Opus 4.6 vs Gemini 3.1 Pro: Vergleich im KI-Wettrennen
OpenAI hat GPT‑5.3‑Codex nicht in eine leere Arena entlassen. Im selben Monat brachten große Wettbewerber ebenfalls große Upgrades heraus — oft mit eigenen Systemkarten, Benchmark-Ansprüchen und Sicherheitshinweisen.
Anthropic: Claude Opus 4.6 fokussiert starkes Reasoning und Sicherheitstests
Anthropic kündigte Claude Opus 4.6 am 5. Februar 2026 an — am selben Tag wie GPT‑5.3‑Codex — und verwies auf eine Systemkarte mit detaillierten Fähigkeits- und Sicherheitsbewertungen.
Anthropic betont außerdem, dass Fähigkeitszuwächse nicht mit schlechterer Ausrichtung einhergehen. Opus 4.6 zeige in seinem automatisierten Verhaltensaudit eine niedrige Rate fehlangepasster Verhaltensweisen (einschließlich Täuschung und Anbiederung) und nennt erweiterte Sicherheitsbewertungen sowie neue Schutzmaßnahmen.
Auffällig ist das Thema Cybersicherheit: Anthropic sagt, Opus 4.6 zeige verbesserte Cybersicherheitsfähigkeiten und man habe sechs neue Cybersicherheits-Prüfmethoden entwickelt, um Missbrauchsmuster zu verfolgen.
Während OpenAI also Cybersicherheitsfähigkeit unter seinem Preparedness Framework flaggt, hebt Anthropic neue Cybersicherheitstests und -proben hervor. Unterschiedlicher Ansatz, gleiche Botschaft: Diese Modelle sind so leistungsfähig, dass Cyberrisiken nun ein Standardteil der Release-Story sind.
Google: Gemini 3.1 Pro treibt Reasoning und Multimodalität
Google stellte Gemini 3.1 Pro in der Vorschau vor und sagt, es werde über Verbraucher- und Entwicklerprodukte ausgerollt.
Google hebt Benchmark-Fortschritte hervor, darunter eine verifizierte Punktzahl von 77,1% auf ARC‑AGI‑2, und beschreibt dies als mehr als doppelt so hohe Reasoning-Leistung wie bei Gemini 3 Pro.
Für das Wettrennen sieht Googles Strategie so aus: Reasoning + Multimodalität + breite Produktverteilung (Gemini-App, NotebookLM, Entwickler-Tools, Enterprise-Kanäle).
Meta: Llama 4 hält den Open-Weight-Druck im Markt aufrecht
Metas Llama‑4‑Familie (veröffentlicht im April 2025) spielt auch 2026 weiterhin eine wichtige Rolle, weil Open-Weight-Modelle alle anderen zu schnellerem Vorgehen und klügerer Preisgestaltung zwingen. Meta führte Llama 4 Scout und Maverick als nativ multimodale KI-Modelle ein.
Medienberichte verweisen außerdem darauf, dass Llama‑4‑Modelle Meta AI in Produkten wie WhatsApp und Instagram antreiben, und heben Details hervor wie das extrem große Kontextfenster von Scout (in einem Bericht mit 10 Millionen Token angegeben).
Die dunklere Seite des Rennens: Distillation-Streit, Datenabgriffe und Klagen
Wann immer ein Markt so wertvoll wird, beginnen die Debatten über Regeln — insbesondere über Regeln rund um Daten.
Ein großes Beispiel tauchte im Februar 2026 auf: Anthropic sagte, mehrere chinesische KI-Unternehmen hätten Claude-Ausgaben genutzt, um ihre eigenen Modelle durch “Distillation” zu verbessern, und beschrieb massenhaften Missbrauch mit etwa 24.000 Fake-Konten und über 16 Millionen Interaktionen — unter Verstoß gegen Nutzungsbedingungen und Zugriffsbeschränkungen.
Distillation kann in der Machine Learning-Praxis eine normale Technik sein. Aber wenn dafür Ausgaben eines geschlossenen Modells eines anderen Unternehmens ohne Erlaubnis verwendet werden, wird es schnell zu einem Konflikt um geistiges Eigentum und Sicherheit. Dann sind da noch die Gerichtssäle: Am 24. Februar 2026 berichtete Reuters, dass ein US-Richter die Klage von xAI, die OpenAI die Aneignung von Geschäftsgeheimnissen vorwarf, vorerst abwies, xAI jedoch Zeit gab, seine Beschwerde zu überarbeiten.
Was das für Entwickler und Unternehmen bedeutet (und für Nicht-Spezialisten)
Wenn Sie Software bauen, deuten GPT‑5.3‑Codex und Codex‑Spark auf eine Zukunft hin, in der:
- Sie eine Aufgabe vergeben, nicht eine einzelne Prompt (“Untersuche diesen Bug, schlage Fixes vor, führe Tests aus, erstelle einen PR”)
- Die KI länger arbeitet, Kontext behält und Tools zuverlässiger nutzt
- Geschwindigkeit zu einem täglichen Produktivitätsfaktor wird
Wenn Sie ein Team leiten, ändert sich die Frage ebenfalls. Es geht weniger um “Sollen wir KI nutzen?” und mehr um:
- Welches Modell passt zu unserem Risikoniveau (insbesondere bei Code, Sicherheit und sensiblen Daten)?
- Wie testen wir Ausgaben und verhindern stille Fehler?
- Wie hoch sind die tatsächlichen Kosten, wenn Token und Nutzung skalieren?
Wenn Sie sicherstellen möchten, dass sich Ihre Rolle nicht schleichend darauf verlagert, nur noch KI-generierte Arbeit zu prüfen, hilft eine praktische Regel:
Wählen Sie Modelle aufgabenbasiert aus.
- Benötigen Sie tiefes agentisches Programmieren? GPT‑5.3‑Codex ist dafür positioniert.
- Benötigen Sie schnelle interaktive Änderungen? Codex‑Spark ist für latenzarme Iteration gebaut.
- Benötigen Sie breites Reasoning + multimodale Eingaben? Gemini 3.1 Pro wird in diese Richtung stark vermarktet.
- Benötigen Sie sicherheitslastige Dokumentation und starke Enterprise-Ansprache? Claude Opus 4.6 stellt Systemkarten und Audits in den Vordergrund.
Fazit: GPT‑5.3 dreht die Lautstärke auf
GPT‑5.3‑Codex ist ein Schritt hin zu agentischer Arbeit am Computer, mit Geschwindigkeitsverbesserungen, starker Benchmark-Positionierung und einer Sicherheitsausrichtung, die Cybersicherheitsfähigkeit offen markiert.
Dann setzt Codex‑Spark eine zweite Botschaft: Der nächste Kampf dreht sich nicht nur um Intelligenz, sondern auch um Latenz — darum, wer KI in den bereits genutzten Tools wirklich in Echtzeit spürbar machen kann.
Unterdessen zeigen Claude Opus 4.6 und Gemini 3.1 Pro, dass die Wettbewerber nicht höflich auf ihre Reihe warten. Sie liefern schnell aus, veröffentlichen Systemkarten und treiben Reasoning und Multimodalität stark voran.
Das KI-Wettrüsten heizt sich auf. Ironischerweise könnten die Sieger durch Dinge entschieden werden, die langweilig klingen — Tokenpreise, Sicherheitsprüfungen, Ratenlimits und Time‑to‑First‑Token. Aber 2026 versteckt sich die Zukunft oft im “Langweiligen.”