OpenAIが2月5日(現地時間)、新たなコーディングモデル「GPT-5.3-Codex」を発表した。SWE-Bench Proで57%、Terminal-Bench 2.0で76%、OSWorldで64%という業界最高スコアを達成し、「史上最も有能なエージェント型コーディングモデル」と位置づけられている。さらに、GPT-5.2-Codexより25%高速化され、タスク実行中にリアルタイムで対話・修正できる新機能も搭載された。
GPT-5.3-Codexとは:コーディングと推論の融合
GPT-5.3-Codexは、GPT-5.2-Codexのフロンティアコーディング性能と、GPT-5.2の推論・専門知識能力を統合したモデルだ。単なるコード生成ツールではなく、リサーチ、ツール利用、複雑な実行を伴う長期タスクを自律的に遂行できる。
最も注目すべき点は、GPT-5.3-Codex自身が自分の開発に貢献したことだ。OpenAIのCodexチームは、初期バージョンを使って自身のトレーニングのデバッグ、デプロイ管理、テスト結果の診断を行った。モデルが自己改善する時代が、現実のものとなった。
業界最高のベンチマークスコア
GPT-5.3-Codexは、複数の主要ベンチマークで新記録を樹立した:
- SWE-Bench Pro: 57% — 実世界のソフトウェアエンジニアリングタスクを評価。従来のSWE-bench VerifiedがPythonのみだったのに対し、SWE-Bench Proは4言語をカバーし、より汚染耐性が高く、産業関連性の高い評価基準
- Terminal-Bench 2.0: 76% — Codexのようなコーディングエージェントに必要なターミナルスキルを測定
- OSWorld: 64% — ビジュアルデスクトップ環境での生産性タスクを評価
- GDPval: GPT-5.2と同等 — 44職種にわたる専門知識作業タスク(プレゼン作成、スプレッドシート、その他作業成果物)
特筆すべきは、従来のどのモデルよりも少ないトークン数でこれらのスコアを達成している点だ。ユーザーはより多くのタスクを実行でき、コスト効率も向上する。
実際のゲーム開発で実証
OpenAIは、GPT-5.3-Codexの長期エージェント能力をテストするため、2つのゲーム(レーシングゲームとダイビングゲーム)を開発させた。「バグを修正」「ゲームを改善」といった汎用的なプロンプトだけで、数百万トークンにわたって自律的に反復改善を続け、高度に機能的な複雑なゲームを完成させた。
リアルタイム対話でタスクを操縦
GPT-5.3-Codexの革新的な機能の1つが、タスク実行中のリアルタイム対話だ。従来のモデルは「プロンプト→最終出力」という一方通行だったが、GPT-5.3-Codexは:
- 作業中に進捗状況を随時報告
- ユーザーが質問したり、アプローチを議論したり、方向性を修正したりできる
- コンテキストを失わずに、協働者のように振る舞う
これにより、開発者は「何をすべきか」を指示し、「どう実装するか」の詳細はエージェントに委ねながら、必要に応じて介入できる。
この機能は、Codexアプリの「Settings > General > Follow-up behavior」で有効化できる。
自己改善するAI:Codexが自分を訓練した
GPT-5.3-Codexの開発過程で最も驚異的なのは、モデル自身が自分の開発に貢献した点だ。OpenAIのリサーチチームとエンジニアリングチームは、以下のようにCodexを活用した:
- リサーチチーム: トレーニング実行の監視・デバッグ、インタラクション品質の深層分析、修正提案、人間研究者向けのリッチなアプリケーション構築
- エンジニアリングチーム: GPT-5.3-Codex用のハーネス最適化、コンテキストレンダリングバグの特定、低キャッシュヒット率の根本原因分析、トラフィック急増に応じた動的GPUクラスタスケーリング
- データサイエンティスト: 新しいデータパイプラインの構築、標準ダッシュボードツールを超えた可視化
OpenAIの研究者・エンジニアの多くが、「2か月前とは仕事の本質が根本的に変わった」と述べている。AIが人間の開発プロセスを加速するだけでなく、AI自身がAIを改善するという新たなフェーズに突入した。
ソフトウェア開発のライフサイクル全体をカバー
GPT-5.3-Codexは、コード生成だけでなく、ソフトウェアライフサイクル全体をサポートする:
- デバッグ、デプロイ、モニタリング
- PRD(製品要求仕様書)の作成
- コピー編集、ユーザーリサーチ
- テスト、メトリクス分析
- プレゼンテーション、スプレッドシート作成
ソフトウェアエンジニア、デザイナー、プロダクトマネージャー、データサイエンティストのすべてが、GPT-5.3-Codexを活用できる。
フロントエンド開発の質が向上
GPT-5.3-Codexは、日常的なWebサイト構築でもユーザーの意図をより正確に理解する。シンプルまたは不完全な指示でも、より機能的で合理的なデフォルト設定を持つサイトを生成する。
例えば、ランディングページ作成を依頼した場合、GPT-5.3-Codexは:
- 年間プランを割引月額として表示(年間合計を掛け算するのではなく)
- 1つではなく3つの異なるユーザーレビューを含む自動遷移カルーセルを作成
これにより、デフォルトでより完成度の高い、プロダクション準備済みのページが生成される。
利用可能プランと今後の展開
GPT-5.3-Codexは、ChatGPT Plus/Pro/Business/Enterprise/Eduの各プランで利用可能。Codexアプリ(macOS版)、CLI、IDE拡張を通じて利用できる。
Windows版Codexアプリは現在開発中とのこと。
まとめ:AIが自己改善する時代へ
GPT-5.3-Codexは、単なる性能向上ではなく、AIが自分自身を改善する時代の始まりを示している。リアルタイム対話、自律的なタスク実行、自己改善能力を備えたこのモデルは、開発者の役割を「コーディング」から「エージェントの管理・操縦」へとシフトさせる可能性がある。
OpenAI CEO Sam Altmanのツイートが示すように、これは「史上最も有能なエージェント型コーディングモデル」だ。そして、GPT-5.3-Codex自身がその開発に貢献したという事実は、AI開発の未来がどこへ向かっているかを鮮明に示している。
出典・参考情報:
Introducing GPT-5.3-Codex(OpenAI公式)
Sam Altman氏のツイート
Be First to Comment