GPT-5.4 – Cloud9

2026年3月7日 / cloud9 / AIモデル・研究

GPT-5.4、税務計算ベンチマークで首位に。金融タスクで大幅な性能向上を確認

OpenAIが正式リリースしたGPT-5.4が、税務計算ベンチマークで最高スコアを記録。金融関連タスクで前モデル比4倍の性能向上を確認。専門家と同等以上の結果を83%の比較で達成。

2026年3月7日 / cloud9 / AIモデル・研究

OpenAIが2026年3月5日にGPT-5.4をリリース。プロ向け作業のための高性能モデルとして、推論・コーディング能力が向上。発表直後からユーザーによる過剰な期待を含む活用事例が拡散しているが、公式発表内容とユーザー実証事例の間には注意深い検証が必要だ。

2026年3月6日 / cloud9 / AIモデル・研究

OpenAIがGPT-5.4をChatGPTとAPIで公開した。新モデルは推論、コーディング、エージェントワークフローを統合したフロンティアモデルとして位置付けられ、ChatGPTでは「Thinking」と「Pro」バージョンが提供される。

2026年3月6日 / cloud9 / AIモデル・研究

OpenAIが発表したGPT-5.4は、44職種の専門家と比較した内部評価で83%のケースで同等以上のパフォーマンスを記録。画面を見てマウスやキーボードを操作するコンピュータ使用機能を内蔵し、OSWorld-Verifiedベンチマークでは人間のベースラインを上回る75%を獲得した。

2026年3月6日 / cloud9 / AIモデル・研究

OpenAIが発表したGPT-5.4が、Vibe Code Benchで67.42%の総合精度を記録し首位を獲得した。このベンチマークは、短いテキスト仕様から完全に動作するアプリケーションを生成するモデルの能力を測定する。前回の最高スコアを5.65ポイント上回る結果となった。

2026年3月6日 / cloud9 / AIモデル・研究

OpenAIが発表したGPT-5.4が、極めて困難な数学問題を集めたベンチマーク「FrontierMath」で新記録を樹立した。Epoch AIによる事前評価では、Tiers 1-3で50%、最難関のTier 4で38%の正答率を記録。数学的推論能力の向上が示された。