Anthropic「Claude Opus 4.6」発表。Terminal-Bench 2.0最高スコア、1Mトークン対応、agent teams導入

Anthropicが2月5日(現地時間)、最上位モデル「Claude Opus 4.6」を発表した。前モデルOpus 4.5と比較してコーディングスキルが大幅に向上し、Terminal-Bench 2.0で業界最高スコア65.4%を達成。さらに、Opusクラスで初めて1Mトークンコンテキストウィンドウ(ベータ版)を搭載し、長期タスクの実行能力が飛躍的に向上した。

Opus 4.6の主な特徴:より慎重に、より長く、より大規模に

Claude Opus 4.6は、前モデルOpus 4.5の能力を引き継ぎつつ、以下の点で大幅に進化している:

  • より慎重な計画:複雑なタスクを分解し、より深く推論してから行動する
  • 長期タスクの持続:エージェントタスクをより長時間維持できる
  • 大規模コードベース対応:より大きなプロジェクトでも信頼性を保ちながら動作
  • 優れたコードレビュー・デバッグ:自分のミスをキャッチする能力が向上
  • 1Mトークンコンテキスト(ベータ版):Opusクラスで初めて実装

これらの改善により、Opus 4.6はコーディングだけでなく、財務分析、リサーチ、ドキュメント・スプレッドシート・プレゼンテーションの作成と活用といった幅広い業務タスクに対応できる。

業界トップのベンチマークスコア

Opus 4.6は、複数の主要評価で業界最高スコアを記録した:

エージェントコーディング性能

  • Terminal-Bench 2.0: 65.4% — エージェントコーディングに必要なターミナルスキルを評価。業界最高スコア
  • SWE-bench Verified: 80.8% — 実世界のソフトウェアエンジニアリングタスク(GPT-5.2-Codexの80.0%を上回る)
  • OSWorld: 72.7% — エージェントのコンピュータ使用能力を評価

エージェントツール使用

  • τ2-bench: Retail 91.9%, Telecom 99.3% — ツール使用能力の評価

エージェント検索

  • BrowseComp: 84.0% — 見つけにくい情報をオンラインで探す能力。全モデル中トップ

多分野推論

  • Humanity’s Last Exam: ツールなし40.0%、ツールあり53.1% — 複雑な多分野推論テスト。全フロンティアモデル中トップ

ナレッジワーク

  • GDPval-AA: 1606 Elo — 金融、法務等の経済的価値のある知識作業タスク。GPT-5.2より約144 Eloポイント上回り、Opus 4.5より190ポイント向上

大学院レベル推論

  • GPQA Diamond: 91.3% — 高度な推論能力を評価

ビジュアル推論

  • MMMU Pro: ツールなし73.9%、ツールあり77.3%

多言語Q&A

  • MMMLU: 91.1%

Claude Codeに「agent teams」導入

Claude Codeでは、複数のエージェントをチームとして編成し、タスクを協力して進める「agent teams」機能が導入された。これにより、複雑なプロジェクトを複数のサブタスクに分割し、それぞれ専門のエージェントに割り当てることができる。

Early Accessパートナーからのフィードバックでは、以下のような評価が寄せられている:

「Claude Opus 4.6は、複雑なリクエストを具体的なステップに分解し、実行し、野心的なタスクでも洗練された成果を生み出す。ツールではなく、有能な協力者のように感じる。」(Notion)

「Claude Opus 4.6は、複雑なタスクを独立したサブタスクに分解し、ツールやサブエージェントを並列実行し、ブロッカーを正確に特定する。エージェント計画における大きな飛躍だ。」(Multi・On)

API:compaction、adaptive thinking、effort controls

Claude APIでは、以下の新機能が導入された:

  • Compaction:モデルが自身のコンテキストを要約し、制限にぶつかることなく長期タスクを実行できる
  • Adaptive thinking:モデルが文脈の手がかりから、どれだけ「考える」べきかを自動判断する
  • Effort controls:開発者が知性・速度・コストのトレードオフを制御できる(デフォルト: high、推奨: medium)

Opus 4.6は、難しい問題でより深く慎重に推論するが、その分コストと遅延が増える場合がある。シンプルなタスクで「考えすぎ」だと感じたら、/effort パラメータを medium に下げることが推奨される。

Claude in Excel 大幅アップグレード、Claude in PowerPoint リリース

Anthropicは、Claude in Excelの大幅アップグレードと、Claude in PowerPoint(研究プレビュー)のリリースを発表した。これにより、日常業務でのClaude活用がさらに拡大する。

Coworkでの自律マルチタスク

AnthropicのCowork(研究プレビュー)では、Claudeが自律的にマルチタスクを実行できる。Opus 4.6はこの環境で、コーディング、財務分析、リサーチ、ドキュメント作成といったスキルをフル活用する。

Early Accessパートナーの報告によると、Opus 4.6は「1日で13の課題をクローズし、12の課題を適切なチームメンバーに割り当て、約50人の組織を6つのリポジトリにわたって管理した」という驚異的な自律性を発揮している。

安全性プロファイル

Anthropicのシステムカードによれば、Opus 4.6は業界の他のフロンティアモデルと同等かそれ以上の安全性プロファイルを示しており、安全性評価全体で不整合な動作の発生率が低い。

利用可能性と価格

Claude Opus 4.6は、claude.ai、Claude API、および主要なクラウドプラットフォームで利用可能。APIではclaude-opus-4-6として呼び出せる。

価格は据え置き: $5(入力)/$25(出力) per million tokens

まとめ:エージェント時代の最強モデル

Claude Opus 4.6は、単なる性能向上ではなく、エージェントとして長期タスクを自律実行する能力において大きな飛躍を遂げた。Terminal-Bench 2.0での業界最高スコア、1Mトークンコンテキスト、agent teams、adaptive thinking、effort controlsといった機能により、開発者は「何をすべきか」を指示し、「どう実装するか」の大部分をエージェントに委ねられる。

AnthropicのCEO Dario Amodeiが述べるように、「Opus 4.6は、AIがただのツールから有能な協力者へと進化したことを示している」。GPT-5.3-Codexとの競争が激化する中、Opus 4.6は「エージェント時代の最強モデル」としての地位を確立しつつある。


出典・参考情報:
Claude Opus 4.6(Anthropic公式)
Anthropic公式ツイート

cloud9 Written by:

Be First to Comment

    コメントを残す

    メールアドレスが公開されることはありません。 が付いている欄は必須項目です