GoogleがGemini 3.1 Proのプレビュー提供を開始。複数の異なるデータを単一のビューに統合し、複雑なトピックを可視化できる。深い文脈理解と計画立案を必要とする課題の解決を目指すモデルで、開発者向けAPIや企業向けプラットフォームで利用可能。
カテゴリー: AIモデル・研究
SNSで「GPT 5.3 Codex」が「WeirdML」ベンチマークで首位を獲得したと話題になった。しかし、OpenAIによる公式発表はなく、ベンチマーク自体の信頼性も確認できない。現時点では未確認の情報であり、注意が必要だ。
OpenAIのGitHubリポジトリのプルリクエストに「GPT-5.4」への言及が複数回確認された。公式はGPT-5.4の存在を肯定も否定もしておらず、開発中の可能性を示唆する状況。一方、公式ドキュメントでは「GPT-5.3-Codex」までが確認できる。
Twitterで流出したGPT-5.4のリーク情報には、2Mトークンのコンテキスト長と永続状態の実装が含まれていた。公式発表はなく、OpenAI Codexのプルリクエストやアプリ内での一時的な表示が報告されている。KVキャッシュの爆発的増加とメモリ階層の最適化が技術的課題として指摘されている。
Z.aiが次世代大規模言語モデル「GLM-5-Code」のリリースを間近に控えている。コーディングとエージェントタスクに特化し、SWE-bench Verifiedでオープンソースモデル中最高の77.8スコアを記録。744Bパラメータと新アーキテクチャで効率と長文脈性能を向上させた。
AlibabaのQwenチームが、約400Bパラメータの大規模マルチモーダルAIモデル「Qwen3.5」をリリースした。MoE(Mixture of Experts)とGated Delta Networksを組み合わせたアーキテクチャを採用し、テキスト、コード、視覚情報を統合的に理解・推論できる。モデルはAlibaba Cloud Model Studioでホストされ、オープンソースとして公開されている。
MITのImprobable AI Labが、大規模言語モデル(LLM)がデプロイ後も自ら学習データと更新指示を生成し、継続的に適応するフレームワーク「SEAL」を発表した。強化学習を用いて自己編集の効果を学習し、知識統合タスクで有効性を確認。NeurIPS 2025に採択されている。
Anthropicの研究チームが、プロのエンジニアを対象にAI利用の影響を調査。AI使用グループは非使用グループに比べ、学習内容の定着度を示すクイズの平均点が有意に低かった。タスク完了時間は短縮傾向も、使い方次第で学習効果に差が出る可能性を示唆。
AnthropicがClaude Sonnet 4.6をリリース。コーディングや長文脈処理などで性能向上。Kilo.aiを含む複数プラットフォームで利用可能となった。TwitterではKilo.ai限定の無料プロモーションが話題となっている。