中国Zhipu AIのGLM-5が特定ベンチマーク「DesignArena」でAnthropicのClaude Sonnet 4.6を上回ったとの報告が複数ある。コーディング性能ではClaude Sonnet 4と同等で、APIコストは約1/10と価格競争力が高い。ただし、比較は特定のタスクに限られる。
カテゴリー: AIモデル・研究
TwitterでGemini 3.1 Pro Previewの発表が噂されているが、公式情報では確認できず。現時点で公式に確認されている最新モデルはGemini 3 Pro Preview(2025年11月リリース)であり、3.1 Pro Previewは非公式な憶測の域を出ていない。
Twitter上で「SuperGrok HeavyがGrok-4.20モデルを採用」との情報が流れたが、公式情報を確認すると誤り。SuperGrok HeavyはGrok 4 Heavyを利用。Grok 4.20は2026年1月頃リリース予定のプレビュー版で、現時点では未展開。
インドのSarvam AIが、105BパラメータのMoE方式LLM「Sarvam-105B」と30Bモデルを発表。インドの22言語と英語に対応し、オープンソースとして公開予定。複数ベンチマークでDeepSeek R1やGemini Flashを上回る性能を主張。
NVIDIAが日本語特化の小型言語モデル「Nemotron-Nano-9B-v2-Japanese」を公開した。Nejumi Leaderboard 4の10B以下カテゴリで最先端性能を達成し、商用利用が可能。高品質な日本語合成データと既存アーキテクチャを基に開発されている。
XAIが開発するAI「Grok」の新バージョン「Grok 4.2」の公開ベータが開始された。イーロン・マスク氏は、前バージョンと比較して「桁違いにより賢く、より高速」と述べている。公開ベータを通じてユーザーフィードバックを収集し、日々の改善を進めている。
Moonshot AIが開発した大規模言語モデル「Kimi K2.5」が、NVIDIAのNIMプラットフォームでAPIアクセス可能になった。Claude 3.5 SonnetやGPT-4oと同等レベルの性能を持ちながら、APIコストはClaude Opus 4.5と比較して最大50分の1と極めて競争力がある。長いコンテキストウィンドウ(最大200万トークン)も特徴。
中国のAI企業DeepSeekが次期モデル「V4」を2026年2月中旬(旧正月)に発表予定。特にコーディング能力に特化し、計算コストを最大90%削減。リポジトリレベルのコード理解と複数ファイルにまたがるバグ修正能力が期待される。
Google DeepMindが発表した生物音響基礎モデル「Perch 2.0」は、鳥類など陸上動物の鳴き声のみで訓練されている。しかし、訓練データに含まれないクジラの鳴き声の分類でも優れた性能を示し、異なるドメイン間での転移学習の有効性を実証した。