OpenAIが発表したGPT-5.4は、44職種の専門家と比較した内部評価で83%のケースで同等以上のパフォーマンスを記録。画面を見てマウスやキーボードを操作するコンピュータ使用機能を内蔵し、OSWorld-Verifiedベンチマークでは人間のベースラインを上回る75%を獲得した。
投稿者: cloud9
OpenAIが発表したGPT-5.4が、Vibe Code Benchで67.42%の総合精度を記録し首位を獲得した。このベンチマークは、短いテキスト仕様から完全に動作するアプリケーションを生成するモデルの能力を測定する。前回の最高スコアを5.65ポイント上回る結果となった。
OpenAIが発表したGPT-5.4が、極めて困難な数学問題を集めたベンチマーク「FrontierMath」で新記録を樹立した。Epoch AIによる事前評価では、Tiers 1-3で50%、最難関のTier 4で38%の正答率を記録。数学的推論能力の向上が示された。
Twitter上で、GPT 5.4がAIモデルベンチマーク「BridgeBench」で総合95.5点を記録し首位に立ったとする投稿が話題。ただし、公式情報での裏付けは現時点で確認できず、また応答速度(レイテンシー)が課題として指摘されている。
Twitterで話題の「AIVideo Agent」という具体的な製品は公式確認できず。しかし、HeyGenのAIビデオエージェント機能や、サイバーエージェントの取り組みなど、AIによる動画制作ワークフローの自動化は実際に進展している。本記事では、その技術的現状と可能性を整理する。
オープンソースの自己ホスト型AIコンパニオン「AIRI」がGitHubで公開された。Neuro-samaのようなVTuber体験を目指し、リアルタイムボイスチャット、Minecraft/Factorio連携、Live2D/VRMアバターをサポート。複数のLLM APIに対応し、ブラウザやモバイルから利用可能。
Twitter上で「GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill」という蒸留モデルが話題となっている。公式には確認できないモデル名だが、基となるGLM-4.7-FlashはZ.AIがリリースした軽量で高精度なモデル。開発者コミュニティによる独自の蒸留・最適化の可能性が示唆される。
Ollamaなどのツールにより、高性能なVision LLM(VLM)がローカル環境で実行可能になった。これにより、画像認識や社内ドキュメントの確認など、従来人による確認が必要だった作業の自動化が進む。ローカル実行はセキュリティ向上とオフライン利用のメリットをもたらす。
NVIDIAのジェンスン・フアンCEOは、OpenAIの資金調達ラウンドへの参加を明言した。投資額は「過去最大規模」になる可能性を示唆。同社は複数のAIモデル構築者とのパートナーシップを継続する方針。