GPT-5.4が「Computer Use」機能を正式搭載、人間超えるUI自動操作を実現
OpenAIがリリースしたGPT-5.4は、AIが単にコードを生成するだけでなく、実際に画面を見てブラウザやアプリケーションを操作する「Computer Use」機能をネイティブ搭載した。これにより、開発やテストの自動化が一段と現実的になるが、既存のRPAツールで事足りている現場にとっては、その真価を見極める必要があるだろう。
「画面を見て操作する」AIの登場
従来のAIモデルは、ユーザーの指示に応じてテキストやコードを出力するのが主な役割だった。しかし、OpenAIによれば、GPT-5.4は「computer-use capabilities」を初めてネイティブで統合したモデルだとしている。これは、AIがスクリーンショットや画面の情報を「見て」理解し、適切なマウスクリックやキーボード入力、ドラッグ&ドロップといった操作を自律的に実行できることを意味する。単なるコード生成から、能動的な「実行」フェーズへと能力が拡張された大きな進化と言える。
OSWorldベンチマークで人間の成功率を上回る
この能力の実力を示す客観的な指標がベンチマーク結果だ。OpenAIの発表によると、GPT-5.4は「OSWorld-Verified」ベンチマークにおいて、75.0%の成功率を記録した。このベンチマークは、ウェブブラウザやデスクトップアプリケーションを用いた現実的なタスクの実行成功率を測るものだが、比較対象である人間の平均成功率72.4%を上回った。AIが特定のUI操作タスクにおいて、すでに人間の平均的なパフォーマンスを超えうる可能性を示す、象徴的な結果である。
1Mトークンコンテキストで複雑なワークフローを処理
複雑な操作を可能にする背景には、大幅に拡張されたコンテキスト長がある。GPT-5.4は100万トークンのコンテキストをサポートしており、長大なドキュメントの読み込みや、多数のステップからなる詳細な操作手順の理解と実行が可能になった。例えば、企業内の古い基幹システムの画面を数十枚連続でキャプチャし、その操作手順書を学習させて自動化エージェントを構築する、といった応用が考えられる。
具体的な「Computer Use」の使い方
この機能を利用するには、PlaywrightやSeleniumといったブラウザ自動化ライブラリと連携させる方法が一般的だ。ユーザーは、自動化したいウェブサイトやアプリケーションのスクリーンショットをGPT-5.4に提供し、自然言語で「このフォームに名前とメールアドレスを入力して送信ボタンを押して」などと指示する。すると、モデルは画面の視覚情報を解析し、入力フィールドの位置やボタンの種類を認識し、適切な操作を実行するためのコード(例えばPlaywrightのスクリプト)を生成、あるいは直接APIを通じて操作を実行する。
より高度な使い方としては、操作対象のアプリケーションの仕様書やUIコンポーネントライブラリのドキュメントを事前に読み込ませておき、それに基づいて一からUIのプロトタイプを構築させるといった応用も可能になる。視覚情報と膨大な文脈情報を組み合わせてタスクを達成する点が、従来の単純なマクロツールやスクレイピングツールとの決定的な違いだ。
誰が、どのように活用すべきか
この技術の影響を最も強く受けるのは、フロントエンド開発者とQA(品質保証)エンジニアだ。開発者は、デザイン仕様書やワイヤーフレームから、実際に動作するプロトタイプコードを生成する作業を大幅に自動化できる可能性がある。QAエンジニアは、繰り返し実行される回帰テストの自動化スクリプトを、自然言語で素早く生成・修正できるようになる。視覚的なバグの検出と報告の自動化も、次の発展ステップとして期待される。
また、業務プロセス自動化(RPA)の導入を検討している企業にとっては、新しい選択肢となる。従来のRPAツールがルールベースの定型作業に強かったのに対し、GPT-5.4を中核に据えた自動化は、ある程度のばらつきや変化がある画面に対しても適応力を持つ可能性を秘めている。ただし、現時点ではコスト、精度、既存システムとの統合性を総合的に評価する必要がある。
一方で、単にウェブサイトから定期的にデータを収集したいだけの個人ユーザーや、すでに安定したRPAソリューションが稼働している企業にとって、すぐに飛びつくべき必須の技術とは言い難い。その真価は、複雑で文脈を必要とする、これまで自動化が難しかった知的ワークフローにおいて発揮されるだろう。
自動化の新時代への第一歩
GPT-5.4の「Computer Use」機能は、AIがデジタル世界における「目」と「手」を獲得した画期的な一歩だ。それは単なるツールの進化ではなく、人間とコンピュータのインタラクションそのものの再定義につながる可能性をはらんでいる。OSWorldベンチマークで人間の成功率を上回ったという事実は、特定の限定された領域ではあるが、AIによる操作がもはや「実験段階」を超えつつあることを示唆している。今後は、この基盤技術の上に、より安全で信頼性が高く、特定業界に特化したエージェントが構築されていく流れが予想される。開発者やテクノロジストは、その可能性と限界の両方を、実際のユースケースを通じて探っていく段階に入ったと言える。
Be First to Comment