2月22日、OpenAIの新たなAIエージェント「Operator」が日本でも公開されました。これは、AIがユーザーに代わってブラウザ操作を行い、さまざまなタスクを自動化できるシステムです。現在は、ChatGPT Pro(月額200ドル)ユーザーにのみ提供されています。
Operatorとは?
「Operator」は、OpenAIが開発したブラウザ操作型のAIエージェントです。従来のChatGPTが会話を通じてやり取りするのに対し、「Operator」は実際にブラウザを開き、ユーザーの代わりにクリックや入力、スクロールといった操作を実行します。
Computer-Using Agent(CUA)とは?
Operatorは、Computer-Using Agent(CUA)という新しいAIモデルを用いて実現されています。これは、GPT-4oの視覚機能と強化学習による推論を組み合わせたモデルです。CUAは、ウェブページ上のボタン、メニュー、入力フォームなどのグラフィカルユーザーインターフェース(GUI)を視覚的に認識し、それを操作するように設計されている。
CUAは以下の3つのプロセスでタスクを実行します。
- 視覚認識:ウェブページのスクリーンショットを解析し、ページ上の要素(ボタン、テキストフィールド、リストなど)を識別する。
- 推論と計画:識別した要素の中から、タスクに関連するものを選択し、最適な操作の順序を決定する。
- 実行と適応:マウスクリック、スクロール、テキスト入力などを行い、タスクを実行する。途中でエラーが発生した場合、自動で修正を試みる。
使用例
- オンライン予約の自動化
・ レストランやホテルの予約を代行。
・「○○レストランを18時に6名で予約してください」 - ショッピングのサポート
・ 指定したオンラインショップで商品を検索し、カートに追加。
・ 価格やレビューを比較し、最適な選択肢を提案。 - フライト・交通手段の手配
・ 航空券の予約やタクシーの手配をサポート。
・「明日朝6:30に成田空港までのUberを予約して」 - リサーチの自動化
・ 指定したキーワードに関する最新ニュースやレビューを収集。
・「横浜駅周辺の5000円以下の美容院を調べて」 - フォーム入力の代行
・ Webサイトの申し込みフォームやアンケートを自動で入力。
安全性
「Operator」はユーザーのセキュリティを考慮し、以下のような保護措置を実装しています。
- ユーザー確認の徹底:重要な操作(予約確定や支払い)前に、必ずユーザーの確認を求める。
- ログイン時の手動入力:パスワードやクレジットカード情報はユーザーが直接入力。
- データ削除機能:操作履歴やブラウザのクッキーをクリア可能。
- ブロックリスト機能:不正サイトや悪意のあるスクリプトを自動で回避。
