Gemini in Chromeで期待の機能「Auto browse」でできそうなこと
Gemini in Chromeにて利用可能になる期待の機能「Auto browse」が便利そうですね。
ここでは、「Auto browse」の機能について、できるようになりそうなことなどを紹介しています。
「Auto browse」とは
Auto Browseは、GoogleがChromeブラウザに統合したAIエージェント機能のひとつです。
自然言語でタスクを指示するだけで、Geminiがブラウザを自律的に操作し、複数のステップにわたる作業を代わりに実行してくれます。
たとえば「週末に東京から大阪への新幹線を予約して」と伝えれば、Geminiが該当サイトを開き、条件に合う便を探し、フォームに情報を入力するところまで自動で進めます。
購入の確定やSNSへの投稿など、取り消しが難しい操作については、実行前にユーザーへ確認を求める設計になっており、完全な自律実行ではなく「人間が最終判断を持つ半自動化」という位置付けです。
Google Antigravityのブラウザ操作と同じ
現状、「Auto browse」機能どころか、Gemini in Chromeが使えるようになっていない環境ですので、なんとも言えませんが、動画などの挙動を見ている限りではGoogle Antigravityのブラウザ操作と似た感じで動いているようです。
Google Antigravityはコードエディタであり、実装テストなんかでAIエージェントがブラウザを操作して、動作確認などを行ってくれています。
これが結構良いので「Auto browse」機能にも期待してしまいますね。
Google Antigravityでのブラウザ操作については何をしているのか眺めたりしていますが、リンクを辿ることは勿論、タブの移動やショートカットキーを使ったり、スクロールして目的の項目を探したりと、全然ミスなく実行してくれています。
「Auto browse」でできそうな事
良くあるネットショッピングの操作なんかは、AIに任せず自分で実行したい部分ではあります。
では、他に何ができそうなのか考えてみます。
① DOMを監視してYouTubeの広告スキップボタンが表示されたら押す。
DOMのリアルタイム監視は出来たとしてもトークンの消費量が大きそうですね・・
ならDOMの監視はJavaScriptに任せてスキップボタンが出たらAgentに操作して貰う?スキップボタンを確認できるなら、ボタンを押すのもJavaScriptで良いか。
② 制作中ゲームのテストプレイ
HTMLベースのゲームであれば多少は可能そうだけど、canvasに描かれた内容はキャプチャして解析、何をするか決めて実行ということになり、アクションゲームなんかは当面無理そう。
③ WEBアプリの操作など
例えば、WordPressで作られたサイトの更新にて、繰り返し作業で面倒なことがたまに発生します。
そういったことを「Auto browse」で実行したりできるようになりそうです。
また、テキストの入力や貼り付けなんかもできるでしょうから、やれることは増えていきそうですね。
ブラウザで動くWEBアプリにおいて、面倒な操作はどんどん任せられるようになるのかな。
スプレッドシートなどは既にGeminiが使えるようになっていますが、ブラウザ側から操作できた方がより勝手が良い部分もありそです。
既にAIエージェントが操作できるブラウザは登場していると思いますが、Chromeならではの良さはあると思いGemini in Chromeが使えるようになるのを楽しみにしています。