Gemini 2.0でリアルタイムの音声会話、できること色々
Gemini 2.0にてリアルタイムの音声会話が可能になりました。
日本語にも対応しており、様々な用途に使われていくことになりそうですね。
まだAPIは未実装ですが、ここではGoogle AI Studio上でできることを模索し紹介していきます。
天気
「Grounding」機能を有効にする事で取得可能になり、会話で今日の天気、明日の天気などを教えて貰えるようになります。
日付、現在時刻
「Grounding」機能を有効にする事で取得可能になり、今日の日付や時間を会話に含める事ができるようになります。
時間になったら呼び出す
何時になったら教えて、何分経ったら教えて、などの処理はできませんでした。
経過時間については「タイマーをセットしますね。」「時間になったらお伝えします。」など言ってはくれますが、その後は沈黙のままになります。
関数関連で何ができるのか把握していませんが、もしかすると「Function Calling」で関数を有効にして使えば可能なのかも。
カウントダウン
短い時間のカウントダウンについて、おそらくひとつの会話で最大20秒くらいの会話時間しか持てない様ようです。
手前にカウントダウンを開始する旨の会話が含まれるため、10秒のカウントダウンでは残り2秒で途切れてしまいました。
歌
オススメの童謡を歌う事をリクエストし、AIは「きらきらぼし」を選択されましたが、音程はなく1小節も読み上げられませんでした。
英会話の練習
「英会話の練習相手になって下さい」とお願いすれば、結構良い感じに対応してくれました。
会話の中で理解できなかった言葉の日本語訳を教えて貰うことも可能で、挨拶、特定のやりとりなどテーマを絞って練習することもできました。
声の切り替え
会話の中で他の声の種類に切り替えることはできませんでした。
声の種類を変更するには、リセットして初期設定で変更する必要があります。
方言の変更
関西弁、名古屋弁などでの会話を要望すれば、変更可能でした。
現時点では日本語そのもののイントネーションは微妙ですので、方言を変更しても違和感はそのままです。
画面共有
デスクトップや開いているウィンドウの画面を共有し、その画面に対して会話することが可能です。
ただ、現時点ではスグに英語で話すようになってしまうかも、今後に期待ですね。