Geminiでリアルタイムの音声会話、できること色々

2024年12月16日

Gemini 2.0にてリアルタイムの音声会話が可能になりました。
日本語にも対応しており、様々な用途に使われていくことになりそうですね。

まだAPIは未実装ですが、ここではGoogle AI Studio上でできることを模索し紹介していきます。

天気

「Grounding」機能を有効にする事で取得可能になり、会話で今日の天気、明日の天気などを教えて貰えるようになります。

「Grounding」機能を有効にする事で取得可能になり、今日の日付や時間を会話に含める事ができるようになります。

何時になったら教えて、何分経ったら教えて、などの処理はできませんでした。

経過時間については「タイマーをセットしますね。」「時間になったらお伝えします。」など言ってはくれますが、その後は沈黙のままになります。

関数関連で何ができるのか把握していませんが、もしかすると「Function Calling」で関数を有効にして使えば可能なのかも。

短い時間のカウントダウンについて、おそらくひとつの会話で最大20秒くらいの会話時間しか持てない様ようです。

手前にカウントダウンを開始する旨の会話が含まれるため、10秒のカウントダウンでは残り2秒で途切れてしまいました。

オススメの童謡を歌う事をリクエストし、AIは「きらきらぼし」を選択されましたが、音程はなく1小節も読み上げられませんでした。

「英会話の練習相手になって下さい」とお願いすれば、結構良い感じに対応してくれました。

会話の中で理解できなかった言葉の日本語訳を教えて貰うことも可能で、挨拶、特定のやりとりなどテーマを絞って練習することもできました。

会話の中で他の声の種類に切り替えることはできませんでした。
声の種類を変更するには、リセットして初期設定で変更する必要があります。

関西弁、名古屋弁などでの会話を要望すれば、変更可能でした。
現時点では日本語そのもののイントネーションは微妙ですので、方言を変更しても違和感はそのままです。

デスクトップや開いているウィンドウの画面を共有し、その画面に対して会話することが可能です。
ただ、現時点ではスグに英語で話すようになってしまうかも、今後に期待ですね。

Yousuke.U