2022年11月30日にOpenAIによって発表された「ChatGPT」をきっかけに、さまざまな企業や組織から生成AIツールが発表されている。なかでも、米Google社が2023年12月に発表した「Gemini」には「ChatGPTよりも性能が上」という声が一部のユーザーからあがっている。2024年5月2日にはアプリの日本展開が開始されており、スマホで手軽に利用ができるようになった。本記事では実際にアプリを使い、どのようなことができるのか試してみた。
GeminiアプリをAndroidで使う場合、Geminiアプリをダウンロードするか、Googleアシスタントからオプトインすることで利用可能。iOSは、GoogleアプリからGeminiが利用できる。筆者はiOSユーザーなので、Googleアプリをダウンロードして利用してみた。
まずは「文字を入力」「マイクのボタンを押して音声で質問」「カメラのボタンを押して画像を挿入」の3パターンから好きな方法で質問を投げかけてみる。試しにマイクを選んで「大阪の美味しい焼肉屋を教えて」と質問すると、綺麗に文字が変換され、代表的な焼肉屋を紹介してくれた。
さらに、表示された文章を自動音声で読み上げてくれるというサービス付き。それぞれの店のGoogleマップのリンクも表示されるため、気になった店の情報をさらに自分で追いかけられるのも便利な点だ。
Geminiは画像認識にも優れており、筆者が借りているローンの返済予定表を写真に撮り、表にするように指示すると見事に表形式でまとめてくれた。ほかにも紙で保管している書類を撮影して読み込ませてみると、高い精度でデータ化できる。
本記事執筆時点(2024年6月25日)では、画像生成機能は未対応だったが「まもなく利用可能」と表示されていた。画像生成機能が手軽に使えるようになれば、さらに利用場面は増えるだろう。ちなみにブラウザ版のGeminiでは、英語で画像生成を指示すると、指示内容に合った画像を生成して表示してくれる。
仕事でも使用できる場面は多々ありそうで、例えばExcelを使っていて「こんなことを実現したい」と考えた時に、その内容をGeminiに伝えれば、自動でプログラムコードを表示してくれる。もちろん正常に動作するかの確認は必要だが、ゼロから自分で書くよりは格段に早く実装できるだろう。
ChatGPTの発表から2年も経たないうちに、スマホのアプリでここまでできるほどAIの技術が進歩している。時代から取り残されてしまわないようにも、Geminiなどの生成AIツールに触れておくべきではないだろうか。