Google Gemini 1.5 Proの凄さを検証レビュー!文章・動画・音声ファイルまで理解するマルチモーダルAI

keito

今回は、Googleの最新生成AI「Gemini 1.5 Pro」の凄さを検証レビューしてみました。

Gemini 1.5 Proは、なんと100万トークンという圧倒的なテキスト処理能力を誇ります。これは従来のモデルと比較しても桁違いに大きく、大量の文章や長文の小説なども丸々入力し、要約や分析が可能になるレベルです。

さらに注目すべきは、 マルチモーダルAI としての進化です。テキストだけでなく、動画や音声、画像、さらにはファイルやフォルダごと読み込み、その内容を理解し、アウトプットを生成することが可能になっています。

従来のモデルとの比較:文章理解で驚異的な進化

まず、長文の文章理解について検証しました。世界一長いとされる2ちゃん風のWebページをGemini 1.5 Proに入力し、「小説のタイトルはどうやってつけていますか?」と質問したところ、 なんと「ひらめき」「造語」「英語」などを使い分け、雰囲気で決めているという回答を得ることができました!

これは、従来のChatGPTやClaude 3ではできなかった芸当です。大量のテキストデータから必要な情報を抽出し、的確に回答する能力は、Gemini 1.5 Proの大きな進化と言えるでしょう。

動画解析機能:映像と音声を理解し、質問に回答

続いて、動画解析機能を検証しました。私がMacbookを使って動画撮影している様子をGemini 1.5 Proに入力し、「このパソコンは何のノートパソコンですか?」と質問しました。すると、 驚くことに「Appleのノートパソコンです」と回答! 動画内でMacbookという言葉は一切使っていません。映像と音声から、Macbookであることを正確に認識したのです。これは、ビジョン機能と音声解析機能が高度に連携している証拠でしょう。

音声ファイル解析:音楽のタイトルも提案

さらに、音声ファイルの解析能力についても検証しました。無音部分が多い音楽ファイルをアップロードし、タイトル案を5つ提案するように指示したところ、「沈黙の緑地」「空白の2分間」など、無音の多さを表現したタイトルを生成。残念ながら、音楽の雰囲気や特徴を捉えたタイトルは提案されませんでした。

ファイル・フォルダ解析機能:著作権に関する資料を読み込み

続いて、ファイル解析機能を試してみました。著作権に関するPDF資料をアップロードし、「AI利用者は何に気をつければ良いですか?」と質問したところ、著作権侵害となる可能性やAI開発者の責任などについて、正確かつ詳細な回答を得ることができました。

ただし、フォルダ解析機能については、うまく動作しませんでした。これは、今後のアップデートで改善される可能性があります。

API連携で可能性無限大!チャットボットや独自システム開発も

特筆すべきは、Gemini 1.5 ProがAPI経由で利用できる点です。独自のシステムやサービスにGemini 1.5 Proの機能を組み込むことで、今までにない革新的なサービスを生み出すことができるでしょう。

実際に、APIキーを取得し、LINEチャットボットの作成方法を解説した記事も公開されています。興味のある方はぜひ参考にしてみてください。

ショート動画の重要性:エンタメ要素とバランスを

最後に、雑談タイムです。最近、YouTubeのトップページにショート動画が大量に表示されるなど、ショート動画の重要性がますます高まっていると感じています。

しかし、ビジネス系の情報発信においては、エンタメ要素が強すぎるショート動画は、なかなか難しい面もあります。真面目な解説動画とふざけた動画のバランスをどのように取るかが今後の課題です。

とはいえ、ショート動画の拡散力は無視できません。そこで、私はエンタメ要素を取り入れたショート動画と真面目な解説動画を交互に投稿することで、AIに興味がない層にもアプローチし、興味を持ってもらえるような工夫をしています。

まとめ

Gemini 1.5 Proは、100万トークンという圧倒的なテキスト処理能力に加え、動画や音声、画像を理解するマルチモーダルAIへと進化を遂げました。特に、動画解析機能は驚異的で、さまざまな活用方法が考えられます。

一方で、音声ファイルの解析やフォルダ解析機能など、まだ改善の余地がある部分も。API連携によるサービス開発など、今後の発展にも期待が高まります。

皆さんもぜひ、Gemini 1.5 Proを使ってみて、その進化を体感してみてください!

タイトルとURLをコピーしました