Google AI studioを使うと、動画の内容をAIに解析させることができます。なんと無料で使えるサービスです。早速試してみましょう。
動画解析のやり方
まずは、Google AI Studioにアクセスします。

「Google AI Studioにログイン」をクリックします。ログインを求められますので、既存のGoogleアカウントを使うか、新しくアカウントを作るなどしてログインします。
ログインすると下記のような画面になります。

右端の「Model」からモデルを選択します。今回は記事作成時点で一番賢そうな「Gemini 2.0 Flash Thinking Experimental 01-21」を使用してみます。

次に画面下部の+印をクリックします。

動画ファイルのアップロード方法が選べます。お好きな方法を選択してください。

アップロードが終わったら、左上のところにプロンプトを入力します。
プロンプト入力後、「Run」をクリックで実行します。


アップロードした動画は下記の通りで、子供がヤギに葉っぱを食べさせているところです。(再生すると音声が出るので注意) 見事に正解しました!
追加でヤギが食べた葉っぱの枚数を聞いてみました。

ヤギの食べた葉っぱは2枚と言っていますが、これは実際には1枚です。思考過程を見ると、動画の1秒目で1枚目の葉っぱを食べて、5秒目にもう1枚食べたと書いてありますが、これは間違いですね。
ゲームのプレイ動画の解析
もうちょっと長くて複雑な動画を解析してみました。スプラトゥーン3のプレイ動画ですがどうなるでしょうか??(再生すると音声が出るので注意)

回答は下記のようになりました。

まず、動画の概要については「スプラトゥーン3のプレイ動画」ということで正解しました。「3」であることまで判別できているのは素晴らしいと思います。途中でキリル文字「территорию」が入っていますがこれは日本語訳すると「領土」のことで、インクで領土を広げるというスプラトゥーンのゲーム内容の解説として妥当です。
ゲームモードについて「ナワバリバトル」と書かれていますが、これも正解です。
全体の概要として「プレイヤーが領土を塗り広げ、敵プレイヤーと交戦し、最終的に倒されてリスポーンする」と書かれていますが、これも妥当な説明になっていると言えます。
さて、さらに細かい時系列の説明です。
- 0:00-0:02 動画開始時、プレイヤーは自陣近くにいます。スペシャルウェポンである「トリプルトルネード」を発動し、広範囲をインクで塗ろうとしています。
- 0:02-0:08 プレイヤーは前進しながら、地面をインクで塗り進めています。自陣から敵陣へと территорию を広げようとしています。
- 0:08-0:15 プレイヤーは敵陣付近で敵プレイヤー2人と遭遇し、メインウェポンで攻撃して2人とも倒します。
- 0:15-0:25 敵プレイヤーの反撃を受け、プレイヤーは倒されてしまいます。
- 0:25-0:29 プレイヤーはリスポーン地点に戻り、再スタートの準備をしています。
動画開始時のプレイヤーの位置は「自陣近く」ではないですね。マップの中間地点くらいです。またスペシャルウェポンの「トリプルトルネード」は使っていません。使っているのは「グレートバリア」です。ここは不正確な説明になっています。


15秒目で、メインウェポンで相手のワイドローラーをキルしています。ただ、これはこの動画の中では1回目のキルで説明とはキルの人数がずれています。説明では8-15秒にかけて敵陣で2キルとなっています。

この後動画ではさらに敵陣奥深くまで進み、20秒から22秒あたりで、2キル入っています。ここも説明では触れられておらず、ずれている箇所です。

さらにその後、ちょうど25秒の時に、相手の攻撃を受けてやられてしまいます。ここはGeminiの説明とちょうど一致しています。そのあとは、リスポーンを待つだけなので、Geminiの説明の通りとなります。

まとめ
細かいところは、間違いもありますがかなり正確に解析できていると言えるのではないでしょうか。もともとGeminiがハルシネーション起こしやすいのは気になりますが、Googleらしいマルチモーダル性を活かしたサービスになってます。用途によっては十分実用レベルと言えそうです。簡単な手順で解析できますので、興味ある方はぜひ試してみてください!