Insights·2026-06-09

Claudeはどうすれば動画を「見て」答えられるのか

Claudeは本来動画を直接再生して見ることはできませんが、オープンソースツール/watchをつなぐと、YouTubeリンクや画面録画ファイル一つだけで動画をフレーム単位に分解し、字幕を付けて実際の内容を把握したうえで答えられるようになります。タイトルや説明文から推測するのではなく、画面に実際にあった場面を根拠に判断する点がポイントです。

/watchは正確には何をするツールなのか

/watchは海外の開発者Bradが作りMITライセンスで公開したオープンソースツールです。YouTubeリンクでもローカルの画面録画ファイルでも一つ渡せば、内部でyt-dlpが動画をダウンロードし、ffmpegでフレームを抽出したうえで字幕を付けてClaudeに渡します。Claudeはこの情報をもとに、実際に動画を「見た」かのように答えます。

セットアップも軽量です。ffmpegとyt-dlpは初回実行時に自動でインストールされ、公開動画の字幕取得に追加費用はかかりません。

実際にどこで使われているのか

三つの使い方があります。一つ目は、伸びている動画の最初の3秒のフックがどう作られているかをフレーム単位で分析するとき。二つ目は、誰かが送ってきたバグの画面録画で、正確にどこで壊れているかを探すとき。三つ目は、20分の動画を最初から最後まで見ずに要点だけを受け取るときです。

共通しているのは、タイトルや要約に頼らないことです。Claudeが実際の画面をフレーム単位で確認するため、動画の説明欄に書かれていない細部まで根拠にして答えられます。

なぜこの小さなツールがAXにとって重要なのか

良いAX(AIトランスフォーメーション)は、大がかりな統合プラットフォームから始まることは稀です。「Claudeにできなかった一つのこと」を正確に埋める小さなツール一つから始まることの方が多いのです。/watchはその典型例です——Claudeになかった「動画を見る感覚」を、一つのツールで足したのです。

ここで必要なのは、新機能をゼロから作る力ではなく、他人がすでによく作ったツールを素早く見抜き、自分のワークフローに正確に差し込む力です。AXコンサルティングで繰り返し確認される点もここにあります——ゼロから作るより、すでにある部品を見つけてつなぐ判断がスピードを左右します。

出典: GitHub