Insights·2026-06-09

Claude怎样才能"看懂"一段视频并作答?

Claude本身无法直接播放视频,但接入开源工具/watch后,只需一个YouTube链接或本地录屏文件,就能把视频逐帧拆解、配上字幕,基于画面中实际出现的内容作答——而不是靠标题或说明文字猜测。

/watch究竟是什么工具?

/watch是海外开发者Brad开发并以MIT许可证开源的工具。只需提供一个YouTube链接或本地录屏文件,它就会在内部用yt-dlp下载视频、用ffmpeg提取帧,再配上字幕后交给Claude。Claude据此像真的"看过"视频一样作答。

安装也很轻量。ffmpeg和yt-dlp会在首次运行时自动安装,获取公开视频字幕也不产生额外费用。

实际用在哪些场景?

主要有三种用法:逐帧分析一条爆款视频前3秒的钩子是怎么设计的;在别人发来的录屏中准确找出bug出现的位置;以及不看完整20分钟视频、只提取核心内容。

共同点是不依赖标题或摘要。因为Claude会实际确认逐帧画面,所以能给出连视频描述里都没写的细节依据。

为什么这样一个小工具对AX很重要?

好的AX(AI转型)很少从宏大的一体化平台开始,更多时候始于一个精准补上"Claude做不到的一件事"的小工具。/watch正是典型例子——它用一个工具给Claude装上了原本没有的"看视频的感官"。

这里需要的能力,不是从零打造新功能,而是迅速识别别人已经做好的工具、并精准嵌入自己工作流的能力。这也是AX咨询中反复验证的一点——比起从头新建,找到并接上已有的拼图,更能决定速度。

来源: GitHub