Insights·2026-06-25

当 AI 智能体读不到被拦截的公开页面时,问题出在哪里?

AI 智能体读不到公开页面,问题通常不是内容缺失,而是默认抓取一遇到 403 或反爬信号就放弃。insane-search 是一个 Claude Code 插件,它不预先认定页面被封,而是依次尝试公开 API 与订阅源、轻量探测、TLS 指纹伪装,直到真正的无头浏览器,直到某条路径成功为止。但它在登录墙和付费墙前停下,报告需要身份验证。它是公开内容的阅读器,而不是绕过身份验证的工具。

智能体为何在一个 403 前就停下?

让智能体做网页调研,常常在一个完全公开的页面上中断,遇到一次 403、WAF 或验证码后就声称无法访问。内容其实在那里,只是默认抓取在遇到拦截信号的瞬间就不再尝试。

真正跑自动化时,这一步的摩擦比模型质量更常拖后腿。换作人会去手动试移动版网址、订阅源或缓存,而智能体只是停住。

逐级升级直到某条路径打通

insane-search 不把拦截当作终点,而是一步步抬高路径。它先叩公开 API 和订阅源,受阻就尝试移动版、.json 或 /rss 等轻量变体,再伪装 TLS 指纹,最后动用真正的无头浏览器,逐一尝试直到返回干净的公开文本。

无需 API 密钥或代理配置,curl_cffi、yt-dlp 等工具在首次使用时自动安装。凡是有公开页面或订阅源的站点,它大多能读到,包括 X、Reddit、YouTube 字幕、Naver、Coupang、arXiv 和 GitHub。

它拒绝越过的那条线为何重要

更值得注意的是它刻意拒绝去做的事。它不强行越过登录墙或付费墙,而是报告需要身份验证,也从不存储或传输凭据。它在设计上始终是公开内容的阅读器,而非攻破身份验证的工具。

把 AX 落到现场时,真正的摩擦往往不在模型质量,而在能否触达数据。一种在首次拦截时不放弃、坚持尝试公开路径,同时为自己划下不可越界之线的做法,值得介绍。这不是我做的工具,而是我用过之后的推荐。