エージェントはなぜ一度の 403 で止まるのか
エージェントに Web リサーチをさせると、まったくの公開ページでも一度の 403 や WAF、CAPTCHA でアクセスできないと言って作業が途切れることが多くあります。コンテンツはそこにあるのに、既定のフェッチが遮断シグナルに出会った瞬間にそれ以上試さず止まるからです。
実際に自動化を回すと、この接続の段階の摩擦がモデルの性能よりも頻繁に足を引っ張ります。人ならモバイル URL やフィード、キャッシュを手で試す場面でも、エージェントはただ止まります。
通る経路が出るまで上げていくエスカレーション
insane-search は遮断を最終結果と決めつけず、経路を一段ずつ上げます。まず公開 API とフィードを叩き、ふさがれればモバイルや .json、/rss といった軽い変形を試し、次に TLS フィンガープリントを装い、最後には本物のヘッドレスブラウザまで動員して、どれかが通るまで試します。
API キーもプロキシ設定も不要で、curl_cffi や yt-dlp といったツールは初回利用時に自動で入ります。X や Reddit、YouTube の字幕、Naver、Coupang、arXiv、GitHub のように公開ページやフィードがあるサイトなら、おおむね読み取ってきます。
越えないと決めた線がなぜ重要か
より目を引くのは、あえてやらないと決めている点です。ログイン画面やペイウォールの前では越えず、認証が必要だとそのまま報告し、認証情報を保存も送信もしません。設計として、認証を破る道具ではなく公開コンテンツを読む道具という線を守ります。
AX を現場に載せるとき、実際の摩擦はモデルの性能よりもデータに到達できるかで生じることが多いです。最初の遮断で止まらず公開経路を最後まで試しつつ、越えてはならない線をはっきり引いた取り組みなので紹介します。自分が作った道具ではなく、使ってみての推奨です。