AI agent 用什麼抓網頁?四個主流爬蟲工具,多數時候你只需要最便宜那個
上一篇我寫了件讓人有點不安的事:在 Cloudflare 的觀測範圍裡,對網頁的請求已經有超過半數來自機器、不是人。那篇談的是需求側——誰在抓。這篇換個角度,談供給側:這些機器,到底拿什麼在抓? 問題是我自己的。我有一套夜班工作流,每天清晨讓 Claude Code 自動撈財經新聞、AI 文章、社群討論,整理成一份報告。撐起它抓取層的,目前主要是兩樣東西:Jina Reader 把網頁轉成乾淨 markdown,Agent-Reach 串各家平台。用了一陣子,我開始想——市面上那些更炫的 AI 爬蟲,Firecrawl、Crawl4AI、ScrapeGraphAI,要不要換、或該加進來?於是花了點時間把四個主流工具攤開比。結論有點反直覺:多數時候,你需要的是最便宜、最笨的那個。 先搞清楚:這四個根本不是同一種東西把它們擺在一起比,第一個陷阱是以為它們在搶同一個位子。其實它們站在四條不同的路線上,先分清楚再談取捨: 格式轉換(Jina Reader):把一個 URL 變成乾淨 markdown,僅此而已。 託管平台(Firecrawl):雲端 SaaS,幫你把爬取、反爬、prox...
57.5% 的網頁請求已經不是人類——你的網站還在只為真人設計嗎
這篇文章的題目,是一個機器假扮成人類、去敲另一台機器的門撈回來的。 今天我想更新部落格,照慣例讓 Claude Code 上網找找熱點。它撈資料的指令我順手看了一眼——curl 後面掛著一長串 Mozilla/5.0 ... Chrome/124.0.0.0 Safari/537.36 的 User-Agent。那串字翻成白話是:「我是一個人類,正在用 Chrome 瀏覽器」。但下指令的不是人,是我的 AI 工具;它連的也不是給人看的網頁,是一個只吐 JSON 的 API。原因很實際:那個 API 用 nginx 擋掉所有看起來像程式的請求,預設的 curl/8.x UA 會被直接 403 回絕。所以為了幫我這個真人找今天的新聞,機器得先假裝自己也是個正在滑網頁的人。 撈回來的那堆 JSON 裡,有一條新聞正好在講這件事的全貌。 過了那條線:57.5% 對 42.5%2026 年中,一個分水嶺數字開始在圈子裡流傳:在 Cloudflare 網路上、對 HTML 網頁內容的 HTTP 請求裡,57.5% 來自機器人,只有 42.5% 來自真人瀏覽器——這是 Cloudflare R...






