AI agent 用什麼抓網頁?四個主流爬蟲工具,多數時候你只需要最便宜那個
上一篇我寫了件讓人有點不安的事:在 Cloudflare 的觀測範圍裡,對網頁的請求已經有超過半數來自機器、不是人。那篇談的是需求側——誰在抓。這篇換個角度,談供給側:這些機器,到底拿什麼在抓? 問題是我自己的。我有一套夜班工作流,每天清晨讓 Claude Code 自動撈財經新聞、AI 文章、社群討論,整理成一份報告。撐起它抓取層的,目前主要是兩樣東西:Jina Reader 把網頁轉成乾淨 markdown,Agent-Reach 串各家平台。用了一陣子,我開始想——市面上那些更炫的 AI 爬蟲,Firecrawl、Crawl4AI、ScrapeGraphAI,要不要換、或該加進來?於是花了點時間把四個主流工具攤開比。結論有點反直覺:多數時候,你需要的是最便宜、最笨的那個。 先搞清楚:這四個根本不是同一種東西把它們擺在一起比,第一個陷阱是以為它們在搶同一個位子。其實它們站在四條不同的路線上,先分清楚再談取捨: 格式轉換(Jina Reader):把一個 URL 變成乾淨 markdown,僅此而已。 託管平台(Firecrawl):雲端 SaaS,幫你把爬取、反爬、prox...





