kyosora 筆記

發表於2026-06-04|AI工具實戰工具與生產力

上一篇我寫了件讓人有點不安的事：在 Cloudflare 的觀測範圍裡，對網頁的請求已經有超過半數來自機器、不是人。那篇談的是需求側——誰在抓。這篇換個角度，談供給側：這些機器，到底拿什麼在抓？問題是我自己的。我有一套夜班工作流，每天清晨讓 Claude Code 自動撈財經新聞、AI 文章、社群討論，整理成一份報告。撐起它抓取層的，目前主要是兩樣東西：Jina Reader 把網頁轉成乾淨 markdown，Agent-Reach 串各家平台。用了一陣子，我開始想——市面上那些更炫的 AI 爬蟲，Firecrawl、Crawl4AI、ScrapeGraphAI，要不要換、或該加進來？於是花了點時間把四個主流工具攤開比。結論有點反直覺：多數時候，你需要的是最便宜、最笨的那個。先搞清楚：功能重疊，但預設路線不同把它們擺在一起比，第一個陷阱是硬切成四個互不重疊的類別。這幾套工具都在增加功能：Jina Reader 已能按 schema 抽 JSON，Crawl4AI 也有 LLM extraction，Firecrawl 同時能 scrape、crawl 和 extract。比較...