kyosora 筆記

發表於2026-06-04|AI工具實戰工具與生產力

上一篇我寫了件讓人有點不安的事：在 Cloudflare 的觀測範圍裡，對網頁的請求已經有超過半數來自機器、不是人。那篇談的是需求側——誰在抓。這篇換個角度，談供給側：這些機器，到底拿什麼在抓？問題是我自己的。我有一套夜班工作流，每天清晨讓 Claude Code 自動撈財經新聞、AI 文章、社群討論，整理成一份報告。撐起它抓取層的，目前主要是兩樣東西：Jina Reader 把網頁轉成乾淨 markdown，Agent-Reach 串各家平台。用了一陣子，我開始想——市面上那些更炫的 AI 爬蟲，Firecrawl、Crawl4AI、ScrapeGraphAI，要不要換、或該加進來？於是花了點時間把四個主流工具攤開比。結論有點反直覺：多數時候，你需要的是最便宜、最笨的那個。先搞清楚：功能重疊，但預設路線不同把它們擺在一起比，第一個陷阱是硬切成四個互不重疊的類別。這幾套工具都在增加功能：Jina Reader 已能按 schema 抽 JSON，Crawl4AI 也有 LLM extraction，Firecrawl 同時能 scrape、crawl 和 extract。比較...

57.5% 的網頁請求已經不是人類——你的網站還在只為真人設計嗎

發表於2026-06-04|AI產業觀察前後端開發

這篇文章的題目，是一個機器假扮成人類、去敲另一台機器的門撈回來的。今天我想更新部落格，照慣例讓 Claude Code 上網找找熱點。它撈資料的指令我順手看了一眼——curl 後面掛著一長串 Mozilla/5.0 ... Chrome/124.0.0.0 Safari/537.36 的 User-Agent。那串字翻成白話是：「我是一個人類，正在用 Chrome 瀏覽器」。但下指令的不是人，是我的 AI 工具；它連的也不是給人看的網頁，是一個只吐 JSON 的 API。原因很實際：那個 API 用 nginx 擋掉所有看起來像程式的請求，預設的 curl/8.x UA 會被直接 403 回絕。所以為了幫我這個真人找今天的新聞，機器得先假裝自己也是個正在滑網頁的人。撈回來的那堆 JSON 裡，有一條新聞正好在講這件事的全貌。過了那條線：57.5% 對 42.5%2026 年中，一個分水嶺數字開始在圈子裡流傳：在 Cloudflare 網路上、對 HTML 網頁內容的 HTTP 請求裡，57.5% 來自機器人，只有 42.5% 來自真人瀏覽器——這是 Cloudflare R...