Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告
你有沒有認真算過,Claude Code 幫你跑完一個長 session,到底燒了多少 token、按了哪些工具、有沒有在你沒盯著的時候改了什麼設定、碰了哪一把金鑰? 我沒有。多數時候我就是看著它一條條工具呼叫往下刷,跑完、能用、收工。中間那一大段,基本是個黑盒——我信任它,但我沒看。 前幾天看到一個叫 Her(天城文寫作 हेर)的工具,就是來幹這件事的——把那段沒人在看的過程,變成你看得懂的東西。先講清楚:我還沒實際把自己的 session 餵進去跑過,下面講的是讀了它的設計和文件之後的判斷,不是實測評測。但它的一個設計取捨很值得拿出來講。 跑完一個長 session,你真的知道它幹了什麼嗎每一次 Claude Code 的 session,都會在硬碟上留下一個 .jsonl 檔——裡面記著每一輪對話、每一次工具呼叫、每一筆 token 花費。這個檔一直在那,只是沒人會去讀。它又長又密,是寫給機器看的,不是寫給人看的。 問題是,當你越來越放手讓 agent 自己跑——讓它部署、讓它改設定檔、讓它接觸生產環境——這個沒人讀的檔裡,就藏著一些你其實該知道的事。它有沒有在第 40 ...
AI 寫的 code 一直要打掉重練?Spec Kit 想用一份可執行規範終結 vibe coding
我用 AI 寫 code 兩年多,最常打掉重練的,不是那些真的很難的演算法,而是一句話沒講清楚惹出來的麻煩。 「幫我做一個檔案上傳功能。」AI 三十秒丟回一坨能跑的東西,介面有了、錯誤處理也有了。然後我才發現:它預設存本地磁碟,而我要的是上傳到物件儲存;它沒驗副檔名;50MB 的檔直接讓記憶體爆掉;前端完全沒有上傳進度。於是我追加一句 prompt,它改;再追加一句,它改歪了別的地方,把剛才好好的錯誤處理弄不見了。一個下午過去,那個「三十秒就好」的功能還在原地打轉。 這不是模型笨。是我從頭到尾沒給它一份講清楚的合約。 三十秒生出來的東西,為什麼一個下午還收不了尾這就是現在大家在做的事,英文叫 vibe coding——憑感覺對 AI 下指令,看它生出什麼,不對再喊它改。它的賣點是快,問題也是快:你把「想清楚要什麼」這件事,從動手前延後到了看到結果之後。 延後不等於省掉。需求遲早要補完,邊界遲早要劃清,只是現在改的對象,從你腦袋裡的設計,變成了一坨已經寫出來、還在長大的 code。改三次還行,改到第八次,新的 prompt 開始把前幾次講好的決定蓋掉——AI 不是忘了,是它老實照你...
AI agent 用什麼抓網頁?四個主流爬蟲工具,多數時候你只需要最便宜那個
上一篇我寫了件讓人有點不安的事:在 Cloudflare 的觀測範圍裡,對網頁的請求已經有超過半數來自機器、不是人。那篇談的是需求側——誰在抓。這篇換個角度,談供給側:這些機器,到底拿什麼在抓? 問題是我自己的。我有一套夜班工作流,每天清晨讓 Claude Code 自動撈財經新聞、AI 文章、社群討論,整理成一份報告。撐起它抓取層的,目前主要是兩樣東西:Jina Reader 把網頁轉成乾淨 markdown,Agent-Reach 串各家平台。用了一陣子,我開始想——市面上那些更炫的 AI 爬蟲,Firecrawl、Crawl4AI、ScrapeGraphAI,要不要換、或該加進來?於是花了點時間把四個主流工具攤開比。結論有點反直覺:多數時候,你需要的是最便宜、最笨的那個。 先搞清楚:這四個根本不是同一種東西把它們擺在一起比,第一個陷阱是以為它們在搶同一個位子。其實它們站在四條不同的路線上,先分清楚再談取捨: 格式轉換(Jina Reader):把一個 URL 變成乾淨 markdown,僅此而已。 託管平台(Firecrawl):雲端 SaaS,幫你把爬取、反爬、prox...
Claude Code 動態工作流實戰:用一支 JavaScript 派一群子代理,順便算了筆 token 帳
Claude Code 最近多了一個功能叫動態工作流(dynamic workflows):讓主代理在執行時,當場寫一支 JavaScript,生成並協調一群子代理——每個子代理有自己獨立的 context window 和一個聚焦的小目標。 我前幾天用它做了件很實際的雜活:評估四個候選部落格選題,看哪個跟我既有文章庫重複、哪個值得寫。這篇把那支 script 整個攤開,講三件事——怎麼寫、parallel 和 pipeline 怎麼選、跑一次燒多少 token。 為什麼不是「開更多分頁」那麼簡單你可能會想,並行做事,開幾個對話視窗不就好了? 差別在 context。Claude Code 過去是「一個對話、一條 context」,所有東西擠在同一個上下文視窗。長任務這個模式有三個老毛病,官方發布時直接點名:智能惰性(做到一半宣布完工)、自我偏好偏差(驗證自己的產出時護短)、目標漂移(對話太長、尤其壓縮過後忘了最初目標)。 動態工作流的解法不是把單一 context 養得更肥,而是把活切開:每個子代理拿一塊乾淨的上下文,做一件聚焦的事,彼此不互相汙染。並行只是順帶的好處,真正的價...
Gemini 漲 2 倍仍是美系最便宜、GPT 跟著漲、Claude 反而降——2026 年 AI API 三家定價分歧的真實意義
把過去半年三家 LLM 旗艦的價格軌跡攤開看,方向完全不同。 OpenAI 從 GPT-5(2025/08 發布)的 $1.25/$10,經 GPT-5.4 的 $2.5/$15,到 2026/04/23 GPT-5.5 直接拉到 $5/$30——輸入價漲 4 倍、輸出價漲 3 倍。Google 從 Gemini 2.5 Pro(2025/06)的 $1/$10 漲到 Gemini 3 Pro(2025/11/18)的 $2/$12,再到 2026/05/19 推出 Gemini 3.5 Flash $1.5/$9(比自家 3.1 Pro 還便宜)。Anthropic 從 Claude 3 Opus 的 $15/$75 直接砍到 Opus 4.5(2025/11)的 $5/$25,之後 4.6、4.7(2026/04/16)三代都維持同價。 VC Tomer Tunguz 上週把這幾條曲線畫在同一張圖,下了一個短評:「補貼在現金充裕、市占重要的時候發生;漲價在現金緊、利潤重要的時候發生。」 三家走的方向不同,意思就是他們現在缺的東西不一樣。 對每個月開 API 帳單的人來說,這不...
微軟內部 Claude Code 被停用——同週 GitHub 備忘錄寫下「生存級風險」
2026 年 5 月 19 日那一週,微軟做了兩件看起來無關、其實是同一件事的事。 第一件:The Information 報導微軟 Experiences + Devices 事業群取消大部分內部 Claude Code 授權,要求工程師在 2026 年 6 月 30 日前全面遷移到 GitHub Copilot CLI。第二件:同一週外流的內部備忘錄警告 GitHub 面臨「生存級風險」,因為 Cursor、Anthropic 的 Claude Code、OpenAI 等自主編程工具「削弱了把程式碼持續上傳到 GitHub 倉庫的必要性」。 兩件事被各家媒體分開報導,但拼起來才看得到全貌。我認為這不是兩個故事,是同一個故事的因和果。 六個月內從試用到強制下線先把時間線釘好: 2025 年 12 月:微軟開始邀請「數千名」內部開發者試用 Claude Code 2026 年 1 月:試用擴展至 Experiences + Devices 事業群全體,涵蓋 Windows、Microsoft 365、Outlook、Teams、Surface 工程團隊 2026 年 1 月起:...
打開 APEX 就藍屏重啟?用 PowerShell 事件日誌 10 分鐘找出元兇
按下 APEX 啟動鍵。讀取畫面跑完。然後——藍屏,重啟。 再試一次。還是藍屏。 這個問題困擾我好一陣子了。頻率不固定,有時候連開三場沒事,有時候進遊戲讀完畫面就炸。因為不是每次都觸發,排查起來格外惱人——你沒辦法穩定重現,就很難判斷到底是哪裡出問題。 我走過的彎路我一開始懷疑是熱當。APEX 吃資源本來就兇,我的 GPU 溫度跑到八九十度是常態,藍屏的時間點又剛好在遊戲載入高峰,看起來太像過熱了。 所以我先更新了顯示卡驅動。沒用。 接著我把 APEX 的相關路徑全部加進火絨的安全區,怕是防毒軟體跟 EasyAntiCheat 打架。也沒用。 問題就這樣斷斷續續,每隔幾天炸一次,炸完重開又能玩,讓人很難下定決心認真查。直到某天連續藍屏兩次,我受不了了,想到一件事——AI 現在不是很會讀 log 嗎?不如直接把事件日誌丟給它看。 這個決定救了我大概一整個晚上的時間。 BSOD 0x0000001a 是什麼MEMORY_MANAGEMENT。聽起來嚇人,實際上這個停止碼涵蓋範圍很廣,代表 Windows 核心在管理記憶體時遇到嚴重的不一致狀態。 溫度、驅動、防毒——我之前懷疑的方...
.npmignore 少一行,512K 行原始碼見光——Claude Code 洩漏事件全解析
2026 年 3 月 31 日 UTC 凌晨 4 點,Anthropic 把 Claude Code v2.1.88 推上 npm。23 分鐘後,一位累積 190 萬美元漏洞賞金的安全研究員在 X 上發了一則貼文,引爆了 AI 開發工具史上最大的原始碼洩漏事件。 512,000 行 TypeScript。1,900 個檔案。44 個未開放的 Feature Flags。全部見光。 而最諷刺的是,這家公司的品牌定位是「安全至上」。 一個 .npmignore 的遺漏如何釀成災難事情的根因簡單到令人難以置信。 Claude Code 用 Bun 做 bundler。Bun 預設會產生 source map 檔案——一個 59.8 MB 的 cli.js.map,用來把打包後的程式碼對應回原始 TypeScript。這個檔案指向 Anthropic 的 Cloudflare R2 儲存桶上一個 zip 壓縮檔,裡面裝著完整的未混淆原始碼。 正常流程下,.npmignore 應該排除這個檔案。但不知道是哪個環節出了問題,它被一起推上了公開的 npm registry。 更慘的是,Bun ...
一台 Mac mini 變成 24 小時 AI 員工:Perplexity Personal Computer 的架構野心
3 月 11 日,Perplexity 在首屆 Ask 開發者大會上發表了 Personal Computer。不是一台新電腦,而是一套軟體——裝在你的 Mac mini 上,讓它變成一個 24 小時不關機的 AI 員工。 月費 200 美元。每個敏感操作需要你點一下「同意」。有 kill switch。 企業版的宣傳數字是「四週完成 3.25 年的工作量」。先別急著翻白眼,架構本身值得拆解。 三種「AI 控制你的電腦」路線2026 年至少有五家在做這件事。但技術路線完全不同: 產品 路線 核心差異 Perplexity Personal Computer 本地硬體 + 雲端大腦 Mac mini 24 小時跑,agent 直接存取本地檔案和 app Claude Computer Use 螢幕操控 看螢幕、移滑鼠、點按鈕,模擬人類操作 ChatGPT Agent Mode 雲端 agent 在 OpenAI 的伺服器上執行任務,透過 API 和工具完成 Microsoft Copilot 深度 OS 整合 綁定 Windows 和 Office 365,...
Claude 寫、Codex 審:Agent-to-Agent 配對程式設計到底有沒有用?
一個人寫程式碼容易盲點。所以我們發明了 pair programming——兩個人看同一份程式碼,一個寫、一個審。 現在有人問:如果兩個都換成 AI 呢? 這個概念從哪來Axel Delafosse 在他的部落格上發了一篇「Agent-to-agent pair programming」,在 HN 拿了 97 分和 34 則討論。核心想法:讓 Claude Code 負責寫程式碼,讓 OpenAI Codex 負責 review,兩個 agent 在同一個 codebase 上來回迭代,直到 review 通過。 不是人 + AI,是 AI + AI。人類退到 supervisor 的角色——設定目標、審核最終結果,中間過程交給兩個 agent 自己跑。 實際怎麼運作目前有幾種做法在社群裡流通: 手動切換派。 最原始但很多人在用。Claude Code 寫完一個 feature,把 diff 丟給 Codex review。Codex 找到問題,人類把 review 結果貼回 Claude Code。來回幾輪直到通過。HN 上有人提到做了 10-15 輪 fix-and-revi...










