用 Claude Code 半年,我從寫程式的變成幫 AI 收尾的
去年十二月,我那份週報的最後一行寫著「團隊士氣:優秀,技術架構清晰,開發效率高」。 五月的週報,標題是「退回潮收斂期」。 中間發生了什麼,這篇就是要講的事。我把一個有數百個頁面的舊系統從 AngularJS 搬到 Vue 3,主力是 AI——半年下來程式碼幾乎都是它寫的,但我整個人變成了幫它擦屁股的。 蜜月期:一週幹完三週的活一開始真的很爽。 專案的前置準備階段,原本排了三週。我把環境建置、登入流程、Layout 元件、狀態管理這些丟給 Claude Code,它一週就全做完了,還順手把舊系統漏掉的九個功能補上。階段提前兩週收工。 那時候我心裡的念頭很單純:照這個速度,這專案根本不用排到四個月。 我那時候真的信了。 接下來幾個月,產出數字一路往上飆。隨便抓幾週的紀錄:某一週 82 個 commit、改了兩百多個檔案、淨增三萬六千行;五月某個禮拜一,光是一天就推了 33 個 commit。如果你只看這些數字,會以為這是一支開了外掛、穩到不行的團隊。 然後,退回潮來了問題是,commit...
微軟內部 Claude Code 被停用——同週 GitHub 備忘錄寫下「生存級風險」
2026 年 5 月 19 日那一週,微軟做了兩件看起來無關、其實是同一件事的事。 第一件:The Information 報導微軟 Experiences + Devices 事業群取消大部分內部 Claude Code 授權,要求工程師在 2026 年 6 月 30 日前全面遷移到 GitHub Copilot CLI。第二件:同一週外流的內部備忘錄警告 GitHub 面臨「生存級風險」,因為 Cursor、Anthropic 的 Claude Code、OpenAI 等自主編程工具「削弱了把程式碼持續上傳到 GitHub 倉庫的必要性」。 兩件事被各家媒體分開報導,但拼起來才看得到全貌。我認為這不是兩個故事,是同一個故事的因和果。 六個月內從試用到強制下線先把時間線釘好: 2025 年 12 月:微軟開始邀請「數千名」內部開發者試用 Claude Code 2026 年 1 月:試用擴展至 Experiences + Devices 事業群全體,涵蓋 Windows、Microsoft 365、Outlook、Teams、Surface 工程團隊 2026 年 1...
LLM 不是不知道該用工具——它在最後一層轉了 90 度,叫不出來
用 Claude Code 久了會發現一種奇怪的 bug:你明確說「先 grep 一下這個 symbol」,它「嗯」一聲,然後直接憑記憶生出一個答案,工具呢?沒叫。又有時候你叫它「直接回答就好不用查」,它反而非要 Bash 一下。 我以前的解釋很俗——prompt 不夠用力、tool description 不夠精準、模型太懶。最近 Maryland 大學的論文〈Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use〉(arXiv:2605.14038)讓我換了一個視角。模型不是不知道該叫工具——它知道,但在輸出層轉了 90 度。 兩階段分解:認知 vs 執行論文做了一件方法論層面很值得記住的事——把「LLM 使用工具」這個動作切成兩階段: Cognition(認知):模型內部是不是相信「這題需要工具」。透過線性 probe 探測 hidden state 的方向,可以直接讀出模型的內部判斷。 Execution(執行):模型實際輸出的 token 是不是 trigger 了...
Anthropic 自己出手冊警告:AI 不是降低創業失敗率,是放大它
五月十四日 Anthropic 在自家部落格放出一份叫 Founder's Playbook 的內部手冊,主題是「怎麼用 AI 從零做一家 startup」。 結論反直覺:AI 會放大你的創業失敗模式,而不是降低失敗率。寫這份手冊的是 Anthropic 自己——賣你 Claude Code 的那家公司——提醒你它賣的工具會放大失敗。 我下載 PDF 那天剛好在抓一個 bug那天我在改公司專案的下載功能。PM 一直堅持是「SQL 抓不到資料」,花了快兩小時才發現根本不是——伺服器上的 LibreOffice 被 MODA ODF Application Tools 的安裝程式覆寫掉了,舊路徑變成空殼資料夾。 問題本身只是一行硬編碼路徑。難搞的是錯誤被四層補丁吞掉的方式:執行檔不見就拋例外、ConvertFile 沒產出檔還是寫 log 繼續跑、controller 對著不存在路徑 return File()、最外層 catch 把一切包成 Content("查無資料")。前端拿到 1,229 bytes 的「ODS 檔」(其實是 HTML...
以為寫完了:Claude Code 觀測 digest 的兩次設計
我一直以為 Claude Code 在靜默觀測我做的每件事。裝了 continuous-learning-v2 這個 skill,規則寫著「每輪對話自動抽取模式」、「任務結束時主動寫入知識庫」,加上 auto-skill 把產出綁到 Obsidian Vault——聽起來就像我敲的每一行指令都會被默默萃取成經驗。 然後我打開 Vault 的 auto-skill/experience/ 看一眼。 7 筆。 9 天 7 筆,其中 6 筆是某個下午當場叫 Claude 記的。真正「自動」產出的是 0 筆。 我愣了一下——這兩週敲出來的幾千次工具呼叫到底去了哪裡?還是根本沒被記? 規則沒壞,但產出為零auto-skill 的規則是這樣設計的:每輪對話抽關鍵詞、判斷話題切換、符合條件才主動問使用者要不要寫入。理論上很精巧,每次任務結束都會評估一下「這次解決的問題下次還能用嗎」,可以就寫。 問題是這個評估是我執行的,而我是一個對話結束就消失的程序。每一代 session 用自己那輪的「品質標準」判斷,標準會漂移,多數日常工作我會覺得「這沒什麼特別」就跳過。結果 9 天產出 1...
你的 CLAUDE.md 超過 300 行了嗎?我用分層架構解決了三個問題
我的 CLAUDE.md 曾經有 800 多行。裡面塞了程式碼規範、交易哲學、小說寫作標準、TRPG 跑團引擎、150 個 skill 綁定,全部標「必須使用」。 結果就是:AI 每次回應都在評估一百多條規則,該觸發的 skill 常常漏掉,不該觸發的反而亂觸發。寫程式的時候它想跟我討論交易策略,跑團的時候它想幫我做程式碼審查。 花了幾週迭代,最後整理成一套架構,解決了三個具體問題。今天把它開源了:claude-layers。 問題一:150 個 Skill 全標「必須使用」裝了三四十個 skill 之後,CLAUDE.md 裡的綁定表越來越長。每一條都寫「看到這個關鍵字,必須觸發這個 skill」。 聽起來很合理,直到你發現 AI 把「必須」當成「全部一樣重要」。 實際狀況是:有些 skill 包裝了外部 API(像 Twitter 發推用的 xurl、Google Workspace 用的 gog),不觸發就真的做不了事。但有些 skill 只是品質指引(像 python-patterns 提供 PEP 8...
.npmignore 少一行,512K 行原始碼見光——Claude Code 洩漏事件全解析
2026 年 3 月 31 日 UTC 凌晨 4 點,Anthropic 把 Claude Code v2.1.88 推上 npm。23 分鐘後,一位累積 190 萬美元漏洞賞金的安全研究員在 X 上發了一則貼文,引爆了 AI 開發工具史上最大的原始碼洩漏事件。 512,000 行 TypeScript。1,900 個檔案。44 個未開放的 Feature Flags。全部見光。 而最諷刺的是,這家公司的品牌定位是「安全至上」。 一個 .npmignore 的遺漏如何釀成災難事情的根因簡單到令人難以置信。 Claude Code 用 Bun 做 bundler。Bun 預設會產生 source map 檔案——一個 59.8 MB 的 cli.js.map,用來把打包後的程式碼對應回原始 TypeScript。這個檔案指向 Anthropic 的 Cloudflare R2 儲存桶上一個 zip 壓縮檔,裡面裝著完整的未混淆原始碼。 正常流程下,.npmignore 應該排除這個檔案。但不知道是哪個環節出了問題,它被一起推上了公開的 npm registry。 更慘的是,Bun...
Claude 寫、Codex 審:Agent-to-Agent 配對程式設計到底有沒有用?
一個人寫程式碼容易盲點。所以我們發明了 pair programming——兩個人看同一份程式碼,一個寫、一個審。 現在有人問:如果兩個都換成 AI 呢? 這個概念從哪來Axel Delafosse 在他的部落格上發了一篇「Agent-to-agent pair programming」,在 HN 拿了 97 分和 34 則討論。核心想法:讓 Claude Code 負責寫程式碼,讓 OpenAI Codex 負責 review,兩個 agent 在同一個 codebase 上來回迭代,直到 review 通過。 不是人 + AI,是 AI + AI。人類退到 supervisor 的角色——設定目標、審核最終結果,中間過程交給兩個 agent 自己跑。 實際怎麼運作目前有幾種做法在社群裡流通: 手動切換派。 最原始但很多人在用。Claude Code 寫完一個 feature,把 diff 丟給 Codex review。Codex 找到問題,人類把 review 結果貼回 Claude Code。來回幾輪直到通過。HN 上有人提到做了 10-15 輪...
你的 AI 開發工具鏈被下毒了嗎?LiteLLM 供應鏈攻擊事件完整解析
2026 年 3 月 24 日上午 10:52 UTC,有人把一個藏了後門的 litellm 1.82.8 推上了 PyPI。六分鐘後,一位工程師的筆電因為 11,000 個 Python 程序同時爆開而當機。 他原本以為是 Cursor 更新搞的鬼。結果是一場精心設計的供應鏈攻擊——而且他是全世界第一個發現的人。 事件怎麼發生的litellm 是 AI 開發圈的常客。做 LLM 應用的人幾乎都用過它——統一呼叫 OpenAI、Anthropic、Gemini 等不同模型 API 的 proxy 層。PyPI 上的週下載量是百萬級別。 攻擊者拿到了 litellm 的 PyPI 發布權限(很可能是維護者帳號被盜),直接推了一個 1.82.8 版本上去。GitHub 上完全沒有對應的 tag 或 release——繞過了正常的發布流程。 惡意程式碼藏在一個叫 litellm_init.pth 的檔案裡。.pth 是 Python 的一個古老機制:放在 site-packages 目錄下的 .pth 檔案,會在每次 Python 啟動時自動執行。不需要...
Cursor 自建 AI 模型的背後邏輯:當你的 IDE 不想再幫別人打工
三月十九號,Bloomberg 丟出一顆炸彈:Cursor 正在自建 AI 模型。 不是微調,不是套殼。是從頭訓練一個專門寫程式碼的基礎模型,叫做 Composer 2。同一天,消息傳出 Cursor 正在以約 500 億美元估值募資。 一個 IDE 公司,估值比大多數 SaaS 獨角獸加起來還高,然後決定去做模型。這件事值得認真想一下。 為什麼 Cursor 要自己做模型?先看數字:Cursor 現在每天有超過一百萬活躍用戶,五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。 表面上看,一切都很好。但 Cursor 的核心焦慮其實很明確:他們最重要的能力,是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。 這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex...
