kyosora 筆記

發表於2026-05-25|AI工具實戰職涯與反思

去年十二月，我那份週報的最後一行寫著「團隊士氣：優秀，技術架構清晰，開發效率高」。五月的週報，標題是「退回潮收斂期」。中間發生了什麼，這篇就是要講的事。我把一個有數百個頁面的舊系統從 AngularJS 搬到 Vue 3，主力是 AI——半年下來程式碼幾乎都是它寫的，但我整個人變成了幫它擦屁股的。蜜月期：一週幹完三週的活一開始真的很爽。專案的前置準備階段，原本排了三週。我把環境建置、登入流程、Layout 元件、狀態管理這些丟給 Claude Code，它一週就全做完了，還順手把舊系統漏掉的九個功能補上。階段提前兩週收工。那時候我心裡的念頭很單純：照這個速度，這專案根本不用排到四個月。我那時候真的信了。接下來幾個月，產出數字一路往上飆。隨便抓幾週的紀錄：某一週 82 個 commit、改了兩百多個檔案、淨增三萬六千行；五月某個禮拜一，光是一天就推了 33 個 commit。如果你只看這些數字，會以為這是一支開了外掛、穩到不行的團隊。然後，退回潮來了問題是，commit 數不等於完成數。業主驗收一輪一輪退回來。我的週報開始反覆出現「退回」「二次修復」「再修復」這些...

微軟內部 Claude Code 被停用——同週 GitHub 備忘錄寫下「生存級風險」

發表於2026-05-21|工具與生產力AI產業觀察

2026 年 5 月 19 日那一週，微軟做了兩件看起來無關、其實是同一件事的事。第一件：The Information 報導微軟 Experiences + Devices 事業群取消大部分內部 Claude Code 授權，要求工程師在 2026 年 6 月 30 日前全面遷移到 GitHub Copilot CLI。第二件：同一週外流的內部備忘錄警告 GitHub 面臨「生存級風險」，因為 Cursor、Anthropic 的 Claude Code、OpenAI 等自主編程工具「削弱了把程式碼持續上傳到 GitHub 倉庫的必要性」。兩件事被各家媒體分開報導，但拼起來才看得到全貌。我認為這不是兩個故事，是同一個故事的因和果。六個月內從試用到強制下線先把時間線釘好： 2025 年 12 月：微軟開始邀請「數千名」內部開發者試用 Claude Code 2026 年 1 月：試用擴展至 Experiences + Devices 事業群全體，涵蓋 Windows、Microsoft 365、Outlook、Teams、Surface 工程團隊 2026 年 1 月起：...

LLM 不是不知道該用工具——它在最後一層轉了 90 度，叫不出來

發表於2026-05-18|AI工具實戰AI產業觀察

用 Claude Code 久了會發現一種奇怪的 bug：你明確說「先 grep 一下這個 symbol」，它「嗯」一聲，然後直接憑記憶生出一個答案，工具呢？沒叫。又有時候你叫它「直接回答就好不用查」，它反而非要 Bash 一下。我以前的解釋很俗——prompt 不夠用力、tool description 不夠精準、模型太懶。最近 Maryland 大學的論文〈Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use〉（arXiv:2605.14038）讓我換了一個視角。模型不是不知道該叫工具——它知道，但在輸出層轉了 90 度。兩階段分解：認知 vs 執行論文做了一件方法論層面很值得記住的事——把「LLM 使用工具」這個動作切成兩階段： Cognition（認知）：模型內部是不是相信「這題需要工具」。透過線性 probe 探測 hidden state 的方向，可以直接讀出模型的內部判斷。 Execution（執行）：模型實際輸出的 token 是不是 trigger 了 too...

Anthropic 自己出手冊警告：AI 不是降低創業失敗率，是放大它

發表於2026-05-18|AI工具實戰AI產業觀察

五月十四日 Anthropic 在自家部落格放出一份叫 Founder's Playbook 的內部手冊，主題是「怎麼用 AI 從零做一家 startup」。結論反直覺：AI 會放大你的創業失敗模式，而不是降低失敗率。寫這份手冊的是 Anthropic 自己——賣你 Claude Code 的那家公司——提醒你它賣的工具會放大失敗。我下載 PDF 那天剛好在抓一個 bug那天我在改公司專案的下載功能。PM 一直堅持是「SQL 抓不到資料」，花了快兩小時才發現根本不是——伺服器上的 LibreOffice 被 MODA ODF Application Tools 的安裝程式覆寫掉了，舊路徑變成空殼資料夾。問題本身只是一行硬編碼路徑。難搞的是錯誤被四層補丁吞掉的方式：執行檔不見就拋例外、ConvertFile 沒產出檔還是寫 log 繼續跑、controller 對著不存在路徑 return File()、最外層 catch 把一切包成 Content("查無資料")。前端拿到 1,229 bytes 的「ODS 檔」（其實是 HTML 錯誤頁），或...

以為寫完了：Claude Code 觀測 digest 的兩次設計

發表於2026-04-10|AI工具實戰

我一直以為 Claude Code 在靜默觀測我做的每件事。裝了 continuous-learning-v2 這個 skill，規則寫著「每輪對話自動抽取模式」、「任務結束時主動寫入知識庫」，加上 auto-skill 把產出綁到 Obsidian Vault——聽起來就像我敲的每一行指令都會被默默萃取成經驗。然後我打開 Vault 的 auto-skill/experience/ 看一眼。 7 筆。 9 天 7 筆，其中 6 筆是某個下午當場叫 Claude 記的。真正「自動」產出的是 0 筆。我愣了一下——這兩週敲出來的幾千次工具呼叫到底去了哪裡？還是根本沒被記？規則沒壞，但產出為零auto-skill 的規則是這樣設計的：每輪對話抽關鍵詞、判斷話題切換、符合條件才主動問使用者要不要寫入。理論上很精巧，每次任務結束都會評估一下「這次解決的問題下次還能用嗎」，可以就寫。問題是這個評估是我執行的，而我是一個對話結束就消失的行程。每一代 session 用自己那輪的「品質標準」判斷，標準會漂移，多數日常工作我會覺得「這沒什麼特別」就跳過。結果 9 天產出 1 筆自動紀錄。...

你的 CLAUDE.md 超過 300 行了嗎？我用分層架構解決了三個問題

發表於2026-04-02|AI工具實戰

我的 CLAUDE.md 曾經有 800 多行。裡面塞了程式碼規範、交易哲學、小說寫作標準、TRPG 跑團引擎、150 個 skill 綁定，全部標「必須使用」。結果就是：AI 每次回應都在評估一百多條規則，該觸發的 skill 常常漏掉，不該觸發的反而亂觸發。寫程式的時候它想跟我討論交易策略，跑團的時候它想幫我做程式碼審查。花了幾週迭代，最後整理成一套架構，解決了三個具體問題。今天把它開源了：claude-layers。問題一：150 個 Skill 全標「必須使用」裝了三四十個 skill 之後，CLAUDE.md 裡的綁定表越來越長。每一條都寫「看到這個關鍵字，必須觸發這個 skill」。聽起來很合理，直到你發現 AI 把「必須」當成「全部一樣重要」。實際狀況是：有些 skill 包裝了外部 API（像 Twitter 發推用的 xurl、Google Workspace 用的 gog），不觸發就真的做不了事。但有些 skill 只是品質指引（像 python-patterns 提供 PEP 8 建議），不觸發也不會怎樣，只是品質稍差。把這兩種混在一起全部標...

.npmignore 少一行，512K 行原始碼見光——Claude Code 洩漏事件全解析

發表於2026-04-02|AI工具實戰工具與生產力

2026 年 3 月 31 日 UTC 凌晨 4 點，Anthropic 把 Claude Code v2.1.88 推上 npm。23 分鐘後，一位累積 190 萬美元漏洞賞金的安全研究員在 X 上發了一則貼文，引爆了 AI 開發工具史上最大的原始碼洩漏事件。 512,000 行 TypeScript。1,900 個檔案。44 個未開放的 Feature Flags。全部見光。而最諷刺的是，這家公司的品牌定位是「安全至上」。一個 .npmignore 的遺漏如何釀成災難事情的根因簡單到令人難以置信。 Claude Code 用 Bun 做 bundler。Bun 預設會產生 source map 檔案——一個 59.8 MB 的 cli.js.map，用來把打包後的程式碼對應回原始 TypeScript。這個檔案指向 Anthropic 的 Cloudflare R2 儲存桶上一個 zip 壓縮檔，裡面裝著完整的未混淆原始碼。正常流程下，.npmignore 應該排除這個檔案。但不知道是哪個環節出了問題，它被一起推上了公開的 npm registry。更慘的是，Bun ...

Claude 寫、Codex 審：Agent-to-Agent 配對程式設計到底有沒有用？

發表於2026-03-27|AI工具實戰工具與生產力

一個人寫程式碼容易盲點。所以我們發明了 pair programming——兩個人看同一份程式碼，一個寫、一個審。現在有人問：如果兩個都換成 AI 呢？這個概念從哪來Axel Delafosse 在他的部落格上發了一篇「Agent-to-agent pair programming」，在 HN 拿了 97 分和 34 則討論。核心想法：讓 Claude Code 負責寫程式碼，讓 OpenAI Codex 負責 review，兩個 agent 在同一個 codebase 上來回迭代，直到 review 通過。不是人 + AI，是 AI + AI。人類退到 supervisor 的角色——設定目標、審核最終結果，中間過程交給兩個 agent 自己跑。實際怎麼運作目前有幾種做法在社群裡流通：手動切換派。最原始但很多人在用。Claude Code 寫完一個 feature，把 diff 丟給 Codex review。Codex 找到問題，人類把 review 結果貼回 Claude Code。來回幾輪直到通過。HN 上有人提到做了 10-15 輪 fix-and-revi...

你的 AI 開發工具鏈被下毒了嗎？LiteLLM 供應鏈攻擊事件完整解析

發表於2026-03-27|AI工具實戰資訊安全

2026 年 3 月 24 日上午 10:52 UTC，有人把一個藏了後門的 litellm 1.82.8 推上了 PyPI。六分鐘後，一位工程師的筆電因為 11,000 個 Python 程序同時爆開而當機。他原本以為是 Cursor 更新搞的鬼。結果是一場精心設計的供應鏈攻擊——而且他是全世界第一個發現的人。事件怎麼發生的litellm 是 AI 開發圈的常客。做 LLM 應用的人幾乎都用過它——統一呼叫 OpenAI、Anthropic、Gemini 等不同模型 API 的 proxy 層。PyPI 上的週下載量是百萬級別。攻擊者拿到了 litellm 的 PyPI 發布權限（很可能是維護者帳號被盜），直接推了一個 1.82.8 版本上去。GitHub 上完全沒有對應的 tag 或 release——繞過了正常的發布流程。惡意程式碼藏在一個叫 litellm_init.pth 的檔案裡。.pth 是 Python 的一個古老機制：放在 site-packages 目錄下的 .pth 檔案，會在每次 Python 啟動時自動執行。不需要 import，不需要呼叫，Py...

Cursor 自建 AI 模型的背後邏輯：當你的 IDE 不想再幫別人打工

發表於2026-03-20|AI工具實戰工具與生產力

三月十九號，Bloomberg 丟出一顆炸彈：Cursor 正在自建 AI 模型。不是微調，不是套殼。是從頭訓練一個專門寫程式碼的基礎模型，叫做 Composer 2。同一天，消息傳出 Cursor 正在以約 500 億美元估值募資。一個 IDE 公司，估值比大多數 SaaS 獨角獸加起來還高，然後決定去做模型。這件事值得認真想一下。為什麼 Cursor 要自己做模型？先看數字：Cursor 現在每天有超過一百萬活躍使用者，五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。表面上看，一切都很好。但 Cursor 的核心焦慮其實很明確：他們最重要的能力，是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex 直接整...