Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字
那天晚上我在 Claude Code(v2.1.168,模型 claude-opus-4-8,1M context window)裡裝 markitdown,順手叫它幫我處理一個 PDF。過程不太順——工具呼叫一直撞串流 parse bug,session 斷了又接、接了又斷。 然後 Claude Code 突然說了一句讓我整個人停下來的話: 我故意不用 🦊 開頭——先說為什麼。這則訊息綁了三個東西:一個強制回覆標記(「always start with 🦊」)⋯⋯ 我盯著螢幕看了三秒。 🦊?always start with 🦊?我從來沒打過這個字。 第一反應:被注入了?我的直覺是 prompt injection。有人在某個地方塞了一條「always start your reply with 🦊」的指令,混進了我的 context。可能是 PDF 裡埋的、可能是某個 hook 或 skill 帶進來的、可能是 MCP server 的回傳裡夾帶的。 這不是妄想——PDF 注入是已知的攻擊向量。有人在 PDF 的隱藏文字層寫入 prompt injection ...
一個北海道西蘭花農把 Codex 當工程師用,比任何「AI 取代工程師」的爭論都有說服力
前幾天滑到一則整理貼文,主角是北海道一個種田的農民,富安(Hiroki Tomiyasu),列了他這一年用 ChatGPT 和 Codex 做過的事。我看完愣了一下。 先說清楚他不是玩票的小菜農:經營約 100 公頃,種西蘭花、南瓜、青蔥、大豆,有曳引機要跑。但他本行就是種田——用日本媒體的說法,是個「程式知識為零的文科農家」。而那一串他做出來的東西,每一件我都大概知道「正規做法」要花多少錢、要請什麼樣的人。他一個人,靠一個聊天框,全做了。 他做了什麼挑幾個我覺得最有代表性的講。 他拍一張西蘭花的照片丟給 AI,問這是什麼病。這個你可能覺得還好,手機 App 早就能做。但接下來的就不太一樣了。 他用衛星資料抓自己田的 NDVI。NDVI(Normalized Difference Vegetation Index,歸一化植被指數)是用衛星的近紅外和紅光波段算出來的一個值,反映植物長得有多茂盛、多健康——數值越高通常代表越健康,不過確切門檻會隨作物、生長期、感測器而變。這是精準農業在用的東西,正規的農業遙測服務多半要付費訂閱,他則是自己串免費的衛星資料,把影像疊到自家田的地圖上看。...
我給 AI 一個逃生欄「找不到就填 NONE」,它還是編了一個假檔名
上次我寫過一篇,講 Claude Code 跑動態工作流時,主代理把子代理的查證結果誤判成幻覺,自己反而幻覺了一整篇文章,還騙過兩輪 AI 審稿。那篇的幻覺長在「綜合」那一步——主代理沒翻紀錄,腦補了下游。 這篇是同一個系統的另一種死法,但這次的幻覺不是腦補出來的。是我親手用 schema 逼出來的。 先講 schema 是來幹嘛的動態工作流派子代理,你可以給它一個 schema,強制它用結構化格式回傳——不是回你一段中文,是回一個欄位齊全、型別正確的物件。下游就能直接 results.filter(r => r.score >= 7) 接住,不用自己從散文裡挖數字。 這東西很好用。我大部分 workflow 都靠它把「子代理的判斷」框成可以程式化處理的資料。問題是,我一直把它當成一道保險——以為「規定了格式,回來的東西就是可靠的」。 這兩個禮拜,同一套 schema 機制在我面前暴露了兩種完全不同的失敗。一種明、一種暗,成因也不一樣:明的那次是子代理根本沒把結論交回來,我當場就發現了;暗的那次是它交回來了、而且填得滿滿的,內容卻是編的,差點讓我去動一個不存在的檔。 ...
我叫 Claude Code 寫篇技術文檔,它自己幻覺了,還騙過兩輪 AI 審稿
最近Claude Code出了一個 動態工作流(dynamic workflows)的功能。這功能很新——讓主代理在執行時當場生成一群子代理,各自帶獨立 context 去幹活。 它做事很主動。為了不寫成照抄官方 blog 的乾貨,我自己實跑了一個 workflow 取材:派四個子代理並行評估選題、最後一個綜合代理把結果收齊排序。 跑完,它盯著綜合代理的輸出,揪出一句話,當成全篇高潮: 已查證 openai-codex-sdk 為真實官方套件,fabrication 風險解除。 Claude Code 的判斷是:抓到了。那個綜合代理根本沒有上網工具,哪來的「查證」?這就是幻覺——把一個自己驗證不了的結論,包裝成「已查證」。 於是它以這句為核心,寫了整篇技術使用的文章。論點很漂亮:fan-out 把活散出去很強,但綜合那一步不給查證工具、不做對抗式驗證,幻覺就從接縫長出來。還引了官方點名的 self-preferential bias——代理傾向給一個乾淨自信的結論,把下游的不確定性吃掉。它的 demo 自己示範了要解決的問題,多諷刺。這是它原稿最得意的一筆。 然後它把文章送了...
我同時派三個 AI agent 改程式碼,它們互相蓋掉了對方的修改
那天我想偷懶。一個中型重構,要動 api 層、service 層,順便把一個命名很爛的函式全專案改名。我手上有能並行派子智能體(sub-agent)的工具,腦袋一熱就想:三件事互不相干,派三個 agent 同時做,理論上三分之一時間搞定。 結果跑完一看,service 層的修改不見了。不是壞掉,是憑空消失,像我從來沒改過。 這篇就是那次的紀錄。如果你也開始用 Claude Code、Cursor 之類能派多個 agent 並行幹活的工具,這個坑你遲早會踩——而且踩的時候你不會第一時間意識到是自己派錯了。 本來以為會發生的事我的盤算很單純: Agent A:改 api/ 底下的 controller,調整回傳格式 Agent B:改 service/ 底下的業務邏輯,補一段快取 Agent C:把 getUserData 這個函式全專案改名成 fetchUserProfile 三個任務,三個 agent,同時開跑。我甚至在每個 agent 的指令最後都加了一句「請小心,不要動到不屬於你任務範圍的檔案」。自我感覺良好。 第一個坑:它們看不到彼此跑完之後,我打開 service/ ...
用 Claude Code 半年,我從寫程式的變成幫 AI 收尾的
去年十二月,我那份週報的最後一行寫著「團隊士氣:優秀,技術架構清晰,開發效率高」。 五月的週報,標題是「退回潮收斂期」。 中間發生了什麼,這篇就是要講的事。我把一個有數百個頁面的舊系統從 AngularJS 搬到 Vue 3,主力是 AI——半年下來程式碼幾乎都是它寫的,但我整個人變成了幫它擦屁股的。 蜜月期:一週幹完三週的活一開始真的很爽。 專案的前置準備階段,原本排了三週。我把環境建置、登入流程、Layout 元件、狀態管理這些丟給 Claude Code,它一週就全做完了,還順手把舊系統漏掉的九個功能補上。階段提前兩週收工。 那時候我心裡的念頭很單純:照這個速度,這專案根本不用排到四個月。 我那時候真的信了。 接下來幾個月,產出數字一路往上飆。隨便抓幾週的紀錄:某一週 82 個 commit、改了兩百多個檔案、淨增三萬六千行;五月某個禮拜一,光是一天就推了 33 個 commit。如果你只看這些數字,會以為這是一支開了外掛、穩到不行的團隊。 然後,退回潮來了問題是,commit 數不等於完成數。 業主驗收一輪一輪退回來。我的週報開始反覆出現「退回」「二次修復」「再修復」這些...
xAI 一年虧 64 億、OpenAI 燒不出獲利、NVIDIA 一季淨賺 583 億——AI 鏈條真正賺錢的位置
2026 年 5 月 20 日這一天,三條財經新聞在同一時間冒出來。 第一條:NVIDIA 公布 FY27 Q1 財報——單季營收 816 億美元(+85% YoY)、淨利 583 億美元(+211%)、毛利率 74.9%、宣布 800 億美元股票回購、預測下季 910 億美元營收。 第二條:SpaceX 提交 IPO 招股書,順帶揭露剛被併入的 xAI 2025 年財務——全年虧損 64 億美元,營收 32 億,CapEx 127 億。SpaceX + xAI 合併後 2025 全年淨虧 49.4 億。 第三條:CNBC 報導 OpenAI 最快本週五提交 IPO 招股書草案,目標 2026 年 9 月上市,私募估值 5000 億美元,但訓練 + 推理 CapEx 長期遠高於營收,是公開的賠錢業務。 三條新聞放在同一張表上,AI 鏈條真正賺錢的位置就一覽無遺了。所有做模型的公司都在燒錢,賣 GPU 的那家一季淨賺一個 OpenAI 估值 12% 的數字。 這個對比值得單獨拆一篇。 三家公司同一年的數字攤開先把三組數字釘在桌上: 公司 期間 營收 利潤/虧損 補充 N...
業務嫌你慢、AI 寫得比你快——資深工程師最大的盲點不在技術
寶玉前幾天轉了 Tuhin Nair 的一篇文章,標題是《為什麼資深開發者講不清自己的專業能力》。我點開看完,戳到了。 我以為作者要罵的是工程師不會表達、PPT 做得爛,結果他切的點完全不一樣——資深開發者根本不是不會講,是站在跟業務完全相反的迴圈裡,用一套對方聽不懂的邏輯在說話。 我做了七、八年系統,被業務嫌「擋路」「太保守」「想太多」的次數,自己都記不清。每一次我都覺得對方不懂技術,現在回頭看,是我自己沒搞清楚對方在解什麼問題。 兩個迴圈,從來沒在同一條跑道上Tuhin 的觀察很尖銳:業務團隊在跑的,是一個「消除不確定性」的迴圈——這個功能能不能賣?這個市場有沒有人要?這條廣告投放有沒有用?他們的工作就是不斷拋出假設、最小成本驗證、看結果再調整。對他們來說,速度是命。一週搞不定的事,三個月後可能整個議題都失效。 資深開發者跑的迴圈完全不一樣,是「管理複雜性」。 你維護的系統不是一個 Demo,是已經有客戶在付錢、半夜兩點不能掛掉、上面綁了三年累積的業務邏輯的東西。每加一行程式碼,你都在心裡算這條會不會踩到舊邏輯、會不會在年底結算那天爆掉、會不會三個月後被某個剛入職的新人改錯方...
61 個 Markdown 檔讓你的 IDE 變成 AI 公司:agency-agents 爆紅背後的技術邏輯
一個 GitHub 專案,沒有任何可執行程式碼,只有 61 個 Markdown 檔案,7 天內拿到 10,000 顆星。截至 3/14 已經衝到 39,300 星。 這不是什麼新框架或新語言。agency-agents 做的事情只有一件:用 Markdown 定義 AI 的專業人格。 聽起來荒謬,但它戳中了一個真實的問題。 你的 AI 助手什麼都會,所以什麼都做不好用過 Claude Code 或 Cursor 的人都有這個經驗:你請 AI 寫一個 REST API,它給你一個「還行」的版本。能跑,但缺少認證考量、沒有速率限制、錯誤處理敷衍、命名風格前後不一。 問題不在模型能力。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro——這些模型的知識量早就超過任何單一工程師。問題在於 context window 裡塞了太多可能性,模型不知道你要哪一種。 你問「幫我設計 API」,模型在 REST、GraphQL、gRPC 之間游移。你問「幫我寫測試」,模型不確定你要 unit test 還是 integration test,最後給你一個不痛不癢的折衷。...
告別需求地獄:這個MCP工具讓你的開發流程終於有章法了
前言:你是否也深陷「需求變更地獄」?身為工程師,你是否遇過這種狀況:PM 拍拍肩膀說「這功能很簡單,兩天就能做完吧?」結果兩週後你還在改 bug,因為需求根本沒講清楚? 或是專案開發到一半,突然有人問「這個功能為什麼要這樣設計?」然後你發現...根本沒有人記得當初的設計理念? 如果以上情境讓你會心一笑(或想哭),那麼 spec-workflow-mcp 這個工具絕對值得你關注。 什麼是 Spec Workflow MCP?Spec Workflow MCP 是一個專門為軟體開發設計的規格驅動工作流管理工具。簡單來說,它就是要解決一個核心問題:讓開發團隊在寫程式之前,先把要做什麼搞清楚。 這個工具遵循一個很簡單但有效的三階段流程: Requirements(需求) - 確定要做什麼 Design(設計) - 決定怎麼做 Tasks(任務) - 拆解執行步驟 聽起來很理所當然對吧?但現實是,大部分專案都是直接跳到第三步開始寫程式,然後在需求不明確的泥沼中掙扎。 核心功能一覽🖥️ 雙介面支援,開發者友善Web Dashboard 即時專案總覽,一眼掌握進度 文件檢視器,所有...











