微軟內部 Claude Code 被停用——同週 GitHub 備忘錄寫下「生存級風險」
2026 年 5 月 19 日那一週,微軟做了兩件看起來無關、其實是同一件事的事。 第一件:The Information 報導微軟 Experiences + Devices 事業群取消大部分內部 Claude Code 授權,要求工程師在 2026 年 6 月 30 日前全面遷移到 GitHub Copilot CLI。第二件:同一週外流的內部備忘錄警告 GitHub 面臨「生存級風險」,因為 Cursor、Anthropic 的 Claude Code、OpenAI 等自主編程工具「削弱了把程式碼持續上傳到 GitHub 倉庫的必要性」。 兩件事被各家媒體分開報導,但拼起來才看得到全貌。我認為這不是兩個故事,是同一個故事的因和果。 六個月內從試用到強制下線先把時間線釘好: 2025 年 12 月:微軟開始邀請「數千名」內部開發者試用 Claude Code 2026 年 1 月:試用擴展至 Experiences + Devices 事業群全體,涵蓋 Windows、Microsoft 365、Outlook、Teams、Surface 工程團隊 2026 年 1 月起:...
LLM 不是不知道該用工具——它在最後一層轉了 90 度,叫不出來
用 Claude Code 久了會發現一種奇怪的 bug:你明確說「先 grep 一下這個 symbol」,它「嗯」一聲,然後直接憑記憶生出一個答案,工具呢?沒叫。又有時候你叫它「直接回答就好不用查」,它反而非要 Bash 一下。 我以前的解釋很俗——prompt 不夠用力、tool description 不夠精準、模型太懶。最近 Maryland 大學的論文〈Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use〉(arXiv:2605.14038)讓我換了一個視角。模型不是不知道該叫工具——它知道,但在輸出層轉了 90 度。 兩階段分解:認知 vs 執行論文做了一件方法論層面很值得記住的事——把「LLM 使用工具」這個動作切成兩階段: Cognition(認知):模型內部是不是相信「這題需要工具」。透過線性 probe 探測 hidden state 的方向,可以直接讀出模型的內部判斷。 Execution(執行):模型實際輸出的 token 是不是 trigger 了 too...
AI Agent 越記越笨:一篇 Illinois 論文打臉所有「個人 AI 記憶」熱潮
幾個月前我停用了 claude-mem,理由很單純:MCP 每次互動都打一次 round-trip,對話被它拖到肉眼可見的慢。當時的決定純屬效能直覺,跟「記憶品質」沒關係——我預設「記得多總是好事」。 上週 X 上開始刷一篇 UIUC 的 Dylan Zhang 等人的論文〈Useful Memories Become Faulty When Continuously Updated by LLMs〉(arXiv:2605.12978)。論文做了一個我看到結果愣了五秒的實驗:把 GPT-5.4 原本 100% 解得出來的 ARC-AGI 問題,丟進「持續記憶」的迴圈讓它一邊解一邊累積經驗——最後 54% 的題目反而解不出來了(注意:54% 是失敗率,不是剩餘準確率,原本 100% 變成只剩 46% 能解)。 那一刻我反應過來,當初停用 claude-mem 那個直覺,可能比我想的還更對。 論文在做什麼論文針對的是一個被很多主動寫入式記憶工具共用的設計誘惑——consolidation loop,三句話: 12345distill experience 把這次互動的經歷蒸餾出...
業務嫌你慢、AI 寫得比你快——資深工程師最大的盲點不在技術
寶玉前幾天轉了 Tuhin Nair 的一篇文章,標題是《為什麼資深開發者講不清自己的專業能力》。我點開看完,戳到了。 我以為作者要罵的是工程師不會表達、PPT 做得爛,結果他切的點完全不一樣——資深開發者根本不是不會講,是站在跟業務完全相反的迴圈裡,用一套對方聽不懂的邏輯在說話。 我做了七、八年系統,被業務嫌「擋路」「太保守」「想太多」的次數,自己都記不清。每一次我都覺得對方不懂技術,現在回頭看,是我自己沒搞清楚對方在解什麼問題。 兩個迴圈,從來沒在同一條跑道上Tuhin 的觀察很尖銳:業務團隊在跑的,是一個「消除不確定性」的迴圈——這個功能能不能賣?這個市場有沒有人要?這條廣告投放有沒有用?他們的工作就是不斷拋出假設、最小成本驗證、看結果再調整。對他們來說,速度是命。一週搞不定的事,三個月後可能整個議題都失效。 資深開發者跑的迴圈完全不一樣,是「管理複雜性」。 你維護的系統不是一個 Demo,是已經有客戶在付錢、半夜兩點不能掛掉、上面綁了三年累積的業務邏輯的東西。每加一行程式碼,你都在心裡算這條會不會踩到舊邏輯、會不會在年底結算那天爆掉、會不會三個月後被某個剛入職的新人改錯方...
黃仁勳叫 CS 畢業生去當電工——一週內三位 AI 老闆都在預告同一件事
上週五,黃仁勳在卡內基梅隆大學的畢業典禮上對 2026 屆資工系畢業生說了句話:電工和水管工比你們有前景。 他不是在開玩笑。兩天後微軟 AI 部門的 CEO Mustafa Suleyman 接受 Fortune 採訪,預測 18 個月內 AI 會自動化掉所有「坐在電腦前」的白領工作。同一天 Anthropic CEO Dario Amodei 在華爾街日報的 YouTube 頻道說,軟體成本會崩到接近零,數十年累積的職業結構會跟著消失。 一週之內三位 AI 圈最有話語權的人放話,方向高度一致。我們得認真看看他們在說什麼——以及我們自己該怎麼辦。 一週內的三個訊號5/15,黃仁勳 @ CMU:給資工系畢業生的演講,主軸是「不要假設你選了一個鐵飯碗」。他引用的數據夠扎實: Randstad 分析顯示,技工的需求增長是白領職位的 3 倍 機器人技術員職位增長 107% 斯坦福研究指出,AI 相關崗位的早期職業就業率下降 16% 頂級電工年薪可以超過 10.6 萬美元,而且不用揹學貸 科技公司今年砸了 7000 億美元蓋資料中心,到 2030 年全球估計 7 兆美元 問題是製造業缺工...
Anthropic 自己出手冊警告:AI 不是降低創業失敗率,是放大它
五月十四日 Anthropic 在自家部落格放出一份叫 Founder's Playbook 的內部手冊,主題是「怎麼用 AI 從零做一家 startup」。 結論反直覺:AI 會放大你的創業失敗模式,而不是降低失敗率。寫這份手冊的是 Anthropic 自己——賣你 Claude Code 的那家公司——提醒你它賣的工具會放大失敗。 我下載 PDF 那天剛好在抓一個 bug那天我在改公司專案的下載功能。PM 一直堅持是「SQL 抓不到資料」,花了快兩小時才發現根本不是——伺服器上的 LibreOffice 被 MODA ODF Application Tools 的安裝程式覆寫掉了,舊路徑變成空殼資料夾。 問題本身只是一行硬編碼路徑。難搞的是錯誤被四層補丁吞掉的方式:執行檔不見就拋例外、ConvertFile 沒產出檔還是寫 log 繼續跑、controller 對著不存在路徑 return File()、最外層 catch 把一切包成 Content("查無資料")。前端拿到 1,229 bytes 的「ODS 檔」(其實是 HTML 錯誤頁),或...
跟 AI 說「這對我很重要」讓它表現提升 115%——論文怎麼解釋這件事
那個 115% 是怎麼來的我第一次看到這個數字的時候反應是「不可能吧」。 論文叫 Large Language Models Understand and Can be Enhanced by Emotional Stimuli,2023 年由 Microsoft、中科院、威廉與瑪麗學院等機構合作發表。研究方法很簡單:在 prompt 末尾加上一句情緒話語,例如「這對我的職涯非常重要」「我相信你可以做得很好」,然後看模型表現會不會變化。 結果是: 自動評測涵蓋 45 個任務(Instruction Induction + BIG-Bench),多個模型上都看到改善 另有 106 位受試者評估 30 個生成問題,EmotionPrompt 在 performance、truthfulness、responsibility 三項平均相對提升 10.9% 在 BIG-Bench 某些子任務上,相對改善飆到 115%(注意這是 relative improvement,在原始低基準任務上會被放大) 在 Flan-T5、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4...
你的 AI 產品準備好被審計了嗎?美國兩部法案正在搶著定義規則
3 月 18 日,美國參議員 Marsha Blackburn 丟出了一份近 300 頁的法案討論稿:TRUMP AMERICA AI Act。幾乎同時,參議員 Edward Markey 推出了 AI Civil Rights Act。 兩部法案都要求對高風險 AI 系統做獨立的第三方偏見審計。但它們對「什麼是偏見」的定義完全不同,對「誰該負責」的看法也截然相反。 如果你的 AI 產品面向美國市場,這不是「未來的問題」。這是現在進行式。 兩部法案在吵什麼TRUMP AMERICA AI Act核心主張:聯邦法統一全國規則,取代各州自己搞的法規拼裝車。 關鍵條款: 風險分級制度:高風險 AI(醫療、信貸、招聘、關鍵基礎設施)需要強制審計和人工監督;低風險 AI 只需要資訊揭露 年度偏見審計:高風險系統必須由獨立第三方做年度審計,特別檢測觀點歧視和政治傾向歧視 廢除 Section 230:AI 公司不再能用「我只是平台」來免責 聯邦搶佔州法:通過後,各州的 AI 法規全部失效,只認聯邦標準 最後一條是最具爭議的。它意味著科羅拉多州、伊利諾州、紐約市這些已經實施的 AI 法規都...
Meta 的 HyperAgents:AI Agent 開始改進自己的改進方式了
Meta 發了一篇論文叫 HyperAgents,副標題是「Self-referential self-improving agents that can optimize for any computable task」。GitHub 上已經開源,1.6k stars。 讓我把它翻譯成人話:一個 AI agent 不只能改進自己解題的方式,還能改進「自己改進自己」的方式。 聽起來像繞口令。但它指向的方向,值得每個做 AI 應用的開發者留意。 問題:現有的自我改進都卡在一個地方AI agent 的「自我改進」不是新概念。最直觀的版本:agent 跑完一個任務,回頭看看哪裡做得不好,調整策略,下次做得更好。OpenAI 的 o1 用的 self-play、DeepSeek 的 self-improvement、還有去年的 Darwin Gödel Machine(DGM),都是這個思路的變體。 DGM 特別有意思——它能自己修改自己的程式碼,然後測試修改後的版本是否更好。在 coding 領域效果很棒,因為「改善 coding 能力」和「改善自我修改能力」是同一件事——你寫程式碼越...
Sora 之死不是敗給誰——是 OpenAI 在 IPO 前算了一筆帳
3 月 24 日,OpenAI 宣布全面關閉 Sora——app 砍了、API 砍了、ChatGPT 裡的影片生成也砍了。Disney 那筆 10 億美元的投資?胎死腹中,一毛錢都沒付出去。 群組裡在喊「Sora 已死」,不少人第一反應是「被 Seedance 打爆了吧?」 沒那麼簡單。Sora 的死因不是單一競爭對手,而是一連串產品、商業和戰略層面的連環失誤,最後由 OpenAI 自己拔掉了插頭。 960 萬次下載,140 萬美元營收先看數字。 去年九月 Sora 2 以獨立社群 app 的形式上線,五天內衝破百萬下載,比 ChatGPT 當初還快。十一月達到高峰——單月 330 萬次下載。所有人都覺得這是下一個殺手級應用。 然後就開始崩了。 時間 月下載量 變化 2025 年 11 月 330 萬 高峰 2025 年 12 月 224 萬 -32% 2026 年 1 月 120 萬 -45% 2026 年 2 月 110 萬 -8% 整個產品生命週期,消費者總共花了 140 萬美元。高峰月營收 54 萬美元,到三月只剩 36.7 萬。 一個需要天文...









