沒有「取代所有人」的臨界點——讀 Dan Shipper 的〈After Automation〉
我們這行最近最焦慮的一個問題是:下一個模型發布,會不會就是把我們全部換掉的那一個? Every 的執行長 Dan Shipper 在〈After Automation〉裡給的答案是:沒有那一天。不是因為 AI 不夠強,而是因為這個問題本身問錯了。這篇文章值得每個天天用 Claude Code、Codex 寫程式的人讀一遍——它把「AI 越強、人類越沒事做」這個直覺,整個翻了過來。 我把它的論點整理成下面幾條,順便講講我自己半年下來、哪裡認同、哪裡存疑。 一個反直覺的前提:越自動化,人類工作越多Shipper 開頭就攤牌:Every 這家三十人左右的公司,把能自動化的全自動化了——寫程式、寫稿、設計、客服,全靠 Codex 和 Claude Code。他們搶先測試 OpenAI、Anthropic、Google 還沒發布的模型。照理說人應該越用越少。 結果相反。他們沒有裁掉所有員工換成 agent,還是請真人寫稿、編輯、工程師、客服。工作的「形態」完全變了——沒人手寫程式碼了,Slack 上 tag 一個人你還不確定對方是真人還是 agent——但事情比以前更多。 Shipper...
用 Claude Code 半年,我從寫程式的變成幫 AI 收尾的
去年十二月,我那份週報的最後一行寫著「團隊士氣:優秀,技術架構清晰,開發效率高」。 五月的週報,標題是「退回潮收斂期」。 中間發生了什麼,這篇就是要講的事。我把一個有數百個頁面的舊系統從 AngularJS 搬到 Vue 3,主力是 AI——半年下來程式碼幾乎都是它寫的,但我整個人變成了幫它擦屁股的。 蜜月期:一週幹完三週的活一開始真的很爽。 專案的前置準備階段,原本排了三週。我把環境建置、登入流程、Layout 元件、狀態管理這些丟給 Claude Code,它一週就全做完了,還順手把舊系統漏掉的九個功能補上。階段提前兩週收工。 那時候我心裡的念頭很單純:照這個速度,這專案根本不用排到四個月。 我那時候真的信了。 接下來幾個月,產出數字一路往上飆。隨便抓幾週的紀錄:某一週 82 個 commit、改了兩百多個檔案、淨增三萬六千行;五月某個禮拜一,光是一天就推了 33 個 commit。如果你只看這些數字,會以為這是一支開了外掛、穩到不行的團隊。 然後,退回潮來了問題是,commit...
400 tps 是分水嶺:智譜 GLM-5.1 高速版能解決哪些工程瓶頸
智譜 5/22 對部分企業客戶推出 GLM-5.1 高速版,API 輸出速度達 400 tokens/s。新聞標題是「全球最快」,但這個說法不嚴謹——Cerebras 跑 Llama 405B 早就破 900 tps。真正值得單獨講的不是「誰快」,而是 400 tps 在工程上意味著什麼。 這篇不是寫智譜的 PR 稿。我關心的問題是:旗艦級大模型過了某個速度門檻之後,工程師能做的事會出現質變——這個門檻大概在哪裡?哪些場景真的能因此解鎖?哪些只是看起來很厲害的行銷數字? 速度光譜定位先把 400 tps 放到正確的座標上。市面上幾個常見的推理速度: 模型 / 平台 輸出速度 性質 GPT-5 / Claude Sonnet 4.6(標準 API) 60-120 tps 旗艦級的「典型」速度 Groq LPU 跑 Llama 70B ~280 tps 中型模型 + 客製晶片 智譜 GLM-5.1 highspeed 400 tps 旗艦級 + 純軟體優化 Cerebras WSE-3 跑 Llama 405B ~970 tps 旗艦級 +...
90% 到 99% 之間的工程戰爭:Cursor 雲端 Agent 一年實戰拆解
Cursor 在 5/21 釋出一篇「What we've learned building cloud agents」,作者是 Josh Ma。看起來像普通的工程經驗總結,但藏了一個讓我看完盯著螢幕想很久的數字:他們把 Cursor 內部 monorepo 的 40% PR 交給雲端 Agent 寫,而且這個比例還在漲。 這套系統最後支撐到 40% 之前,他們花了一年——不是「把本地 Agent 搬到伺服器」那種一年,而是把可靠性從 90%(一個九)拉到 99%(兩個九),中間放棄了自研架構、改用 Temporal、重新拆解了 agent、機器、對話三個狀態。 我自己沒做過 cloud agent 產品,但這篇花了一個下午消化,因為文章拆出來的五個學習,每一個都是「想做 AI Agent SaaS 的人遲早會撞上的牆」。寫一篇給台灣中階開發者看的拆解版。(附帶一個小插曲:中文 AI 資訊聚合站把原文的 "two nines" 翻成「99.9%」,實際是 99%。讀任何技術摘要,最後一步都要回原文校對。) 第一個坑:以為雲端 Agent 就是把本地...
xAI 一年虧 64 億、OpenAI 燒不出獲利、NVIDIA 一季淨賺 583 億——AI 鏈條真正賺錢的位置
2026 年 5 月 20 日這一天,三條財經新聞在同一時間冒出來。 第一條:NVIDIA 公布 FY27 Q1 財報——單季營收 816 億美元(+85% YoY)、淨利 583 億美元(+211%)、毛利率 74.9%、宣布 800 億美元股票回購、預測下季 910 億美元營收。 第二條:SpaceX 提交 IPO 招股書,順帶揭露剛被併入的 xAI 2025 年財務——全年虧損 64 億美元,營收 32 億,CapEx 127 億。SpaceX + xAI 合併後 2025 全年淨虧 49.4 億。 第三條:CNBC 報導 OpenAI 最快本週五提交 IPO 招股書草案,目標 2026 年 9 月上市,私募估值 5000 億美元,但訓練 + 推理 CapEx 長期遠高於營收,是公開的賠錢業務。 三條新聞放在同一張表上,AI 鏈條真正賺錢的位置就一覽無遺了。所有做模型的公司都在燒錢,賣 GPU 的那家一季淨賺一個 OpenAI 估值 12% 的數字。...
Gemini 漲 2 倍仍是美系最便宜、GPT 跟著漲、Claude 反而降——2026 年 AI API 三家定價分歧的真實意義
把過去半年三家 LLM 旗艦的價格軌跡攤開看,方向完全不同。 OpenAI 從 GPT-5(2025/08 發布)的 $1.25/$10,經 GPT-5.4 的 $2.5/$15,到 2026/04/23 GPT-5.5 直接拉到 $5/$30——輸入價漲 4 倍、輸出價漲 3 倍。Google 從 Gemini 2.5 Pro(2025/06)的 $1/$10 漲到 Gemini 3 Pro(2025/11/18)的 $2/$12,再到 2026/05/19 推出 Gemini 3.5 Flash $1.5/$9(比自家 3.1 Pro 還便宜)。Anthropic 從 Claude 3 Opus 的 $15/$75 直接砍到 Opus 4.5(2025/11)的 $5/$25,之後 4.6、4.7(2026/04/16)三代都維持同價。 VC Tomer Tunguz 上週把這幾條曲線畫在同一張圖,下了一個短評:「補貼在現金充裕、市占重要的時候發生;漲價在現金緊、利潤重要的時候發生。」 三家走的方向不同,意思就是他們現在缺的東西不一樣。 對每個月開 API...
微軟內部 Claude Code 被停用——同週 GitHub 備忘錄寫下「生存級風險」
2026 年 5 月 19 日那一週,微軟做了兩件看起來無關、其實是同一件事的事。 第一件:The Information 報導微軟 Experiences + Devices 事業群取消大部分內部 Claude Code 授權,要求工程師在 2026 年 6 月 30 日前全面遷移到 GitHub Copilot CLI。第二件:同一週外流的內部備忘錄警告 GitHub 面臨「生存級風險」,因為 Cursor、Anthropic 的 Claude Code、OpenAI 等自主編程工具「削弱了把程式碼持續上傳到 GitHub 倉庫的必要性」。 兩件事被各家媒體分開報導,但拼起來才看得到全貌。我認為這不是兩個故事,是同一個故事的因和果。 六個月內從試用到強制下線先把時間線釘好: 2025 年 12 月:微軟開始邀請「數千名」內部開發者試用 Claude Code 2026 年 1 月:試用擴展至 Experiences + Devices 事業群全體,涵蓋 Windows、Microsoft 365、Outlook、Teams、Surface 工程團隊 2026 年 1...
Mythos 5 天攻破 Apple M5 內核:AI 不是主角,但漏洞研究的時間軸已經被改寫
5 月 14 日 Calif 安全團隊在自家部落格丟出一個炸彈:他們用 Anthropic 的 Mythos Preview,在 5 天內針對 Apple M5 macOS 內核做出了一條完整的 LPE(本地提權)exploit,繞過了 Apple 花 5 年、燒了不知道幾個億打造的 MIE 硬體記憶體安全機制。 接著媒體標題集體起飛:「AI 5 天破解 Apple 5 年防線」「AI 顛覆網路安全」。但你把 Calif 自己那篇技術揭露讀完會發現——這故事真正的重點不在那個 5 vs 5 的爽快對比,而在一個更安靜也更恐怖的事實。 5 天裡實際發生了什麼照 Calif 官方公開的時間軸: 4/25:Bruce Dang 發現了 bugs 4/27:Dion Blazakis 加入 Calif 5/01:可用 exploit 完成 5/14:親自飛 Apple 總部當面交給對方,然後公開揭露 從 bug 被發現到可用 exploit,4/25 到 5/1,加起來 5 天。注意是「找到 bug 之後 5 天內做出 exploit」,不是「Mythos 從零開始 5 天破解...
LLM 不是不知道該用工具——它在最後一層轉了 90 度,叫不出來
用 Claude Code 久了會發現一種奇怪的 bug:你明確說「先 grep 一下這個 symbol」,它「嗯」一聲,然後直接憑記憶生出一個答案,工具呢?沒叫。又有時候你叫它「直接回答就好不用查」,它反而非要 Bash 一下。 我以前的解釋很俗——prompt 不夠用力、tool description 不夠精準、模型太懶。最近 Maryland 大學的論文〈Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use〉(arXiv:2605.14038)讓我換了一個視角。模型不是不知道該叫工具——它知道,但在輸出層轉了 90 度。 兩階段分解:認知 vs 執行論文做了一件方法論層面很值得記住的事——把「LLM 使用工具」這個動作切成兩階段: Cognition(認知):模型內部是不是相信「這題需要工具」。透過線性 probe 探測 hidden state 的方向,可以直接讀出模型的內部判斷。 Execution(執行):模型實際輸出的 token 是不是 trigger 了...
AI Agent 越記越笨:一篇 Illinois 論文打臉所有「個人 AI 記憶」熱潮
幾個月前我停用了 claude-mem,理由很單純:MCP 每次互動都打一次 round-trip,對話被它拖到肉眼可見的慢。當時的決定純屬效能直覺,跟「記憶品質」沒關係——我預設「記得多總是好事」。 上週 X 上開始刷一篇 UIUC 的 Dylan Zhang 等人的論文〈Useful Memories Become Faulty When Continuously Updated by LLMs〉(arXiv:2605.12978)。論文做了一個我看到結果愣了五秒的實驗:把 GPT-5.4 原本 100% 解得出來的 ARC-AGI 問題,丟進「持續記憶」的迴圈讓它一邊解一邊累積經驗——最後 54% 的題目反而解不出來了(注意:54% 是失敗率,不是剩餘準確率,原本 100% 變成只剩 46% 能解)。 那一刻我反應過來,當初停用 claude-mem 那個直覺,可能比我想的還更對。 論文在做什麼論文針對的是一個被很多主動寫入式記憶工具共用的設計誘惑——consolidation loop,三句話: 12345distill experience ...
