沒有「取代所有人」的臨界點——讀 Dan Shipper 的〈After Automation〉

我們這行最近最焦慮的一個問題是：下一個模型發布，會不會就是把我們全部換掉的那一個？

Every 的執行長 Dan Shipper 在〈After Automation〉裡給的答案是：沒有那一天。不是因為 AI 不夠強，而是因為這個問題本身問錯了。這篇文章值得每個天天用 Claude Code、Codex 寫程式的人讀一遍——它把「AI 越強、人類越沒事做」這個直覺，整個翻了過來。

我把它的論點整理成下面幾條，順便講講我自己半年下來、哪裡認同、哪裡存疑。

一個反直覺的前提：越自動化，人類工作越多

Shipper 開頭就攤牌：Every 這家三十人左右的公司，把能自動化的全自動化了——寫程式、寫稿、設計、客服，全靠 Codex 和 Claude Code。他們搶先測試 OpenAI、Anthropic、Google 還沒發布的模型。照理說人應該越用越少。

結果相反。他們沒有裁掉所有員工換成 agent，還是請真人寫稿、編輯、工程師、客服。工作的「形態」完全變了——沒人手寫程式碼了，Slack 上 tag 一個人你還不確定對方是真人還是 agent——但事情比以前更多。

Shipper 的判斷是：這不是過渡期，不是「等模型再強一點就會反轉」。這是新常態。越多東西被自動化，需要專家判斷的場合就越多。

他給的機制很簡潔：那些說得清楚、寫得出來的人類能力，被 AI 壓到了地板價。一旦人人都調得出這種能力，它的預設產出就不值錢了，於是市場開始渴求「不一樣」的東西。而「不一樣」只能從活在當下的人類專家身上長出來。

Shipper 給這種千篇一律的 AI 產出取了個名字：slop。它不是某個具體的錯誤，而是「大量、可見的雷同」——當所有人都用同一個模型、同一套預設、不多想，產出就會像同一個模子印出來的。而我們越來越受不了 slop。

兩種跟 agent 一起工作的模式

他把現在跟 AI 協作的方式分成兩類，這個分法我覺得很準：

第一種是「員工型 agent」——你把活丟給它、它自己跑完交回來。有些住在 Slack 裡、有名字有職務（他們公司的 Claudie 寫提案、Andy 整理編輯素材、Viktor 跑成長數據），有些嵌在固定流程裡（像客服 agent，某一週參與了六成的對話、四成直接結案不用人插手）。

第二種更有意思，他認為也更重要——人和 agent 在 Codex、Claude Code 這種工具裡並肩工作。這已經不只是「把活交出去」，而是變成「工作本身的作業系統」：你和好幾個 agent 同時用同一台電腦，做那些沒辦法丟給非同步 agent 處理的複雜原創工作。

關鍵是，這兩種模式都需要一個人在場才跑得動。

human sandwich：你是 AI 兩端的麵包

這是全文我最喜歡的概念。Shipper 引用同事的說法：人是 AI 工作的「三明治麵包」——人在前面設定框架（要做什麼、邊界在哪），AI 在中間把任務壓扁、高速產出，然後人在後面判斷結果好不好、再把它接回現實。

中間那層夾心填得飛快，但夾心不會自己決定要夾什麼。

這半年我自己就是這樣過來的——把模糊需求翻譯成 AI 聽得懂的指令，再逐項驗收它到底有沒有真的做到。我把這段經驗單獨寫成了另一篇踩坑紀錄（見文末連結），這裡只說結論：產能爆增的同時，前後兩端的人類工作不但沒少，還更重了。

語料即屍體

接下來是這篇文章最鋒利的一句話。Shipper 說，現在的語言模型，是拿「人類能力留下的可見殘渣」訓練出來的——程式碼、文章、客服紀錄、產品規格，全是那些「已經完成的任務」的排泄物。

他用了一個很狠的比喻，大意是：一個情境一旦被化約成文字、變成了訓練語料，它就成了一具屍體。

模型知道怎麼做「已經被做過幾百萬次」的事，但它不知道此刻這個客戶、這個程式碼庫、這場對話需要什麼——因為那還沒變成文字，還活著。人類是帶著一個持續更新的視角來到每個當下的，有正在進行的關切、正在變動的判斷；模型只有在被 prompt 之後，才短暫地活過來一次。

這一條我用親身經歷背書。AI 能寫出教科書等級「完全正確」的程式碼，卻會在一個年代久遠、幾乎沒有公開文件的底層元件上踩到反直覺的地雷——因為那條地雷只躺在原始碼深處，從沒變成過訓練語料，所以對 AI 來說根本不存在。細節我寫在另一篇了。

所有 benchmark 都活在「框架」裡

這一段最該講給天天看跑分焦慮的工程師聽。

Shipper 提出一個概念叫「chart psychosis」（圖表妄想）：如果你整天盯著各種能力曲線往上飆、拿來外推未來，你一定會嚇出很可怕的直覺。但他要你退一步看 benchmark 是怎麼做出來的——任何 benchmark，都得先把一個問題凍結成一個靜態的、可測量的框架。一旦這個框架被刷到飽和，只要換個框架，分數立刻又歸零。然後在新框架裡繼續爬，如此循環。

他舉自家的「資深工程師 benchmark」當例子：給 AI 一坨 vibe coding 寫爛的程式，要它從頭重構。同一個模型，你把 prompt 從「做一次 first-principles 重寫」換成「把跳出來的錯誤一個個解掉」，分數可以從六十幾掉到接近零。分數量到的不是「模型有多強」，而是「模型在你選的這個框架裡有多強」。

他還點出 OpenAI 的 GDPval 那種「AI 已經追上專家」的標題有多誤導——那些評測任務的 prompt 本身，就塞滿了人類的判斷（要查哪些指標、用什麼信賴區間、結果怎麼排版）。他把這叫做「走私進去的智慧」：模型開始動工之前，最難的人類判斷早就做完了。

這個視角我完全買單，而且實務上它救過我。我現在看任何「AI 在某 benchmark 又破紀錄」的新聞，第一個問題都是：這次的框架是誰定的、把哪些難的部分先偷偷做掉了？

agent 有自主，但沒有「能動性」

文章後段轉得有點哲學，但很值得跟上。

Shipper 區分了兩個常被混用的詞：autonomy（自主）是有能力獨立把一件事做完；agency（能動性）是「為自己想要某件事」。現在的 AI 是前者——它能花好幾個小時自己跑完一個任務，但它始終是在執行人給的目的。

他拿幼童當對照，這個比喻很漂亮：一個兩歲小孩在幾乎所有我們在乎的任務上都輸給語言模型——不會寫程式、不會整理試算表、過不了研究所考試。但在另一個意義上，小孩遠遠超前：他有自己的目的。他想去戳那顆紅氣球，想把它拿到電風扇前面看會怎樣，想看你會不會笑。他不在等 prompt，他把世界變成一場又一場實驗。

模型再強，這種「為了好玩而玩、為自己而想要」的東西也幾乎是零——因為它被訓練、被對齊成「對人有用」，而有用和能動性本質上是衝突的。Shipper 由此推論：就算到了 AGI，「設定框架的人（framer）」跟「框架（frame）」永遠是兩回事。模型能爬上任何一個我們畫出來的框架，但它爬上的是框架，不是畫框架的人。

我們的恐慌，常常來自把這兩者搞混——看到模型爬上了我們畫的那條線，就以為它變成了我們。

我的保留

導讀到這裡，該講點不同意的。

Shipper 的樂觀，整個建立在「framer 永遠是人」這個假設上。這在今天成立，我也同意。但他把「agent 沒有能動性」當成一個結構性、不會變的事實——這一步我沒那麼篤定。今天的模型沒有 agency，很大程度是因為實驗室刻意把它壓下去（壓不下去的東西沒人敢部署）。「做不到」和「被設計成不准做」是兩件事，他在文章裡把這兩者綁得有點太緊。

還有一個缺口，Shipper 沒講，但對台灣讀者特別要緊。他的視角是 Every 這種專家密度極高的早期實驗室——這種團隊「AI 製造更多專家工作」幾乎是必然。可是把鏡頭轉到台灣大量的行政、櫃台、標準化作業職位呢？那些工作本來就高度規格化，恰好就是最先被「已完成任務的殘渣」吃掉的一群。Shipper 誠實地承認他只敢替「專家級知識工作」背書，但他沒回答的下一個問題——那剩下的人怎麼辦——對我們這裡的現實感，遠比他樂觀的那一半更逼人。