我們這行最近最焦慮的一個問題是:下一個模型發布,會不會就是把我們全部換掉的那一個?
Every 的執行長 Dan Shipper 在〈After Automation〉裡給的答案是:沒有那一天。不是因為 AI 不夠強,而是因為這個問題本身問錯了。這篇文章值得每個天天用 Claude Code、Codex 寫程式的人讀一遍——它把「AI 越強、人類越沒事做」這個直覺,整個翻了過來。
我把它的論點整理成下面幾條,順便講講我自己半年下來、哪裡認同、哪裡存疑。
一個反直覺的前提:越自動化,人類工作越多
Shipper 開頭就攤牌:Every 這家三十人左右的公司,把能自動化的全自動化了——寫程式、寫稿、設計、客服,全靠 Codex 和 Claude Code。他們搶先測試 OpenAI、Anthropic、Google 還沒發布的模型。照理說人應該越用越少。
結果相反。他們沒有裁掉所有員工換成 agent,還是請真人寫稿、編輯、工程師、客服。工作的「形態」完全變了——沒人手寫程式碼了,Slack 上 tag 一個人你還不確定對方是真人還是 agent——但事情比以前更多。
Shipper 的判斷是:這不是過渡期,不是「等模型再強一點就會反轉」。這是新常態。越多東西被自動化,需要專家判斷的場合就越多。
他給的機制很簡潔:那些說得清楚、寫得出來的人類能力,被 AI 壓到了地板價。一旦人人都調得出這種能力,它的預設產出就不值錢了,於是市場開始渴求「不一樣」的東西。而「不一樣」只能從活在當下的人類專家身上長出來。
Shipper 給這種千篇一律的 AI 產出取了個名字:slop。它不是某個具體的錯誤,而是「大量、可見的雷同」——當所有人都用同一個模型、同一套預設、不多想,產出就會像同一個模子印出來的。而我們越來越受不了 slop。
兩種跟 agent 一起工作的模式
他把現在跟 AI 協作的方式分成兩類,這個分法我覺得很準:
第一種是「員工型 agent」——你把活丟給它、它自己跑完交回來。有些住在 Slack 裡、有名字有職務(他們公司的 Claudie 寫提案、Andy 整理編輯素材、Viktor 跑成長數據),有些嵌在固定流程裡(像客服 agent,某一週參與了六成的對話、四成直接結案不用人插手)。
第二種更有意思,他認為也更重要——人和 agent 在 Codex、Claude Code 這種工具裡並肩工作。這已經不只是「把活交出去」,而是變成「工作本身的作業系統」:你和好幾個 agent 同時用同一台電腦,做那些沒辦法丟給非同步 agent 處理的複雜原創工作。
關鍵是,這兩種模式都需要一個人在場才跑得動。
human sandwich:你是 AI 兩端的麵包
這是全文我最喜歡的概念。Shipper 引用同事的說法:人是 AI 工作的「三明治麵包」——人在前面設定框架(要做什麼、邊界在哪),AI 在中間把任務壓扁、高速產出,然後人在後面判斷結果好不好、再把它接回現實。
中間那層夾心填得飛快,但夾心不會自己決定要夾什麼。
這半年我自己就是這樣過來的——把模糊需求翻譯成 AI 聽得懂的指令,再逐項驗收它到底有沒有真的做到。我把這段經驗單獨寫成了另一篇踩坑紀錄(見文末連結),這裡只說結論:產能爆增的同時,前後兩端的人類工作不但沒少,還更重了。
語料即屍體
接下來是這篇文章最鋒利的一句話。Shipper 說,現在的語言模型,是拿「人類能力留下的可見殘渣」訓練出來的——程式碼、文章、客服紀錄、產品規格,全是那些「已經完成的任務」的排泄物。
他用了一個很狠的比喻,大意是:一個情境一旦被化約成文字、變成了訓練語料,它就成了一具屍體。
模型知道怎麼做「已經被做過幾百萬次」的事,但它不知道此刻這個客戶、這個程式碼庫、這場對話需要什麼——因為那還沒變成文字,還活著。人類是帶著一個持續更新的視角來到每個當下的,有正在進行的關切、正在變動的判斷;模型只有在被 prompt 之後,才短暫地活過來一次。
這一條我用親身經歷背書。AI 能寫出教科書等級「完全正確」的程式碼,卻會在一個年代久遠、幾乎沒有公開文件的底層元件上踩到反直覺的地雷——因為那條地雷只躺在原始碼深處,從沒變成過訓練語料,所以對 AI 來說根本不存在。細節我寫在另一篇了。
所有 benchmark 都活在「框架」裡
這一段最該講給天天看跑分焦慮的工程師聽。
Shipper 提出一個概念叫「chart psychosis」(圖表妄想):如果你整天盯著各種能力曲線往上飆、拿來外推未來,你一定會嚇出很可怕的直覺。但他要你退一步看 benchmark 是怎麼做出來的——任何 benchmark,都得先把一個問題凍結成一個靜態的、可測量的框架。一旦這個框架被刷到飽和,只要換個框架,分數立刻又歸零。然後在新框架裡繼續爬,如此循環。
他舉自家的「資深工程師 benchmark」當例子:給 AI 一坨 vibe coding 寫爛的程式,要它從頭重構。同一個模型,你把 prompt 從「做一次 first-principles 重寫」換成「把跳出來的錯誤一個個解掉」,分數可以從六十幾掉到接近零。分數量到的不是「模型有多強」,而是「模型在你選的這個框架裡有多強」。
他還點出 OpenAI 的 GDPval 那種「AI 已經追上專家」的標題有多誤導——那些評測任務的 prompt 本身,就塞滿了人類的判斷(要查哪些指標、用什麼信賴區間、結果怎麼排版)。他把這叫做「走私進去的智慧」:模型開始動工之前,最難的人類判斷早就做完了。
這個視角我完全買單,而且實務上它救過我。我現在看任何「AI 在某 benchmark 又破紀錄」的新聞,第一個問題都是:這次的框架是誰定的、把哪些難的部分先偷偷做掉了?
agent 有自主,但沒有「能動性」
文章後段轉得有點哲學,但很值得跟上。
Shipper 區分了兩個常被混用的詞:autonomy(自主)是有能力獨立把一件事做完;agency(能動性)是「為自己想要某件事」。現在的 AI 是前者——它能花好幾個小時自己跑完一個任務,但它始終是在執行人給的目的。
他拿幼童當對照,這個比喻很漂亮:一個兩歲小孩在幾乎所有我們在乎的任務上都輸給語言模型——不會寫程式、不會整理試算表、過不了研究所考試。但在另一個意義上,小孩遠遠超前:他有自己的目的。他想去戳那顆紅氣球,想把它拿到電風扇前面看會怎樣,想看你會不會笑。他不在等 prompt,他把世界變成一場又一場實驗。
模型再強,這種「為了好玩而玩、為自己而想要」的東西也幾乎是零——因為它被訓練、被對齊成「對人有用」,而有用和能動性本質上是衝突的。Shipper 由此推論:就算到了 AGI,「設定框架的人(framer)」跟「框架(frame)」永遠是兩回事。模型能爬上任何一個我們畫出來的框架,但它爬上的是框架,不是畫框架的人。
我們的恐慌,常常來自把這兩者搞混——看到模型爬上了我們畫的那條線,就以為它變成了我們。
我的保留
導讀到這裡,該講點不同意的。
Shipper 的樂觀,整個建立在「framer 永遠是人」這個假設上。這在今天成立,我也同意。但他把「agent 沒有能動性」當成一個結構性、不會變的事實——這一步我沒那麼篤定。今天的模型沒有 agency,很大程度是因為實驗室刻意把它壓下去(壓不下去的東西沒人敢部署)。「做不到」和「被設計成不准做」是兩件事,他在文章裡把這兩者綁得有點太緊。
還有一個缺口,Shipper 沒講,但對台灣讀者特別要緊。他的視角是 Every 這種專家密度極高的早期實驗室——這種團隊「AI 製造更多專家工作」幾乎是必然。可是把鏡頭轉到台灣大量的行政、櫃台、標準化作業職位呢?那些工作本來就高度規格化,恰好就是最先被「已完成任務的殘渣」吃掉的一群。Shipper 誠實地承認他只敢替「專家級知識工作」背書,但他沒回答的下一個問題——那剩下的人怎麼辦——對我們這裡的現實感,遠比他樂觀的那一半更逼人。
值得讀的理由
撇開保留,這是我這半年讀過對「AI 與工作」最不焦慮、也最有結構的一篇。它沒有叫你別怕,也沒有渲染恐慌,而是給了你一套看事情的框架:自動化不會把工作清空,它把工作從「生產」推向「判斷」。
如果你也天天在跟 coding agent 來回拉扯,這篇會讓你對自己每天在幹嘛這件事,清醒不少。原文不短,但值得花時間:After Automation。
讀完它的論點,如果你想看這些論點在一個真實專案裡長什麼樣——AI 一週寫九千行、然後我花三週擦乾淨的那種——我把自己當「麵包」的半年寫在這篇:用 Claude Code 半年,我從寫程式的變成幫 AI 收尾的。
