AI Agent 不寫程式了——2026 年 Agent 生態從寫 Code 走向裝 Skill

上個月我盯 GitHub Trending 的時候，發現一個微妙的轉變：排行榜上最火的 AI 專案，不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。

OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後，定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。

這幾個專案各做各的，但拼在一起看，指向同一件事：Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。

從「什麼都自己幹」到「會裝外掛就好」

2024 年的 AI Agent 長這樣：給它一個任務，它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。

問題很明顯。每次執行同樣的任務，Agent 可能生出完全不同的程式碼。有時候能跑，有時候炸掉。更糟的是，它不會從上一次的錯誤中學到教訓，因為那些程式碼是用完即棄的。

2026 年的 Agent 不一樣了。OpenClaw 的做法是：Agent 本身只負責理解任務和決定策略。實際執行靠的是預先封裝好的 Skill。

# 2024 年的 Agent：每次都重新發明輪子
Agent: "我需要搜尋 Twitter..."
→ 即時生成 Twitter API 呼叫
→ 手動處理 OAuth
→ 解析 JSON 回應
→ 可能少處理了分頁
→ 下次再做一遍，可能換一種寫法

# 2026 年的 Agent：裝好 Skill，專注決策
Agent: "我需要搜尋 Twitter..."
→ 呼叫已安裝的 xreach skill
→ Skill 處理認證、分頁、錯誤重試
→ Agent 拿到乾淨的結果，做判斷
→ 每次行為一致

這不是什麼革命性的架構概念。軟體工程從組合語言到高階語言、從寫 socket 到用 HTTP 框架，一直在做同樣的事：把重複的底層工作封裝起來，讓上層專注在業務邏輯。Agent 生態只是終於走到這一步了。

三個值得注意的趨勢

1. 平台 + 外掛市場的分層正在成形

OpenClaw 是執行平台，Obra/superpowers 是技能市場。兩者的關係像是 iPhone 和 App Store——平台本身的價值取決於上面有多少高品質的外掛。

目前 superpowers 上已經有超過 200 個技能包，涵蓋文件處理、瀏覽器自動化、資料分析、程式碼審查。每個技能包都有標準化的介面：接收什麼參數、回傳什麼格式、在什麼條件下觸發。

這帶來一個有趣的副作用：Agent 的能力不再跟底層模型綁死。同一個技能包，不管底層是 Claude、GPT-5.4 還是 Qwen，都能正常運作。模型負責理解和規劃，技能包負責執行。

2. 「Autoresearch」模式讓 Agent 從執行者變成研究者

Karpathy 的 autoresearch 專案為什麼能三天拿 23,000 顆星？因為它示範了 Agent 的另一個進化方向：不只是按指令做事，而是自己決定要研究什麼、怎麼研究。

autoresearch 的工作流程：

設定一個研究領域
Agent 自動搜尋最新論文和程式碼
嘗試復現實驗
把結果整理成筆記

Karpathy 自己在 X 上說了一句很有意思的話：「My autoresearch labs got wiped out in the oauth outage. Have to think through failovers. Intelligence brownouts will be interesting — the planet losing IQ points when frontier AI stutters.」

他在描述的不是工具故障——是「智慧中斷」。當 AI 服務掛掉的時候，那些依賴 Agent 做研究的流程會集體停擺。這已經不是「有沒有 Agent」的問題，而是「Agent 掛了怎麼辦」的問題。

3. ByteDance 和阿里巴巴同時押注 Agent 基礎設施

ByteDance 的 DeerFlow 是開源 superagent 框架，強調多 Agent 協作和任務分解。阿里巴巴在 3/16 宣布成立 Alibaba Token Hub（ATH），由 CEO 吳泳銘親自掛帥，把通義實驗室、Qwen、MaaS、釘釘全部整合到一個事業群底下。

ATH 的使命宣言：「Create tokens, deliver tokens, and apply tokens.」

翻譯成白話：阿里把 AI 的核心指標定義為「token 的生產和消費」。模型訓練產出 token（推理能力），雲端平台遞送 token（API 服務），終端應用消費 token（使用者互動）。整條鏈路打通，用 token 計價。

中國的大廠在做的事情，和 OpenClaw 生態在做的事情，方向一致但路徑不同。OpenClaw 走開源社群 + 外掛市場；阿里走企業內部整合 + 雲端服務。兩種模式最終都指向同一個結論：Agent 的價值不在模型本身，在生態系統。

對開發者意味著什麼

如果你是寫 Agent 應用的開發者，三件事值得現在就開始做：

把可複用的操作封裝成 Skill。 你現在寫的那些「呼叫某個 API、處理回應、做錯誤重試」的程式碼，每次都在重寫。花一天時間把它們標準化——定義清楚輸入輸出格式、錯誤處理策略、重試邏輯。不管你用不用 OpenClaw，這個習慣都能省下大量重複工作。

讓 Agent 宣告能力，而不是硬編碼行為。 目前大多數 Agent 的邏輯是「如果使用者說 X，就做 Y」。更好的做法是讓 Agent 持有一份「我會什麼」的清單，根據任務動態選擇用哪個技能。這跟微服務的服務發現是同一回事。

監控 Agent 的行為一致性。 當 Agent 的能力從即時生成程式碼轉向呼叫預封裝的 Skill，可預測性會大幅提升。但「大幅提升」不等於「百分之百」。你還是需要 logging、需要 assertion、需要定期檢查 Agent 是不是在用正確的 Skill 做正確的事。

一個值得警惕的問題

Agent 生態越成熟，對 LLM 服務的依賴就越重。Karpathy 的 autoresearch 因為 OAuth 當機全滅，這不是個案——任何重度依賴 frontier AI API 的自動化流程都有同樣的脆弱性。

目前還沒有標準化的 Agent 容錯機制。大多數框架的做法是重試三次然後放棄。這在批次處理的場景可以接受，但如果 Agent 正在做即時決策——幫你管理投資組合、監控系統異常、跟客戶對話——「重試三次然後放棄」就不夠了。

我認為 2026 下半年會開始出現「Agent 可靠性工程」這個領域。有點像 SRE 之於微服務——當系統複雜到一定程度，你需要專門有人負責確保它不會在關鍵時刻掛掉。

再看一次那份排行榜：OpenClaw（Agent 平台）、Obra（技能市場）、DeerFlow（多 Agent 協作）、autoresearch（自主研究）、Ollama（本地推理）。

五個專案，五個層次，拼出一張完整的圖：

本地推理 → Agent 平台 → 技能組合 → 多 Agent 協作 → 自主研究

每一層都在解決上一層留下的問題。Ollama 讓你不用依賴雲端 API。OpenClaw 讓你不用自己寫 Agent 框架。Obra 讓你不用自己寫每個功能。DeerFlow 讓多個 Agent 能協作。autoresearch 讓 Agent 不需要你告訴它該研究什麼。

2024 年我們在問「AI 能幫我寫程式嗎？」。2026 年的問題變成了「我的 Agent 該裝哪些 Skill？」

這個轉變比模型本身的進步更值得關注。因為模型的提升是漸進的——每一代快一點、準一點。但生態系統的成熟是指數級的——一旦標準化的介面和市場成形，技能數量和品質的成長速度會遠超過任何單一模型的改進。

你的 Agent 現在會幾招？