上個月我盯 GitHub Trending 的時候,發現一個微妙的轉變:排行榜上最火的 AI 專案,不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。
OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後,定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。
這幾個專案各做各的,但拼在一起看,指向同一件事:Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。
從「什麼都自己幹」到「會裝外掛就好」
2024 年的 AI Agent 長這樣:給它一個任務,它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。
問題很明顯。每次執行同樣的任務,Agent 可能生出完全不同的程式碼。有時候能跑,有時候炸掉。更糟的是,它不會從上一次的錯誤中學到教訓,因為那些程式碼是用完即棄的。
2026 年的 Agent 不一樣了。OpenClaw 的做法是:Agent 本身只負責理解任務和決定策略。實際執行靠的是預先封裝好的 Skill。
1 | # 2024 年的 Agent:每次都重新發明輪子 |
這不是什麼革命性的架構概念。軟體工程從組合語言到高階語言、從寫 socket 到用 HTTP 框架,一直在做同樣的事:把重複的底層工作封裝起來,讓上層專注在業務邏輯。Agent 生態只是終於走到這一步了。
三個值得注意的趨勢
1. 平台 + 外掛市場的分層正在成形
OpenClaw 是執行平台,Obra/superpowers 是技能市場。兩者的關係像是 iPhone 和 App Store——平台本身的價值取決於上面有多少高品質的外掛。
目前 superpowers 上已經有超過 200 個技能包,涵蓋文件處理、瀏覽器自動化、資料分析、程式碼審查。每個技能包都有標準化的介面:接收什麼參數、回傳什麼格式、在什麼條件下觸發。
這帶來一個有趣的副作用:Agent 的能力不再跟底層模型綁死。同一個技能包,不管底層是 Claude、GPT-5.4 還是 Qwen,都能正常運作。模型負責理解和規劃,技能包負責執行。
2. 「Autoresearch」模式讓 Agent 從執行者變成研究者
Karpathy 的 autoresearch 專案為什麼能三天拿 23,000 顆星?因為它示範了 Agent 的另一個進化方向:不只是按指令做事,而是自己決定要研究什麼、怎麼研究。
autoresearch 的工作流程:
- 設定一個研究領域
- Agent 自動搜尋最新論文和程式碼
- 嘗試復現實驗
- 把結果整理成筆記
Karpathy 自己在 X 上說了一句很有意思的話:「My autoresearch labs got wiped out in the oauth outage. Have to think through failovers. Intelligence brownouts will be interesting — the planet losing IQ points when frontier AI stutters.」
他在描述的不是工具故障——是「智慧中斷」。當 AI 服務掛掉的時候,那些依賴 Agent 做研究的流程會集體停擺。這已經不是「有沒有 Agent」的問題,而是「Agent 掛了怎麼辦」的問題。
3. ByteDance 和阿里巴巴同時押注 Agent 基礎設施
ByteDance 的 DeerFlow 是開源 superagent 框架,強調多 Agent 協作和任務分解。阿里巴巴在 3/16 宣布成立 Alibaba Token Hub(ATH),由 CEO 吳泳銘親自掛帥,把通義實驗室、Qwen、MaaS、釘釘全部整合到一個事業群底下。
ATH 的使命宣言:「Create tokens, deliver tokens, and apply tokens.」
翻譯成白話:阿里把 AI 的核心指標定義為「token 的生產和消費」。模型訓練產出 token(推理能力),雲端平台遞送 token(API 服務),終端應用消費 token(使用者互動)。整條鏈路打通,用 token 計價。
中國的大廠在做的事情,和 OpenClaw 生態在做的事情,方向一致但路徑不同。OpenClaw 走開源社群 + 外掛市場;阿里走企業內部整合 + 雲端服務。兩種模式最終都指向同一個結論:Agent 的價值不在模型本身,在生態系統。
對開發者意味著什麼
如果你是寫 Agent 應用的開發者,三件事值得現在就開始做:
把可複用的操作封裝成 Skill。 你現在寫的那些「呼叫某個 API、處理回應、做錯誤重試」的程式碼,每次都在重寫。花一天時間把它們標準化——定義清楚輸入輸出格式、錯誤處理策略、重試邏輯。不管你用不用 OpenClaw,這個習慣都能省下大量重複工作。
讓 Agent 宣告能力,而不是硬編碼行為。 目前大多數 Agent 的邏輯是「如果使用者說 X,就做 Y」。更好的做法是讓 Agent 持有一份「我會什麼」的清單,根據任務動態選擇用哪個技能。這跟微服務的服務發現是同一回事。
監控 Agent 的行為一致性。 當 Agent 的能力從即時生成程式碼轉向呼叫預封裝的 Skill,可預測性會大幅提升。但「大幅提升」不等於「百分之百」。你還是需要 logging、需要 assertion、需要定期檢查 Agent 是不是在用正確的 Skill 做正確的事。
一個值得警惕的問題
Agent 生態越成熟,對 LLM 服務的依賴就越重。Karpathy 的 autoresearch 因為 OAuth 當機全滅,這不是個案——任何重度依賴 frontier AI API 的自動化流程都有同樣的脆弱性。
目前還沒有標準化的 Agent 容錯機制。大多數框架的做法是重試三次然後放棄。這在批次處理的場景可以接受,但如果 Agent 正在做即時決策——幫你管理投資組合、監控系統異常、跟客戶對話——「重試三次然後放棄」就不夠了。
我認為 2026 下半年會開始出現「Agent 可靠性工程」這個領域。有點像 SRE 之於微服務——當系統複雜到一定程度,你需要專門有人負責確保它不會在關鍵時刻掛掉。
回到 GitHub Trending
再看一次那份排行榜:OpenClaw(Agent 平台)、Obra(技能市場)、DeerFlow(多 Agent 協作)、autoresearch(自主研究)、Ollama(本地推理)。
五個專案,五個層次,拼出一張完整的圖:
本地推理 → Agent 平台 → 技能組合 → 多 Agent 協作 → 自主研究
每一層都在解決上一層留下的問題。Ollama 讓你不用依賴雲端 API。OpenClaw 讓你不用自己寫 Agent 框架。Obra 讓你不用自己寫每個功能。DeerFlow 讓多個 Agent 能協作。autoresearch 讓 Agent 不需要你告訴它該研究什麼。
2024 年我們在問「AI 能幫我寫程式嗎?」。2026 年的問題變成了「我的 Agent 該裝哪些 Skill?」
這個轉變比模型本身的進步更值得關注。因為模型的提升是漸進的——每一代快一點、準一點。但生態系統的成熟是指數級的——一旦標準化的介面和市場成形,技能數量和品質的成長速度會遠超過任何單一模型的改進。
你的 Agent 現在會幾招?
