上週我在整理自己的 CLAUDE.md 時,發現它已經膨脹到快 800 行。規則疊規則、範例套範例,像一本員工手冊。直覺告訴我這樣「比較完整」,但實際體感是——Claude Code 有時會忽略我寫在後半段的指令,偶爾還會把兩條規則搞混。

然後我讀到 SkillsBench 這篇論文,它用 7,308 條執行軌跡和 84 個任務做了一件事:測量「給 AI Agent 的操作指引(Skills)」到底給多少、寫多長才有效。

結論讓我重新打開編輯器,把那 800 行砍掉一半。

先講數字

研究團隊在 Claude Code、Codex CLI、Gemini CLI 三個平台上,測試了七種模型配置。每個任務跑五次,用程式化斷言判定通過與否——不是讓另一個 LLM 當裁判,是寫死的測試。

整體結論:精心撰寫的 Skills 平均提升 16.2 個百分點。這個數字本身不意外,有指引當然比沒有好。

意外的是拆開來看的時候。

2-3 條指引是甜蜜點,4 條以上開始拖後腿

Skills 數量 有 Skills 無 Skills 差距
1 條 42.2% 24.4% +17.8pp
2-3 條 42.0% 23.4% +18.6pp
4 條以上 32.7% 26.9% +5.9pp

1 條和 2-3 條的效果幾乎一樣好,都在 +17~18pp。但一旦超過 4 條,提升直接腰斬到 +5.9pp。

不是「邊際遞減」那種溫和的下滑,是斷崖式掉落。

原因不難理解。LLM 的 context window 是有限的,每多一條 Skill 就多佔一段 token 預算。當指引太多,模型需要在大量程序性內容中篩選「哪段跟當前任務有關」,這個篩選本身就會出錯。論文用了一個精準的詞:cognitive overhead——認知負荷。

「全面文件」是最差的寫法

研究進一步把 Skills 按撰寫風格分成四種:

風格 通過率 相比無 Skills
Detailed(詳細但聚焦) 42.7% +18.8pp
Compact(精簡扼要) 37.6% +17.1pp
Standard(標準格式) 37.1% +10.1pp
Comprehensive(全面文件) 39.9% -2.9pp

Detailed 和 Compact 效果最好。Standard 普通。Comprehensive——就是那種試圖涵蓋所有情境、所有邊界條件的百科全書式文件——效果是負的

比不給還差。

論文的解釋是:「Agent 在冗長的 Skills 內容中難以提取相關資訊,過於精心編排的 Skills 會消耗 context 預算。」

這段話值得所有正在維護 CLAUDE.md 的人貼在螢幕上。

為什麼 Detailed 贏了 Comprehensive

Detailed 和 Comprehensive 聽起來很像,差別在哪?

Detailed 是針對特定任務類型的深入指引。它會告訴你:「處理這類問題時,第一步做 X,第二步做 Y,注意 Z 這個坑。」步驟明確,範圍收斂。

Comprehensive 試圖覆蓋所有可能。它會說:「這個領域有 A、B、C、D 四種情境,A 的時候要注意 1、2、3,B 的時候要注意 4、5、6...」面面俱到,但模型讀完之後反而不知道當前這個具體任務該用哪段。

這跟人類讀文件的經驗完全一致。一份 200 頁的操作手冊不如一張針對你當前任務的 checklist。

這對你的 CLAUDE.md 意味著什麼

我根據這篇論文的發現,重新審視了自己的做法。幾個具體的調整:

一、把「通用規則」和「任務指引」分開。

通用規則(命名慣例、錯誤處理風格)放在 CLAUDE.md。任務特定的操作步驟放在獨立的 Skills 檔案裡,只在需要時載入。不要把所有東西塞進同一份文件。

二、每份指引控制在 2-3 個核心重點。

寫完之後問自己:「如果只能保留三條規則,留哪三條?」其餘的刪掉,或者拆到另一份文件裡。

三、用 Detailed 而非 Comprehensive 的風格。

不要試圖列舉所有可能的情境。針對最常見的任務類型,寫具體的操作步驟和陷阱提醒。「當你遇到 X 問題時,先檢查 Y,然後做 Z」比「X 問題有 A、B、C 三種成因,分別對應...」有效得多。

四、定期瘦身。

CLAUDE.md 會自然膨脹。每隔一段時間回頭看,問問自己:「這條規則最近三次 Claude 有遵守嗎?」如果沒有,可能不是規則寫得不夠詳細,而是它被淹沒在太多其他規則裡了。砍掉周圍的雜訊,比加粗標題更有效。

一個更大的啟示:小模型 + 精準指引 ≈ 大模型裸跑

論文還有一個發現值得一提。Claude Haiku 4.5 加上 Skills 的通過率是 27.7%,而 Opus 4.5 不加 Skills 是 22.0%。

小模型配上精準的操作指引,跑贏了大模型裸奔。

這意味著與其花錢升級到最貴的模型,不如花時間把指引寫好。2-3 條精準的 Skills,效果可能比模型升一級更明顯。當然,大模型加上好的 Skills 效果更好(Opus 4.5 + Skills 拿到最高的 +23.3pp 提升),但如果預算有限,投資在指引品質上的 ROI 更高。

自己寫的 Skills 沒用

最後一個殘酷的事實:研究讓模型自己生成 Skills,結果平均 -1.3pp。比不給還差。

模型能辨識「這個任務需要某類專業知識」,但生成出來的程序性指引不夠精確。它知道方向,但寫不出能讓自己真正照著做的步驟。

這代表「讓 AI 自己寫自己的操作手冊」目前行不通。人類策展仍然必要——至少在這個階段。


回到我那份 800 行的 CLAUDE.md。砍完之後剩 400 行左右,核心規則從十幾條收到六條。前兩天的使用體感是:Claude Code 對剩下的規則遵守率明顯提高了。

少即是多。這不是什麼禪意格言,是 7,308 次實驗跑出來的數據。


論文連結: SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks