你的 CLAUDE.md 寫太多了：7,308 次實驗證明 AI Agent 指令 2-3 條就好

上週我在整理自己的 CLAUDE.md 時，發現它已經膨脹到快 800 行。規則疊規則、範例套範例，像一本員工手冊。直覺告訴我這樣「比較完整」，但實際體感是——Claude Code 有時會忽略我寫在後半段的指令，偶爾還會把兩條規則搞混。

然後我讀到 SkillsBench 這篇論文，它用 7,308 條執行軌跡和 84 個任務做了一件事：測量「給 AI Agent 的操作指引（Skills）」到底給多少、寫多長才有效。

結論讓我重新打開編輯器，把那 800 行砍掉一半。

先講數字

研究團隊在 Claude Code、Codex CLI、Gemini CLI 三個平台上，測試了七種模型配置。每個任務跑五次，用程式化斷言判定通過與否——不是讓另一個 LLM 當裁判，是寫死的測試。

整體結論：精心撰寫的 Skills 平均提升 16.2 個百分點。這個數字本身不意外，有指引當然比沒有好。

意外的是拆開來看的時候。

Skills 數量	有 Skills	無 Skills	差距
1 條	42.2%	24.4%	+17.8pp
2-3 條	42.0%	23.4%	+18.6pp
4 條以上	32.7%	26.9%	+5.9pp

1 條和 2-3 條的效果幾乎一樣好，都在 +17～18pp。但一旦超過 4 條，提升直接腰斬到 +5.9pp。

不是「邊際遞減」那種溫和的下滑，是斷崖式掉落。

道理直接。LLM 的 context window 是有限的，每多一條 Skill 就多佔一段 token 預算。當指引太多，模型需要在大量程序性內容中篩選「哪段跟當前任務有關」，這個篩選本身就會出錯。論文用了一個精準的詞：cognitive overhead——認知負荷。

研究進一步把 Skills 按撰寫風格分成四種：

Detailed 和 Compact 效果最好。Standard 普通。Comprehensive——就是那種試圖涵蓋所有情境、所有邊界條件的百科全書式文件——效果是負的。

比不給還差。

論文的解釋是：「Agent 在冗長的 Skills 內容中難以提取相關資訊，過於精心編排的 Skills 會消耗 context 預算。」

這段話值得所有正在維護 CLAUDE.md 的人貼在螢幕上。

Detailed 和 Comprehensive 聽起來很像，差別在哪？

Detailed 是針對特定任務類型的深入指引。它會告訴你：「處理這類問題時，第一步做 X，第二步做 Y，注意 Z 這個坑。」步驟明確，範圍收斂。

Comprehensive 試圖覆蓋所有可能。它會說：「這個領域有 A、B、C、D 四種情境，A 的時候要注意 1、2、3，B 的時候要注意 4、5、6...」面面俱到，但模型讀完之後反而不知道當前這個具體任務該用哪段。

這跟人類讀文件的經驗完全一致。一份 200 頁的操作手冊不如一張針對你當前任務的 checklist。

我根據這篇論文的發現，重新審視了自己的做法。幾個具體的調整：

一、把「通用規則」和「任務指引」分開。

通用規則（命名慣例、錯誤處理風格）放在 CLAUDE.md。任務特定的操作步驟放在獨立的 Skills 檔案裡，只在需要時載入。不要把所有東西塞進同一份文件。

二、每份指引控制在 2-3 個核心重點。

寫完之後問自己：「如果只能保留三條規則，留哪三條？」其餘的刪掉，或者拆到另一份文件裡。

三、用 Detailed 而非 Comprehensive 的風格。

不要試圖列舉所有可能的情境。針對最常見的任務類型，寫具體的操作步驟和陷阱提醒。「當你遇到 X 問題時，先檢查 Y，然後做 Z」比「X 問題有 A、B、C 三種成因，分別對應...」有效得多。

四、定期瘦身。

CLAUDE.md 會自然膨脹。每隔一段時間回頭看，問問自己：「這條規則最近三次 Claude 有遵守嗎？」如果沒有，可能不是規則寫得不夠詳細，而是它被淹沒在太多其他規則裡了。砍掉周圍的雜訊，比加粗標題更有效。

論文還有一個發現值得一提。Claude Haiku 4.5 加上 Skills 的通過率是 27.7%，而 Opus 4.5 不加 Skills 是 22.0%。

小模型配上精準的操作指引，跑贏了大模型裸奔。

這意味著與其花錢升級到最貴的模型，不如花時間把指引寫好。2-3 條精準的 Skills，效果可能比模型升一級更明顯。當然，大模型加上好的 Skills 效果更好（Opus 4.5 + Skills 拿到最高的 +23.3pp 提升），但如果預算有限，投資在指引品質上的 ROI 更高。

最後一個殘酷的事實：研究讓模型自己生成 Skills，結果平均 -1.3pp。比不給還差。

模型能辨識「這個任務需要某類專業知識」，但生成出來的程序性指引不夠精確。它知道方向，但寫不出能讓自己真正照著做的步驟。

這代表「讓 AI 自己寫自己的操作手冊」目前行不通。人類策展仍然必要——至少在這個階段。

回到我那份 800 行的 CLAUDE.md。砍完之後剩 400 行左右，核心規則從十幾條收到六條。前兩天的使用體感是：Claude Code 對剩下的規則遵守率明顯提高了。

少即是多。這不是什麼禪意格言，是 7,308 次實驗跑出來的資料。

論文連結： SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks