LLM 不是不知道該用工具——它在最後一層轉了 90 度,叫不出來
用 Claude Code 久了會發現一種奇怪的 bug:你明確說「先 grep 一下這個 symbol」,它「嗯」一聲,然後直接憑記憶生出一個答案,工具呢?沒叫。又有時候你叫它「直接回答就好不用查」,它反而非要 Bash 一下。 我以前的解釋很俗——prompt 不夠用力、tool description 不夠精準、模型太懶。最近 Maryland 大學的論文〈Model-Adaptive Tool Necessity Reveals the Knowing-Doing Gap in LLM Tool Use〉(arXiv:2605.14038)讓我換了一個視角。模型不是不知道該叫工具——它知道,但在輸出層轉了 90 度。 兩階段分解:認知 vs 執行論文做了一件方法論層面很值得記住的事——把「LLM 使用工具」這個動作切成兩階段: Cognition(認知):模型內部是不是相信「這題需要工具」。透過線性 probe 探測 hidden state 的方向,可以直接讀出模型的內部判斷。 Execution(執行):模型實際輸出的 token 是不是 trigger 了...
AI Agent 越記越笨:一篇 Illinois 論文打臉所有「個人 AI 記憶」熱潮
幾個月前我停用了 claude-mem,理由很單純:MCP 每次互動都打一次 round-trip,對話被它拖到肉眼可見的慢。當時的決定純屬效能直覺,跟「記憶品質」沒關係——我預設「記得多總是好事」。 上週 X 上開始刷一篇 UIUC 的 Dylan Zhang 等人的論文〈Useful Memories Become Faulty When Continuously Updated by LLMs〉(arXiv:2605.12978)。論文做了一個我看到結果愣了五秒的實驗:把 GPT-5.4 原本 100% 解得出來的 ARC-AGI 問題,丟進「持續記憶」的迴圈讓它一邊解一邊累積經驗——最後 54% 的題目反而解不出來了(注意:54% 是失敗率,不是剩餘準確率,原本 100% 變成只剩 46% 能解)。 那一刻我反應過來,當初停用 claude-mem 那個直覺,可能比我想的還更對。 論文在做什麼論文針對的是一個被很多主動寫入式記憶工具共用的設計誘惑——consolidation loop,三句話: 12345distill experience ...
