你有沒有認真算過,Claude Code 幫你跑完一個長 session,到底燒了多少 token、按了哪些工具、有沒有在你沒盯著的時候改了什麼設定、碰了哪一把金鑰?
我沒有。多數時候我就是看著它一條條工具呼叫往下刷,跑完、能用、收工。中間那一大段,基本是個黑盒——我信任它,但我沒看。
前幾天看到一個叫 Her(天城文寫作 हेर)的工具,就是來幹這件事的——把那段沒人在看的過程,變成你看得懂的東西。先講清楚:我還沒實際把自己的 session 餵進去跑過,下面講的是讀了它的設計和文件之後的判斷,不是實測評測。但它的一個設計取捨很值得拿出來講。
跑完一個長 session,你真的知道它幹了什麼嗎
每一次 Claude Code 的 session,都會在硬碟上留下一個 .jsonl 檔——裡面記著每一輪對話、每一次工具呼叫、每一筆 token 花費。這個檔一直在那,只是沒人會去讀。它又長又密,是寫給機器看的,不是寫給人看的。
問題是,當你越來越放手讓 agent 自己跑——讓它部署、讓它改設定檔、讓它接觸生產環境——這個沒人讀的檔裡,就藏著一些你其實該知道的事。它有沒有在第 40 輪把某個 config 改掉了?有沒有在哪一步把一個 secret 打進了 log?這一趟總共花了多少錢、錢花在哪幾個工具上?
平常這些問題你不會問,因為要回答它們,得自己去啃那個 .jsonl,沒人有空。Her 做的,就是把這件「沒人有空做」的事自動化。
Her 把 .jsonl 攤開來給你看
你把 session 的 .jsonl 丟給它,依它的文件,它做幾件事。
它用白話重建這一趟發生了什麼,把高風險的動作挑出來——部署、改 config、動生產環境、碰 secret——每一個都標到發生在第幾輪。報告大概長這樣:第 40 輪執行了部署工具、第 52 輪讀取了環境變數。這個「定位到確切的 turn」很關鍵:光知道「有風險操作」沒用,知道「在哪一輪、做了什麼」你才查得下去。
它也把錢攤開:token 的去向、用了哪些工具、叫了哪些子代理、動用了哪些 skill 和 MCP server。為了離線也能認出工具,它內建一份從 Homebrew、npm、PyPI 抓來的常用工具庫,多數工具它不連網就能標出名字、附一句說明;當 session 裡真的跑了部署工具、資料庫客戶端、dev server 這類東西,它會特別圈起來,提醒你這個值得再看一眼。
另外有個叫 Ask Her 的問答介面:你可以直接問「為什麼這裡用了這個工具」,它從 trace 裡回答、告訴你引用的是哪幾輪,還能幫你跳到那一次確切的工具呼叫。
最聰明的一步:把「發現問題」和「寫成人話」拆開
如果 Her 只是「又一個分析工具」,我不會特地寫它。讓我停下來的是它一個設計上的取捨。
它用一個小模型(Nemotron-Mini-4B-Instruct),跑在 Hugging Face Space 的 ZeroGPU 上。但關鍵不在用了哪個模型,而在這個模型「被允許做什麼」——它只負責把分析結果寫成通順的英文、提一點軟性建議,它不負責下任何判斷。真正去判定「這是不是一次部署」「這算不算碰了 secret」的,是一套純規則的確定性引擎。模型換掉,那些數字和判定一個都不會變。
這個分工,我認為是整個工具最值錢的地方。
安全審計這種事,最忌諱交給一個會幻覺的東西。如果是讓 LLM 去判斷「這個操作有沒有風險」,那它哪天心情不好漏報一個、或者腦補一個不存在的風險,你根本不知道。Her 的做法是把「發現」這件需要可靠的事鎖死在規則引擎裡,只把「寫得好不好讀」這件壞了也無所謂的事交給模型。會出錯的地方,剛好都是出錯了也不致命的地方。
很多人做 AI 工具的反射,是「能塞 LLM 的地方都塞 LLM」。Her 反過來,謹慎地劃清模型不准踏進來的線。這個克制,比用了什麼炫技的模型更讓我信任它。
它是事後審計,不是即時保全
得把 Her 的定位講清楚,免得有人期待錯。
它讀的是 session 結束後留下的 log。也就是說,它是事後諸葛——等事情都做完了,它才告訴你「剛才那趟,這幾個地方有風險」。它攔不住任何東西。如果你要的是「AI 正要刪庫的那一刻把它擋下來」,那是 hook、是權限控制要做的事,不是 Her 的守備範圍。
這不是缺點,是它選的位置。它的用場在複盤、追查、和週期性掃描:複盤一趟跑得對不對、出事後快速定位哪一輪埋的雷、定期掃過去的 session 看自己有沒有養出什麼壞習慣。但你不能拿它當即時的保全系統,那是另一層的事。
順帶一提,我對這類工具的第一個反應其實是警覺——你的 .jsonl 裡可能就躺著 secret,把它上傳給一個工具去分析,這本身不就是另一個洩漏點嗎?我特地去看了它怎麼處理:它說 session 只上傳到一個屬於你這次執行、私有而且會自動刪除的空間,全程不呼叫任何第三方 AI API。這化解了我大半的疑慮——當然,這是它自己的說法,真要拿去跑生產環境的 session,你還是得自己驗一遍。
除了隱私,還有幾件事文件沒講清楚、採用前最好自己確認:ZeroGPU 上跑很大的 session 會不會慢、session 有沒有大小上限、那個私有空間到底多久自動刪、以及最要緊的——被標記出來的 secret,它的「值」會不會被一併寫進報告摘要裡。沒寫清楚的,就先當未知。
也有人會問:這些我自己 grep 一下 .jsonl 不就好了?可以,但 grep 給你的是一堆零散的行,得自己拼。Her 多做的是把這些行分類、釘到輪次上、再讓你用問答追下去——它賣的是「整理過、可追問」,不是「把檔案攤開」。
誰該關注這個方向
Her 本身還很早期,是一個週末長出來的東西,你現在不一定用得上。但它指的那個方向,我認為越來越多人會需要。
只要你開始放手讓 agent 替你做有後果的事——部署、改設定、碰資料庫——你就需要一種事後能把它做過什麼看清楚的能力。這個能力現在普遍是缺的:我們對 agent 的信任,跑在「能看清它做了什麼」的能力前面太多。Her 這種工具,是在把後者補上來。
我大概會找個我自己跑壞過的 session,丟進去看看它揪不揪得出我當時沒注意到的東西。如果連我自己都不知道那一趟到底哪裡出了錯,那就正好是我最該補上這雙眼睛的時候。







