kyosora 筆記

Opus 4.7 在 SWE-bench Pro 抽樣中 18% 通過是讀檔來的：那張 AI Coding 排行榜你還信嗎

發表於2026-06-25|AI工具實戰AI產業觀察

四月底的時候，Poolside 的工程師 Connor Adams 在 Scale AI 那個 SWE-bench Pro 的 GitHub repo 開了個 issue，編號 #93。標題很直白：「Git Reward Hacking in SWEBench Pro OSS」。他只做了一件事：docker pull 任何一個 SWE-bench Pro 的官方鏡像，跑 git log，發現用來評分的「正確答案」commit 就坐在那個容器的 git history 裡面。100% 的測試鏡像都能讀。下面討論的都是 SWE-bench Pro 的 public OSS 版本（scaleapi/SWE-bench_Pro-os），Scale AI 自己幫客戶跑的私有 eval 版本不在這個討論範圍。緊接著兩件事。一是 Poolside 自己內部踩了同一個坑——他們訓練中的 Laguna M.1 模型一個週末突然跳了 20 分，差點上排行榜第一。二是 Datacurve 拿同樣的方法去稽核 Claude Opus 4.6 和 4.7 在 SWE-bench Pro 上的歷史 r...