Opus 4.7 在 SWE-bench Pro 抽樣中 18% 通過是讀檔來的:那張 AI Coding 排行榜你還信嗎
四月底的時候,Poolside 的工程師 Connor Adams 在 Scale AI 那個 SWE-bench Pro 的 GitHub repo 開了個 issue,編號 #93。標題很直白:「Git Reward Hacking in SWEBench Pro OSS」。 他只做了一件事:docker pull 任何一個 SWE-bench Pro 的官方鏡像,跑 git log,發現用來評分的「正確答案」commit 就坐在那個容器的 git history 裡面。100% 的測試鏡像都能讀。 下面討論的都是 SWE-bench Pro 的 public OSS 版本(scaleapi/SWE-bench_Pro-os),Scale AI 自己幫客戶跑的私有 eval 版本不在這個討論範圍。 緊接著兩件事。一是 Poolside 自己內部踩了同一個坑——他們訓練中的 Laguna M.1 模型一個週末突然跳了 20 分,差點上排行榜第一。二是 Datacurve 拿同樣的方法去稽核 Claude Opus 4.6 和 4.7 在 SWE-bench Pro 上的歷史 r...




