一張 $500 的顯卡跑贏 Claude Sonnet？ATLAS 專案的 benchmark 數字背後

「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分，208 則討論。一個叫 ATLAS 的開源專案，用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型，在 LiveCodeBench 上拿到 74.6%，超過 Claude 4.5 Sonnet 的 71.4%。

聽起來像是本地派的勝利號角。但數字不說謊，數字只是不說完整的故事。

ATLAS 做了什麼

ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路：不微調模型，不呼叫 API，而是在推理時用「智慧基礎設施」包裝一個凍結的小模型，讓它表現得像大模型。

具體來說，它有三個階段：

Phase 1：生成。 用 PlanSearch 從題目中提取約束條件，生成多樣化的解題計畫，然後控制 thinking token 的 budget，產出 k=3 個候選答案。

Phase 2：篩選。 用 Geometric Lens（基於模型自身 5120 維 embedding 的能量場評分）挑出最佳候選。在混合結果的任務上，選擇準確率 87.8%。

Phase 3：修復。 如果所有候選都沒通過，模型自己生成測試案例，然後用 PR-CoT（多視角 chain-of-thought）迭代修復。這一步從失敗案例中又救回了 85.7%。

整套跑在 K3s 上，單張 RTX 5060 Ti，推理速度約 100 tok/s（speculative decoding）。599 道 LiveCodeBench 題目，總共耗時約 1 小時 55 分。

數字的真相

這裡是 ATLAS 自己在 README 裡列的對照表：

系統	LCB pass@1	每題成本	備註
DeepSeek V3.2 Reasoning	86.2%	~$0.002	API，single-shot
GPT-5 (high)	84.6%	~$0.043	API，single-shot
ATLAS V3	74.6%	~$0.004	本地電費，best-of-3 + repair
Claude 4.5 Sonnet	71.4%	~$0.066	API，single-shot

作者自己在方法論說明裡寫得很清楚——這不是公平對決。

幾個關鍵差異：

題目集不同。 ATLAS 跑的是 599 題，Artificial Analysis 排行榜上的競爭者跑的是 315 題。不是同一份考卷。

評分方式不同。 ATLAS 用的是 pass@1-v(k=3)——生成 3 個候選，挑最好的，失敗的還能修復重跑。API 模型用的是 pass@1——一次生成，直接評分。這就像一個學生考三次取最高分，另一個只考一次。

延遲天差地遠。 API 一次呼叫幾秒搞定。ATLAS 每道題要跑完三階段 pipeline，599 題花了近兩小時。在實際開發場景中，你不會等一道 coding 問題跑兩分鐘。

作者對這些都有揭露，這一點值得肯定。但標題黨不會告訴你這些。

HN 社群怎麼看

208 則討論裡，大致分成三派。

肯定派 認為這代表了一個重要方向：用工程手段彌補模型能力的不足。即使方法論不完全可比，74.6% 對一個 14B 量化模型來說確實驚人。而且完全本地、零 API 費用、資料不出機器——對隱私敏感的場景有真實價值。

質疑派 指出 benchmark 數字的可比性問題。有人算了一下，如果把 Claude 也用同樣的 best-of-3 + repair 策略跑，分數會更高。benchmark 衡量的是「系統」而不是「模型」，這兩件事不應該混在一起比。

務實派 的觀點最有意思：在實際寫程式碼時，你不會打開 LiveCodeBench 來評估你的 AI 助手。你關心的是它能不能理解你的 codebase、能不能在 context 裡保持連貫、能不能處理模糊的需求。這些都不是 benchmark 能衡量的。

對開發者有什麼意義

拋開 benchmark 之爭，ATLAS 揭示的趨勢值得關注。

推理時間計算（test-time compute）正在成為主流。 不再只是「模型大就好」，而是「怎麼用模型」變得同樣重要。PlanSearch、self-verification、iterative repair——這些工程手段能讓小模型做到大模型的水準。o1 和 DeepSeek-R1 用了類似的思路，但 ATLAS 把這套搬到了消費級硬體上。

本地推理的成本拐點可能比你想的更近。 RTX 5060 Ti 是一張 $400-500 的顯卡。Qwen3-14B 是一個免費模型。整套 ATLAS 的成本就是電費——每道題 $0.004。如果你每天跑幾百道 coding 任務，一年省下的 API 費用能買好幾張顯卡。

但 benchmark 不是生產力。 74.6% 的 LiveCodeBench 分數不代表它能取代 Claude Code 在你的日常開發中的角色。大模型的優勢在長 context、複雜推理、自然語言理解——這些是量化的 14B 模型很難追上的。ATLAS 解決的是一個很具體的問題（competitive programming style tasks），不是通用的 coding assistant。