「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分,208 則討論。一個叫 ATLAS 的開源專案,用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型,在 LiveCodeBench 上拿到 74.6%,超過 Claude 4.5 Sonnet 的 71.4%。

聽起來像是本地派的勝利號角。但數字不說謊,數字只是不說完整的故事。

ATLAS 做了什麼

ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路:不微調模型,不呼叫 API,而是在推理時用「智慧基礎設施」包裝一個凍結的小模型,讓它表現得像大模型。

具體來說,它有三個階段:

Phase 1:生成。 用 PlanSearch 從題目中提取約束條件,生成多樣化的解題計畫,然後控制 thinking token 的 budget,產出 k=3 個候選答案。

Phase 2:篩選。 用 Geometric Lens(基於模型自身 5120 維 embedding 的能量場評分)挑出最佳候選。在混合結果的任務上,選擇準確率 87.8%。

Phase 3:修復。 如果所有候選都沒通過,模型自己生成測試案例,然後用 PR-CoT(多視角 chain-of-thought)迭代修復。這一步從失敗案例中又救回了 85.7%。

整套跑在 K3s 上,單張 RTX 5060 Ti,推理速度約 100 tok/s(speculative decoding)。599 道 LiveCodeBench 題目,總共耗時約 1 小時 55 分。

數字的真相

這裡是 ATLAS 自己在 README 裡列的對照表:

系統 LCB pass@1 每題成本 備註
DeepSeek V3.2 Reasoning 86.2% ~$0.002 API,single-shot
GPT-5 (high) 84.6% ~$0.043 API,single-shot
ATLAS V3 74.6% ~$0.004 本地電費,best-of-3 + repair
Claude 4.5 Sonnet 71.4% ~$0.066 API,single-shot

作者自己在方法論說明裡寫得很清楚——這不是公平對決。

幾個關鍵差異:

題目集不同。 ATLAS 跑的是 599 題,Artificial Analysis 排行榜上的競爭者跑的是 315 題。不是同一份考卷。

評分方式不同。 ATLAS 用的是 pass@1-v(k=3)——生成 3 個候選,挑最好的,失敗的還能修復重跑。API 模型用的是 pass@1——一次生成,直接評分。這就像一個學生考三次取最高分,另一個只考一次。

延遲天差地遠。 API 一次呼叫幾秒搞定。ATLAS 每道題要跑完三階段 pipeline,599 題花了近兩小時。在實際開發場景中,你不會等一道 coding 問題跑兩分鐘。

作者對這些都有揭露,這一點值得肯定。但標題黨不會告訴你這些。

HN 社群怎麼看

208 則討論裡,大致分成三派。

肯定派 認為這代表了一個重要方向:用工程手段彌補模型能力的不足。即使方法論不完全可比,74.6% 對一個 14B 量化模型來說確實驚人。而且完全本地、零 API 費用、資料不出機器——對隱私敏感的場景有真實價值。

質疑派 指出 benchmark 數字的可比性問題。有人算了一下,如果把 Claude 也用同樣的 best-of-3 + repair 策略跑,分數會更高。benchmark 衡量的是「系統」而不是「模型」,這兩件事不應該混在一起比。

務實派 的觀點最有意思:在實際寫程式碼時,你不會打開 LiveCodeBench 來評估你的 AI 助手。你關心的是它能不能理解你的 codebase、能不能在 context 裡保持連貫、能不能處理模糊的需求。這些都不是 benchmark 能衡量的。

對開發者有什麼意義

拋開 benchmark 之爭,ATLAS 揭示的趨勢值得關注。

推理時間計算(test-time compute)正在成為主流。 不再只是「模型大就好」,而是「怎麼用模型」變得同樣重要。PlanSearch、self-verification、iterative repair——這些工程手段能讓小模型做到大模型的水準。o1 和 DeepSeek-R1 用了類似的思路,但 ATLAS 把這套搬到了消費級硬體上。

本地推理的成本拐點可能比你想的更近。 RTX 5060 Ti 是一張 $400-500 的顯卡。Qwen3-14B 是一個免費模型。整套 ATLAS 的成本就是電費——每道題 $0.004。如果你每天跑幾百道 coding 任務,一年省下的 API 費用能買好幾張顯卡。

但 benchmark 不是生產力。 74.6% 的 LiveCodeBench 分數不代表它能取代 Claude Code 在你的日常開發中的角色。大模型的優勢在長 context、複雜推理、自然語言理解——這些是量化的 14B 模型很難追上的。ATLAS 解決的是一個很具體的問題(competitive programming style tasks),不是通用的 coding assistant。

怎麼選擇

一個粗略的決策框架:

用本地模型(ATLAS 或類似方案) 如果你:

  • 處理敏感程式碼,資料不能上雲
  • 有大量重複性的程式碼生成任務
  • 願意投入時間設定和維護基礎設施
  • 對延遲不敏感

用 API 模型 如果你:

  • 需要即時回應的互動式開發
  • 任務涉及大量 context(整個 codebase)
  • 不想維護 GPU 和推理服務
  • 需要最新的模型能力

兩者混用 是我認為最務實的選擇。高頻低複雜度的任務用本地,需要深度推理和長 context 的任務用 API。ATLAS 的架構設計其實也暗示了這個方向——它有 llm-proxyrag-api 模組,本身就是個可以對接多來源的系統。

真正值得帶走的

ATLAS 的價值不在於它「打贏了 Claude Sonnet」——因為嚴格來說它沒有。它的價值在於證明了一件事:用工程方法論包裝小模型,效果的天花板比大多數人想的要高很多。

三年前,14B 模型連基本的程式碼補全都做不好。今天,加上 PlanSearch、energy-based verification、self-repair,它能在 coding benchmark 上逼近 frontier 模型。這個進步的速度和方向,才是值得關注的訊號。

但請記住:benchmark 是地圖,不是地形。 你的開發體驗取決於地形。


專案連結:ATLAS GitHubV3 Ablation StudyHN 討論