kyosora 筆記

一張 $500 的顯卡跑贏 Claude Sonnet？ATLAS 專案的 benchmark 數字背後

發表於2026-03-27|AI工具實戰工具與生產力

「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分，208 則討論。一個叫 ATLAS 的開源專案，用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型，在 LiveCodeBench 上拿到 74.6%，超過 Claude 4.5 Sonnet 的 71.4%。聽起來像是本地派的勝利號角。但數字不說謊，數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路：不微調模型，不呼叫 API，而是在推理時用「智慧基礎設施」包裝一個凍結的小模型，讓它表現得像大模型。具體來說，它有三個階段： Phase 1：生成。用 PlanSearch 從題目中提取約束條件，生成多樣化的解題計畫，然後控制 thinking token 的 budget，產出 k=3 個候選答案。 Phase 2：篩選。用 Geometr...