DeepSeek-R1 憑什麼便宜又能推理?拆解 GRPO 與 MoE,還原真實的效能和成本
DeepSeek-R1 在 2025 年 1 月 20 日發布時,最讓人意外的不是它會推理,而是它又會推理又便宜。同樣一題複雜推理,成本可能只有 GPT-4o 的零頭。 便宜加上能推理,這組合怎麼來的?這篇拆 R1 背後的兩個關鍵——它怎麼學會推理、架構為什麼省——順便把網路上幾個對不上的數字澄清掉。 R1 怎麼學會推理:GRPOR1 會推理,靠的是強化學習,而且是一種叫 GRPO(Group Relative Policy Optimization)的做法。 傳統訓練推理模型,常要人工標註大量「正確的推理步驟」餵給模型學。GRPO 換了個思路:對同一個問題讓模型生成一組答案,用組內互相比較的相對好壞當獎勵訊號,不需要額外訓練一個 critic 模型來打分,也不靠人工標推理軌跡。 最有意思的是它的前身 R1-Zero——純靠這套強化學習,模型自己「長出」了長鏈推理的能力。AIME 2024 這個數學競賽 benchmark,pass@1 從 15.6% 一路漲到 71.0%,中間沒有人教它該怎麼一步步想。 實際使用時,R1 會把思考過程放在 <think></t...




