kyosora 筆記

DeepSeek-R1 憑什麼便宜又能推理？拆解 GRPO 與 MoE，還原真實的效能和成本

發表於2025-01-24|AI工具實戰

DeepSeek-R1 在 2025 年 1 月 20 日發布時，最讓人意外的不是它會推理，而是它又會推理又便宜。同樣一題複雜推理，成本可能只有 GPT-4o 的零頭。便宜加上能推理，這組合怎麼來的？這篇拆 R1 背後的兩個關鍵——它怎麼學會推理、架構為什麼省——順便把網路上幾個對不上的數字澄清掉。 R1 怎麼學會推理：GRPOR1 會推理，靠的是強化學習，而且是一種叫 GRPO（Group Relative Policy Optimization）的做法。傳統訓練推理模型，常要人工標註大量「正確的推理步驟」餵給模型學。GRPO 換了個思路：對同一個問題讓模型生成一組答案，用組內互相比較的相對好壞當獎勵訊號，不需要額外訓練一個 critic 模型來打分，也不靠人工標推理軌跡。最有意思的是它的前身 R1-Zero——純靠這套強化學習，模型自己「長出」了長鏈推理的能力。AIME 2024 這個數學競賽 benchmark，pass@1 從 15.6% 一路漲到 71.0%，中間沒有人教它該怎麼一步步想。實際使用時，R1 會把思考過程放在 <think></t...