DeepSeek-R1 憑什麼便宜又能推理？拆解 GRPO 與 MoE，還原真實的效能和成本

DeepSeek-R1 在 2025 年 1 月 20 日發布時，最讓人意外的不是它會推理，而是它又會推理又便宜。同樣一題複雜推理，成本可能只有 GPT-4o 的零頭。

便宜加上能推理，這組合怎麼來的？這篇拆 R1 背後的兩個關鍵——它怎麼學會推理、架構為什麼省——順便把網路上幾個對不上的數字澄清掉。

R1 怎麼學會推理：GRPO

R1 會推理，靠的是強化學習，而且是一種叫 GRPO（Group Relative Policy Optimization）的做法。

傳統訓練推理模型，常要人工標註大量「正確的推理步驟」餵給模型學。GRPO 換了個思路：對同一個問題讓模型生成一組答案，用組內互相比較的相對好壞當獎勵訊號，不需要額外訓練一個 critic 模型來打分，也不靠人工標推理軌跡。

最有意思的是它的前身 R1-Zero——純靠這套強化學習，模型自己「長出」了長鏈推理的能力。AIME 2024 這個數學競賽 benchmark，pass@1 從 15.6% 一路漲到 71.0%，中間沒有人教它該怎麼一步步想。

實際使用時，R1 會把思考過程放在 <think></think> 標籤之間，再給最終答案；走 DeepSeek API 的話，這段思維鏈會放在 reasoning_content 欄位回傳，跟正式答案分開。

架構為什麼省：MoE 加 MLA

便宜這邊，關鍵在架構。R1 是 671B 參數的 MoE（Mixture of Experts，混合專家）模型，但每次推理只啟動其中約 37B——你有一支很大的專家團隊，但每個問題只叫醒相關的幾個，算力花在刀口上。

另一個省的地方是 MLA（Multi-head Latent Attention）。它把注意力機制裡很吃記憶體的 KV cache 壓到低維空間——可以想成把一疊攤開的講義先摺好收進抽屜，要用再展開，佔的空間小很多。加上訓練用 FP8 混合精度，整體把成本壓得很低。

所以 R1 的便宜不是玄學，是 MoE 少算、MLA 省記憶體、FP8 省訓練疊出來的。

真實的 benchmark

講到數字就要小心了，因為這也是 R1 相關介紹最容易出錯的地方。

R1 的 MMLU 大約 90.8%，確實高於 GPT-4o（約 88.7%）和 Claude 3.5 Sonnet（約 88.3%）。但它沒有「刷新世界紀錄」——同期 OpenAI 的 o1 大約 91.8%，仍在 R1 之上，DeepSeek 官方自己也說 R1 略低於 o1。

蒸餾版也要看清楚定位。DeepSeek-R1-Distill-Qwen-32B 在數學和推理很強（AIME 72.6、MATH-500 94.3），體積小、適合本地部署或資源有限的場景；但它官方對標的是 o1-mini，不是 GPT-4o。把它講成「整體性能接近 GPT-4o」是搞錯了對照組。

真實的成本帳

幾個主流模型的 API 定價（美元／百萬 tokens）：

模型	輸入	輸出
DeepSeek-R1	0.55（快取未命中）/ 0.14（命中）	2.19
GPT-4o	2.50	10.00
Claude 3.5 Sonnet	3.00	15.00
GPT-3.5-turbo	0.50	1.50

光看輸出端，R1 比 GPT-4o 便宜約 78%、比 Claude 3.5 Sonnet 便宜約 85%。而且推理任務的輸出量常是輸入的數倍——模型要把整串思考過程吐出來——所以這差距反映在實際帳單上，比表面數字更明顯。

順帶提醒一個判斷數字的原則：有些介紹會給出「R1 顯存佔用幾 GB、推理延遲幾毫秒，對比 GPT-4o 多少」這種精確對比。看到要存疑——GPT-4o 是閉源 API，OpenAI 從沒公布參數量、顯存或內部延遲，這類拿來跟它逐項比較的精確數字，多半是湊出來的。R1 是 671B 模型，完整跑起來的硬體需求也遠不是消費級顯卡那個量級。