avatar
文章
203
標籤
418
分類
9
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於
kyosora 筆記
搜尋
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於

強化學習

DeepSeek-R1 憑什麼便宜又能推理?拆解 GRPO 與 MoE,還原真實的效能和成本
發表於2025-01-24|AI工具實戰
DeepSeek-R1 在 2025 年 1 月 20 日發布時,最讓人意外的不是它會推理,而是它又會推理又便宜。同樣一題複雜推理,成本可能只有 GPT-4o 的零頭。 便宜加上能推理,這組合怎麼來的?這篇拆 R1 背後的兩個關鍵——它怎麼學會推理、架構為什麼省——順便把網路上幾個對不上的數字澄清掉。 R1 怎麼學會推理:GRPOR1 會推理,靠的是強化學習,而且是一種叫 GRPO(Group Relative Policy Optimization)的做法。 傳統訓練推理模型,常要人工標註大量「正確的推理步驟」餵給模型學。GRPO 換了個思路:對同一個問題讓模型生成一組答案,用組內互相比較的相對好壞當獎勵訊號,不需要額外訓練一個 critic 模型來打分,也不靠人工標推理軌跡。 最有意思的是它的前身 R1-Zero——純靠這套強化學習,模型自己「長出」了長鏈推理的能力。AIME 2024 這個數學競賽 benchmark,pass@1 從 15.6% 一路漲到 71.0%,中間沒有人教它該怎麼一步步想。 實際使用時,R1 會把思考過程放在 <think></t...
avatar
kyosora
技術探索與學習分享
文章
203
標籤
418
分類
9
GitHub
最新文章
Loop Engineering 沒那麼神:我跑半年 agent loop,真正的工程全在沒人拍貼文的那半
Loop Engineering 沒那麼神:我跑半年 agent loop,真正的工程全在沒人拍貼文的那半2026-06-15
你的 AI 供應商,它的房東兼金主可能就是它的對手
你的 AI 供應商,它的房東兼金主可能就是它的對手2026-06-15
駭客沒駭 Instagram,只是拜託 Meta AI 改了 email——AI 客服為什麼變成最好騙的攻擊面
駭客沒駭 Instagram,只是拜託 Meta AI 改了 email——AI 客服為什麼變成最好騙的攻擊面2026-06-15
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中2026-06-13
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關2026-06-11
分類
  • AI工具實戰82
  • AI產業觀察38
  • 前後端開發15
  • 工具與生產力43
  • 程式設計56
  • 系統與維運16
  • 職涯與反思18
  • 資料庫10
  • 資訊安全19
標籤
LLMClaudeDeepSeekGeminiAI 趨勢OpenRouterCSSAI AgentClaude Code多 Agent 系統開發者工具GitHub 開源CursorTemporal系統可靠性工程實踐NemoClawOpenClawGTC 2026框架選型GitHub Trending本地LLMbenchmarkATLAS成本分析AI Coding Assistant安全性開發經驗Firefox安全漏洞AI安全研究LLM應用AI投資產業分析開發者生態NVIDIAGPT-5.4Computer Use自動化
歸檔
  • 2026年06月 18
  • 2026年05月 17
  • 2026年04月 5
  • 2026年03月 47
  • 2026年02月 3
  • 2026年01月 2
  • 2025年12月 2
  • 2025年09月 1
網站資訊
文章數量 :
203
運行時間 :
總字數 :
330.5k
最後更新時間 :
© 2024 - 2026 By kyosora
搜尋
資料載入中