kyosora 筆記

發表於2026-03-14|AI工具實戰AI產業觀察

DeepSeek V4 原定三月第一週發布。現在三月過了一半，官方一個字都沒說。這不是一般的軟體延遲。這是中國 AI 產業第一次嘗試在非 NVIDIA 硬體上訓練兆級參數模型，而現實比預期殘酷。 V4 到底是什麼先說結論：如果 DeepSeek V4 真的發布，它會是目前最大的開源模型。兆級參數的 Mixture-of-Experts（MoE）架構，每個 token 只啟用約 320 億參數。Top-16 路由策略——模型裡有上千個「專家」，每次推理只叫醒最相關的 16 個。這意味著你可以用 320 億參數的算力成本，得到兆級參數的知識容量。 V4 的架構有三個值得注意的設計： Manifold-Constrained Hyper-Connections。解決 MoE 的老問題：專家之間不夠互通。傳統 MoE 的專家各做各的，資訊共享效率差。這個機制讓跨專家的資訊利用率提升了約 40%，同時不增加計算成本。這不是微調，是結構性改進。 Engram Conditional Memory。處理超長 context 時動態維護關鍵資訊索引。白話說：在 100 萬 token 的...

100 兆 tokens 告訴你：為什麼降價 10% 也救不了你的 LLM 產品

發表於2025-12-09|AI工具實戰AI產業觀察

你以為 AI 模型競爭就是打價格戰？ OpenRouter 剛發佈的報告分析了 100 兆 tokens 的真實使用資料，發現一個驚人事實：**降價 10%，使用量只增加 0.5-0.7%**。更扯的是，Claude 價格最貴，卻占了編程市場 60%。到底發生什麼事？為什麼這份報告值得關注？這不是又一份「AI 趨勢預測」報告。 OpenRouter 是全球最大的 LLM API 聚合平台：支援 300+ 模型 60+ 供應商（OpenAI、Anthropic、Google、DeepSeek...） 100 兆 tokens 真實使用資料（2024/11 - 2025/11）這份報告揭露了三個開發者必須知道的反直覺發現。發現 1：價格戰是假議題資料打臉時刻策略實際結果降價 10% 使用量 ↑ 0.5-0.7% Claude（最貴）編程市場占 60% DeepSeek（便宜）使用者流失後又回流報告原話： "需求缺乏價格彈性，使用者優先考慮品質和可靠性而非價格。" 為什麼會這樣？工程師選模型的真實決策流程：...

DeepSeek-R1 憑什麼便宜又能推理？拆解 GRPO 與 MoE，還原真實的效能和成本

發表於2025-01-24|AI工具實戰

DeepSeek-R1 在 2025 年 1 月 20 日發布時，最讓人意外的不是它會推理，而是它又會推理又便宜。同樣一題複雜推理，成本可能只有 GPT-4o 的零頭。便宜加上能推理，這組合怎麼來的？這篇拆 R1 背後的兩個關鍵——它怎麼學會推理、架構為什麼省——順便把網路上幾個對不上的數字澄清掉。 R1 怎麼學會推理：GRPOR1 會推理，靠的是強化學習，而且是一種叫 GRPO（Group Relative Policy Optimization）的做法。傳統訓練推理模型，常要人工標註大量「正確的推理步驟」餵給模型學。GRPO 換了個思路：對同一個問題讓模型生成一組答案，用組內互相比較的相對好壞當獎勵訊號，不需要額外訓練一個 critic 模型來打分，也不靠人工標推理軌跡。最有意思的是它的前身 R1-Zero——純靠這套強化學習，模型自己「長出」了長鏈推理的能力。AIME 2024 這個數學競賽 benchmark，pass@1 從 15.6% 一路漲到 71.0%，中間沒有人教它該怎麼一步步想。實際使用時，R1 會把思考過程放在 <think></t...