DeepSeek V4 原定三月第一週發布。現在三月過了一半,官方一個字都沒說。

這不是一般的軟體延遲。這是中國 AI 產業第一次嘗試在非 NVIDIA 硬體上訓練兆級參數模型,而現實比預期殘酷。

V4 到底是什麼

先說結論:如果 DeepSeek V4 真的發布,它會是目前最大的開源模型。

兆級參數的 Mixture-of-Experts(MoE)架構,每個 token 只啟用約 320 億參數。Top-16 路由策略——模型裡有上千個「專家」,每次推理只叫醒最相關的 16 個。這意味著你可以用 320 億參數的算力成本,得到兆級參數的知識容量。

V4 的架構有三個值得注意的設計:

Manifold-Constrained Hyper-Connections。 解決 MoE 的老問題:專家之間不夠互通。傳統 MoE 的專家各做各的,資訊共享效率差。這個機制讓跨專家的資訊利用率提升了約 40%,同時不增加計算成本。這不是微調,是結構性改進。

Engram Conditional Memory。 處理超長 context 時動態維護關鍵資訊索引。白話說:在 100 萬 token 的對話中,模型不會忘記開頭講了什麼。在我看來,這比單純把 context window 拉大更有價值——光是能吃進去不代表能用好。

DeepSeek Sparse Attention。 具體細節還沒完全公開,但方向是在注意力機制層面做稀疏化,降低超長序列的計算複雜度。

規格上:原生多模態(文字、圖片、影片同時處理)、100 萬 token context window、未驗證基準號稱 HumanEval 90%、SWE-bench 80%+。

聽起來很猛。問題是——它跑在什麼硬體上。

真正的瓶頸:從 CUDA 搬家到華為

V4 是第一個從設計階段就針對華為 Ascend 晶片優化的兆級模型。不是「也可以跑在華為上」,是「原生為華為設計」。

DeepSeek 甚至把 NVIDIA 和 AMD 排除在預發布優化之外,把早期存取權給了華為和寒武紀。這是一個明確的戰略宣示:中國 AI 要擺脫對 NVIDIA 的依賴。

但從 CUDA 搬到 Ascend CANN 框架,遠不只是換個驅動程式。

算子庫要重寫。 CUDA 生態有二十年的累積。每個常用操作——矩陣乘法、卷積、attention——都有經過無數次優化的原生實作。CANN 的算子庫相對年輕,很多操作的效率還有差距。DeepSeek 的 PyTorch 庫提供 CUDA-to-CUNN 轉換工具,號稱降低 80% 遷移成本。但剩下那 20% 往往是最麻煩的。

分散式訓練的穩定性。 訓練一個兆級模型需要數千張晶片同時跑數週。一個節點掛掉,整個訓練任務可能要回滾到上一個 checkpoint。NVIDIA 的 NVLink + InfiniBand 在這方面有多年的工程經驗。Ascend 910C 在穩定性上的表現——業界的共識是「進步很快但還有差距」。

效能差距。 根據公開的基準測試,Ascend 910C 大約達到 NVIDIA H100 60% 的效能。這不是個小數字。如果你用 H100 集群訓練要跑 3 個月,換成 Ascend 可能要 5 個月。而兆級模型的訓練每多一天,成本就多一大筆。

我認為這才是 V4 跳票的根本原因。不是程式碼沒寫完,是硬體基礎設施還在磨合。

社群裡的「V4 Lite」

三月九號,有人在中國科技媒體上報告 DeepSeek 的線上模型悄悄更新了。部分使用者稱之為「V4 Lite」。

DeepSeek 官方沒有確認也沒有否認。

這有幾種可能的解讀:

  1. 漸進式發布策略。 先放一個降規版本測試水溫,蒐集回饋後再放完整版。GPT-4 當年也是先 API 再全面開放。
  2. 華為版本還沒準備好。 V4 可能有兩個版本——一個跑在(不知道從哪弄來的)NVIDIA 硬體上,一個跑在 Ascend 上。NVIDIA 版本先就位,但官方不想承認自己「自主化」的版本還沒到位。
  3. 技術困難比預期大。 兆級 MoE 在 Ascend 上的穩定性問題比想像中嚴重,需要更多時間。

三種都有可能。以 DeepSeek 過去的風格(V3 發布時也是很低調),我傾向第一種。

對開發者來說意味著什麼

如果你現在在用 DeepSeek API,幾件事:

V3.2 短期內不會消失。 DeepSeek 不太會在 V4 發布後立刻退役 V3.2。OpenAI 退役 GPT-5.1 花了快一個月給使用者過渡。

MoE 意味著推理成本可能很低。 320 億活躍參數的推理成本接近 Llama 3 70B 等級,但知識容量是兆級的。如果基準測試的數字是真的(HumanEval 90%),這會是成本效益比最高的模型。

多模態能力值得關注。 原生多模態(不是後接一個 vision encoder)在實際使用中通常表現更連貫。如果 V4 真的能做到文字+圖片+影片在同一個推理 pass 裡處理,這會是比參數量更重要的突破。

中國 AI 自主化的進度指標。 V4 在 Ascend 上的表現,會直接告訴我們:中國 AI 在被切斷 NVIDIA 供應後,到底能走多遠。這影響的不只是 DeepSeek,而是整個中國 AI 產業的天花板。

更大的圖景

三月已經是 AI 模型的「軍備競賽月」。GPT-5.4 在 3/5 發布,Computer Use 成功率超越人類(OSWorld 75.0% vs 人類 72.4%)。Claude Sonnet 4.6 在 GDPval-AA 拿下 1,633 Elo 分。Google Gemini 3.1 Pro 也在二月發布。

DeepSeek V4 如果真的如期到來,加上 Kimi K2(同樣是兆級 MoE,訓練成本僅 460 萬美元),中國 AI 在模型能力上跟美國的差距可能比大家想的小。

但硬體差距是另一回事。

NVIDIA 的 CUDA 生態有二十年的護城河。華為的 CANN 進步很快——MindSpore 框架、CUDA-to-CUNN 轉換工具、跟 DeepSeek 的深度合作——但要在穩定性和效能上追平,需要的不是幾個月,可能是幾年。

V4 的命運,某種程度上就是這個追趕過程的縮影。

如果它在 Ascend 上跑得穩、跑得快,那中國 AI 的「去美化」路線就得到了最有力的驗證。如果它最終還是得靠(透過各種管道取得的)NVIDIA 硬體才能發揮全部實力,那出口管制的效果比外界認為的更顯著。

不管哪種結果,作為開發者,我們都該密切關注。因為這場硬體戰爭的結果,會直接決定未來三到五年全球 AI 算力的版圖。


本文資料來源:TechNode、Tom's Hardware、Awesome Agents、NxCode、DeepSeek 社群報告。基準測試數據為未驗證的內部數據,實際表現以正式發布為準。