kyosora 筆記

發表於2026-03-14|AI工具實戰AI產業觀察

DeepSeek V4 原定三月第一週發布。現在三月過了一半，官方一個字都沒說。這不是一般的軟體延遲。這是中國 AI 產業第一次嘗試在非 NVIDIA 硬體上訓練兆級參數模型，而現實比預期殘酷。 V4 到底是什麼先說結論：如果 DeepSeek V4 真的發布，它會是目前最大的開源模型。兆級參數的 Mixture-of-Experts（MoE）架構，每個 token 只啟用約 320 億參數。Top-16 路由策略——模型裡有上千個「專家」，每次推理只叫醒最相關的 16 個。這意味著你可以用 320 億參數的算力成本，得到兆級參數的知識容量。 V4 的架構有三個值得注意的設計： Manifold-Constrained Hyper-Connections。解決 MoE 的老問題：專家之間不夠互通。傳統 MoE 的專家各做各的，資訊共享效率差。這個機制讓跨專家的資訊利用率提升了約 40%，同時不增加計算成本。這不是微調，是結構性改進。 Engram Conditional Memory。處理超長 context 時動態維護關鍵資訊索引。白話說：在 100 萬 token 的...