3 月 16 日晚上,兩件事同時發生。

Jensen Huang 在 GTC 主題演講上揭曉 Groq 3 LPU,宣稱每瓦 tokens 效能提升 35 倍。幾個小時後,Sam Altman 在 X 上發文:GPT-5.2 到 5.4,三個月內效率提升 32 倍,每個任務成本降到 37 美分。

兩家公司,一硬一軟,同一天給出幾乎相同的數字。這不是巧合。

硬體端:Groq 3 LPU 到底是什麼

NVIDIA 在 2025 年底花 200 億美元買下 Groq 的核心團隊和技術。GTC 上第一次展示成果:Groq 3 LPU(Language Processing Unit),專門為推理設計的晶片。

跟 GPU 最大的差異在架構。GPU 用 HBM(高頻寬記憶體)做訓練和推理都行,但推理階段的記憶體存取模式跟訓練完全不同。LPU 用 SRAM 直接塞在晶片上,消除了記憶體瓶頸。結果就是:推理延遲極低,每瓦輸出的 tokens 數量暴增。

NVIDIA 的做法很聰明。LPX 機架裝 256 顆 LPU,設計成放在 Vera Rubin GPU 機架旁邊一起用。訓練用 GPU,推理用 LPU。不是取代,是分工。

35 倍的效能差距是什麼概念?如果你現在跑一個推理服務的電費是每月 10 萬美元,理論上可以降到 3,000 美元以下。當然實際部署沒這麼簡單,但方向已經很清楚了。

軟體端:OpenAI 的推理成本曲線

Sam Altman 那則推文值得仔細看。他轉推了一張圖表,顯示 GPT-5.2 到 GPT-5.4 的效率提升——三個月,32 倍。

這是什麼意思?同樣完成一個程式碼任務,GPT-5.2 可能要花 12 美元的運算資源。GPT-5.4 只要 37 美分。模型架構優化、推理 pipeline 改進、量化技術進步,全部加在一起。

回頭看 OpenAI 的定價策略就懂了。GPT-5.4 的 API 價格是 $3/$15 per million tokens(輸入/輸出)。放在兩年前,這個效能等級的模型定價會高出一個數量級。

Altman 自己也說了:「I generally agree with this, and really feel it myself on the 5.3 → 5.4 upgrade.」不只是數字上的改進,體感也不一樣。

兩條曲線正在交會

硬體端(Groq 3 LPU)和軟體端(GPT-5.4 效率)正在做同一件事:把 AI 推理的邊際成本推向零。

但兩者的機制不同:

硬體改進是一次性跳躍。 Groq 3 部署後,跑在上面的所有模型都受益。不需要改程式碼,不需要重新訓練。

軟體改進是持續迭代。 每個新模型版本都能在相同硬體上做更多事。而且迭代速度越來越快——三個月 32 倍,不是三年。

當這兩條曲線疊加,推理成本的下降不是線性的,是指數的。

對開發者來說意味什麼

如果你正在建構 AI 應用,這裡有幾件值得重新考慮的事:

你的成本估算模型可能已經過時。 去年底做的財務規劃,假設了某個 token 單價。那個數字在三個月內可能已經偏差 10 倍以上。如果你的商業模式是建立在「AI 推理很貴」的前提上——比如做推理成本的中間層優化——這個護城河正在消失。

之前因為成本放棄的功能,現在值得重新評估。 即時語音翻譯、逐行程式碼審查、每次 commit 自動跑安全掃描——這些在推理成本 $30/百萬 tokens 時不划算的功能,在 $3 時完全可行。在 $0.3 時,你可以把它做成預設開啟。

本地推理正在變得更實際。 DGX Spark + NemoClaw 的定位就是讓企業在自己的機房跑 agent。如果推理效率繼續以這個速度提升,兩年後在消費級硬體上跑現在的 frontier 模型效能不是不可能。

批次推理和即時推理的成本差距在縮小。 過去做 AI 功能得小心翼翼安排 batch job。35 倍效率之後,很多原本要排隊等的推理任務可以直接即時跑。

一個不太舒服的推論

推理成本指數下降,但人力成本沒有。

如果一個 AI agent 完成一個任務的成本從 12 美元降到 37 美分,再降到幾美分——那「要不要讓 AI 做這件事」這個問題的答案,會越來越頻繁地變成「為什麼不?」

這不是未來的預測。Sam Altman 已經在 GPT-5.4 上感受到了。Jensen Huang 已經把硬體路線圖排到 2028 年的 Feynman。兩邊都在告訴你同一件事:推理的邊際成本正在趨近於零。

至於這對工程師的工作內容意味什麼——我認為答案不是「被取代」,而是「你要處理的問題層級會往上移」。從「寫程式碼」移動到「設計系統」,從「實作功能」移動到「定義需求」。推理便宜了,判斷力沒有。

但這也代表,一個能善用推理能力的工程師,跟一個還在手動做推理能自動完成的事的工程師之間的生產力差距,會越拉越大。

數字總結

指標 數值 來源
Groq 3 LPU 每瓦效能提升 35x NVIDIA GTC 3/16
GPT-5.2 → 5.4 效率提升 32x(3 個月) Sam Altman 3/16
GPT-5.4 每任務成本 $0.37 Sam Altman RT 3/16
Vera Rubin tokens/sec 700M(vs 競爭對手 2M) NVIDIA GTC
NVIDIA 訂單展望 $1T through 2027 Jensen Huang GTC
Feynman 路線圖 2028 NVIDIA GTC

三月十六日這天,硬體和軟體同時給出了 30 倍以上的效率跳躍。如果你在做跟 AI 推理相關的任何事情——建構、部署、定價、規劃——這些數字值得你今天就打開試算表重新算一遍。