你的 AI 帳單即將縮水 30 倍：一天之內 NVIDIA 和 OpenAI 同時給出的訊號

3 月 16 日晚上，兩件事同時發生。

Jensen Huang 在 GTC 主題演講上揭曉 Groq 3 LPU，宣稱每瓦 tokens 效能提升 35 倍。幾個小時後，Sam Altman 在 X 上發文：GPT-5.2 到 5.4，三個月內效率提升 32 倍，每個任務成本降到 37 美分。

兩家公司，一硬一軟，同一天給出幾乎相同的數字。這不是巧合。

硬體端：Groq 3 LPU 到底是什麼

NVIDIA 在 2025 年底花 200 億美元買下 Groq 的核心團隊和技術。GTC 上第一次展示成果：Groq 3 LPU（Language Processing Unit），專門為推理設計的晶片。

跟 GPU 最大的差異在架構。GPU 用 HBM（高頻寬記憶體）做訓練和推理都行，但推理階段的記憶體存取模式跟訓練完全不同。LPU 用 SRAM 直接塞在晶片上，消除了記憶體瓶頸。結果就是：推理延遲極低，每瓦輸出的 tokens 數量暴增。

NVIDIA 的做法很聰明。LPX 機架裝 256 顆 LPU，設計成放在 Vera Rubin GPU 機架旁邊一起用。訓練用 GPU，推理用 LPU。不是取代，是分工。

35 倍的效能差距是什麼概念？如果你現在跑一個推理服務的電費是每月 10 萬美元，理論上可以降到 3,000 美元以下。當然實際部署沒這麼簡單，但方向已經很清楚了。

Sam Altman 那則推文值得仔細看。他轉推了一張圖表，顯示 GPT-5.2 到 GPT-5.4 的效率提升——三個月，32 倍。

這是什麼意思？同樣完成一個程式碼任務，GPT-5.2 可能要花 12 美元的運算資源。GPT-5.4 只要 37 美分。模型架構優化、推理 pipeline 改進、量化技術進步，全部加在一起。

回頭看 OpenAI 的定價策略就懂了。GPT-5.4 的 API 價格是 $3/$15 per million tokens（輸入/輸出）。放在兩年前，這個效能等級的模型定價會高出一個數量級。

Altman 自己也說了：「I generally agree with this, and really feel it myself on the 5.3 → 5.4 upgrade.」不只是數字上的改進，體感也不一樣。

硬體端（Groq 3 LPU）和軟體端（GPT-5.4 效率）正在做同一件事：把 AI 推理的邊際成本推向零。

但兩者的機制不同：

硬體改進是一次性跳躍。 Groq 3 部署後，跑在上面的所有模型都受益。不需要改程式碼，不需要重新訓練。

軟體改進是持續迭代。 每個新模型版本都能在相同硬體上做更多事。而且迭代速度越來越快——三個月 32 倍，不是三年。

當這兩條曲線疊加，推理成本的下降不是線性的，是指數的。

如果你正在建構 AI 應用，這裡有幾件值得重新考慮的事：

你的成本估算模型可能已經過時。 去年底做的財務規劃，假設了某個 token 單價。那個數字在三個月內可能已經偏差 10 倍以上。如果你的商業模式是建立在「AI 推理很貴」的前提上——比如做推理成本的中間層優化——這個護城河正在消失。

之前因為成本放棄的功能，現在值得重新評估。 即時語音翻譯、逐行程式碼審查、每次 commit 自動跑安全掃描——這些在推理成本 $30/百萬 tokens 時不划算的功能，在 $3 時完全可行。在 $0.3 時，你可以把它做成預設開啟。

本地推理正在變得更實際。 DGX Spark + NemoClaw 的定位就是讓企業在自己的機房跑 agent。如果推理效率繼續以這個速度提升，兩年後在消費級硬體上跑現在的 frontier 模型效能不是不可能。

批次推理和即時推理的成本差距在縮小。 過去做 AI 功能得小心翼翼安排 batch job。35 倍效率之後，很多原本要排隊等的推理任務可以直接即時跑。

推理成本指數下降，但人力成本沒有。

如果一個 AI agent 完成一個任務的成本從 12 美元降到 37 美分，再降到幾美分——那「要不要讓 AI 做這件事」這個問題的答案，會越來越頻繁地變成「為什麼不？」

這不是未來的預測。Sam Altman 已經在 GPT-5.4 上感受到了。Jensen Huang 已經把硬體路線圖排到 2028 年的 Feynman。兩邊都在告訴你同一件事：推理的邊際成本正在趨近於零。

至於這對工程師的工作內容意味什麼——我認為答案不是「被取代」，而是「你要處理的問題層級會往上移」。從「寫程式碼」移動到「設計系統」，從「實作功能」移動到「定義需求」。推理便宜了，判斷力沒有。

但這也代表，一個能善用推理能力的工程師，跟一個還在手動做推理能自動完成的事的工程師之間的生產力差距，會越拉越大。