三月AI模型大亂鬥：GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了

3 月 5 日，OpenAI 丟出 GPT-5.4。兩週前，Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上，跑分互有勝負，開發者選擇困難症大爆發。

我花了幾天把三家的 benchmark 資料、定價和實際使用場景整理了一遍。結論先說：沒有全能冠軍，但各有各的殺手鐧。

GPT-5.4：第一個真正會用電腦的 AI

OpenAI 這次最大的賣點不是跑分——是 Computer Use。

GPT-5.4 能直接操作桌面應用程式：看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中，它拿到 75% 的成功率，超越人類的 72.4%。這不是小數字的進步，GPT-5.2 在同一個測試只有 47.3%。

另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。

Computer Use 聽起來酷，但實際落地場景還很窄。你真的要讓 AI 操作你的電腦嗎？企業 IT 部門光想到這件事就冒冷汗。不過，如果你在做 RPA（機器人流程自動化）相關的產品，GPT-5.4 的這個能力值得認真評估。

統合模型的方向我認為是對的。過去一年，OpenAI 的模型矩陣讓人頭暈——o1、o3、GPT-5、GPT-5.2、Codex⋯⋯現在收斂成一個就好。

Google 這次在 benchmark 上打了漂亮的一仗。

在 19 項主要測試中，Gemini 3.1 Pro 贏了 12 項。抽象推理（ARC-AGI-2）拿到 77.1%，科學知識（GPQA Diamond）94.3%，都是三家最高。

但 Gemini 3.1 Pro 真正的殺招是定價：1M context 只要 $2/百萬 input tokens。對比 GPT-5.4 的 $2.50，便宜 20%。對比 Claude Opus 4.6⋯⋯那就更不用說了。

Google 同時推出了 Gemini 3.1 Flash-Lite，輸出速度 363 tokens/s，定價只要 $0.25/$1.50（input/output per 1M tokens）。如果你的應用對延遲敏感、要大量呼叫 API，Flash-Lite 是目前市場上性價比最高的選擇。

SmartScope 的分析點出一個問題：Google 宣傳「16 項 benchmark 贏 13 項」，但刻意挑了有利的 benchmark。在寫程式（SWE-Bench）和長文本理解這兩個開發者最在意的場景，Gemini 並沒有明顯優勢。

跑分贏不代表實際體驗贏。這是 AI 產業的老問題了。

Anthropic 沒有大張旗鼓發新模型，但 Claude Opus 4.6 在一個關鍵指標上維持領先——SWE-Bench Verified 拿到 80.8%。

SWE-Bench 測的是什麼？給模型一個真實的 GitHub issue，讓它自己讀 codebase、找到問題、寫 patch 修好。這不是玩具 benchmark，是最接近「AI 能不能替你寫 production code」的測試。

80.8% vs Gemini 的 80.6% vs GPT-5.2 的 80.0%。差距不大，但 Claude 一直穩定在第一。

我在幾個開發者社群觀察到的現象：用 Claude 寫程式的人，黏著度最高。原因不只是跑分。

Claude 的輸出風格比較「工程師友好」——它不會過度解釋、不會加一堆你沒問的東西。回覆結構清晰，程式碼品質穩定。用過一陣子之後，你會發現自己越來越少需要修改它的產出。

Anthropic 的劣勢在 context 長度和價格。目前 Opus 4.6 的定價在三家中最高，這對 token 消耗量大的應用場景是個問題。

我整理了一個簡單的決策框架：