3 月 5 日,OpenAI 丟出 GPT-5.4。兩週前,Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上,跑分互有勝負,開發者選擇困難症大爆發。
我花了幾天把三家的 benchmark 數據、定價和實際使用場景整理了一遍。結論先說:沒有全能冠軍,但各有各的殺手鐧。
GPT-5.4:第一個真正會用電腦的 AI
OpenAI 這次最大的賣點不是跑分——是 Computer Use。
GPT-5.4 能直接操作桌面應用程式:看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中,它拿到 75% 的成功率,超越人類的 72.4%。這不是小數字的進步,GPT-5.2 在同一個測試只有 47.3%。
另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。
硬指標
| 項目 | GPT-5.4 | 跟 GPT-5.2 相比 |
|---|---|---|
| GDPval(知識工作) | 83% | 70.9% → 83% |
| OSWorld(電腦操作) | 75% | 47.3% → 75% |
| 事實錯誤率 | 降 33% | 單一聲明錯誤率 |
| 完整回覆錯誤率 | 降 18% | 含錯誤的回覆比例 |
| 上下文窗口 | 1M tokens | API 可用 |
我的觀察
Computer Use 聽起來酷,但實際落地場景還很窄。你真的要讓 AI 操作你的電腦嗎?企業 IT 部門光想到這件事就冒冷汗。不過,如果你在做 RPA(機器人流程自動化)相關的產品,GPT-5.4 的這個能力值得認真評估。
統合模型的方向我認為是對的。過去一年,OpenAI 的模型矩陣讓人頭暈——o1、o3、GPT-5、GPT-5.2、Codex⋯⋯現在收斂成一個就好。
Gemini 3.1 Pro:跑分之王,價格殺手
Google 這次在 benchmark 上打了漂亮的一仗。
在 19 項主要測試中,Gemini 3.1 Pro 贏了 12 項。抽象推理(ARC-AGI-2)拿到 77.1%,科學知識(GPQA Diamond)94.3%,都是三家最高。
但 Gemini 3.1 Pro 真正的殺招是定價:1M context 只要 $2/百萬 input tokens。對比 GPT-5.4 的 $2.50,便宜 20%。對比 Claude Opus 4.6⋯⋯那就更不用說了。
Gemini 的隱藏優勢
Google 同時推出了 Gemini 3.1 Flash-Lite,輸出速度 363 tokens/s,定價只要 $0.25/$1.50(input/output per 1M tokens)。如果你的應用對延遲敏感、要大量呼叫 API,Flash-Lite 是目前市場上性價比最高的選擇。
但 Google 沒告訴你的事
SmartScope 的分析點出一個問題:Google 宣傳「16 項 benchmark 贏 13 項」,但刻意挑了有利的 benchmark。在寫程式(SWE-Bench)和長文本理解這兩個開發者最在意的場景,Gemini 並沒有明顯優勢。
跑分贏不代表實際體驗贏。這是 AI 產業的老問題了。
Claude Opus 4.6:寫程式還是它最穩
Anthropic 沒有大張旗鼓發新模型,但 Claude Opus 4.6 在一個關鍵指標上維持領先——SWE-Bench Verified 拿到 80.8%。
SWE-Bench 測的是什麼?給模型一個真實的 GitHub issue,讓它自己讀 codebase、找到問題、寫 patch 修好。這不是玩具 benchmark,是最接近「AI 能不能替你寫 production code」的測試。
80.8% vs Gemini 的 80.6% vs GPT-5.2 的 80.0%。差距不大,但 Claude 一直穩定在第一。
開發者為什麼偏好 Claude
我在幾個開發者社群觀察到的現象:用 Claude 寫程式的人,黏著度最高。原因不只是跑分。
Claude 的輸出風格比較「工程師友好」——它不會過度解釋、不會加一堆你沒問的東西。回覆結構清晰,程式碼品質穩定。用過一陣子之後,你會發現自己越來越少需要修改它的產出。
Anthropic 的劣勢在 context 長度和價格。目前 Opus 4.6 的定價在三家中最高,這對 token 消耗量大的應用場景是個問題。
三家模型該怎麼選
我整理了一個簡單的決策框架:
| 你的需求 | 首選模型 | 原因 |
|---|---|---|
| 寫程式、修 bug、code review | Claude Opus 4.6 | SWE-Bench 最高,開發者體驗最好 |
| 自動化桌面操作、RPA | GPT-5.4 | 唯一有 Computer Use 的前沿模型 |
| 科學推理、學術研究 | Gemini 3.1 Pro | GPQA 和 ARC-AGI-2 最高 |
| 大量 API 呼叫、預算有限 | Gemini 3.1 Flash-Lite | 最便宜,速度最快 |
| 企業知識工作、複雜流程 | GPT-5.4 | GDPval 83%,知識工作能力最強 |
| 長文本處理(>500K tokens) | Gemini 3.1 Pro 或 GPT-5.4 | 都支援 1M context |
真正的趨勢:模型不重要,路由才重要
三月的 AI 格局讓一件事變得很明確:沒有人需要只用一個模型。
Perplexity 推出了「模型議會」功能,讓多個模型同時回答同一個問題,再整合最佳結果。這不是噱頭——當每個模型都有強項和弱項,智慧路由(smart routing)才是真正的基礎設施。
我認為 2026 下半年會看到更多這類產品:前端是統一的介面,後端根據任務類型自動選模型。寫程式走 Claude,推理走 Gemini,操作電腦走 GPT-5.4。使用者不需要知道背後是誰在跑。
這對開發者的啟示是:不要把你的產品綁死在單一模型上。設計好抽象層,讓模型切換的成本趨近於零。
我的判斷
GPT-5.4 的 Computer Use 是這一輪最有想像空間的功能,但離大規模落地還有一段路。Gemini 3.1 Pro 的性價比會吸引大量中小企業和新創團隊。Claude Opus 4.6 會繼續是工程師的首選寫程式助手。
三家都沒有拉開絕對差距。對使用者來說,這是好事——競爭越激烈,價格越便宜,功能迭代越快。
對開發者來說,現在最該投資的不是選哪個模型,而是建好你的模型抽象層和 prompt 管理系統。因為三個月後,這張比較表又會完全不一樣。
