三月AI模型大亂鬥:GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了
3 月 5 日,OpenAI 丟出 GPT-5.4。兩週前,Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上,跑分互有勝負,開發者選擇困難症大爆發。 我花了幾天把三家的 benchmark 數據、定價和實際使用場景整理了一遍。結論先說:沒有全能冠軍,但各有各的殺手鐧。 GPT-5.4:第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式:看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中,它拿到 75% 的成功率,超越人類的 72.4%。這不是小數字的進步,GPT-5.2 在同一個測試只有 47.3%。 另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。 硬指標 項目 GPT-5.4 跟 GPT-5.2...
