3 月 5 日,OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了,但我認為真正該被討論的是另一件事:Computer Use。

GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。

AI 操作電腦的成功率,正式超過人類了。

OSWorld 75%,這個數字為什麼重要

先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面,給它任務,看它能不能完成。

任務長這樣:

  • 「找到最近修改過的試算表並打開它」
  • 「把 Wi-Fi 切換到辦公室網路」
  • 「打開 Chrome,到某個網站,把這份表單填完」

都是你每天在做的事。而 GPT-5.4 做這些事的成功率,比被付錢來完美完成任務的人類測試員還高。

模型 OSWorld 成功率 與人類(72.4%)比較
GPT-5.4 75.0% +2.6%
GPT-5.2 47.3% -25.1%
之前最佳 AI ~60% -12.4%

從 47.3% 到 75.0%,單代跳了 27.7 個百分點。GPT-5.2 連及格都沒有,GPT-5.4 直接超越人類。這不是漸進改善,是質變。

Computer Use 怎麼運作

技術上,Computer Use 的運作迴圈分五步:

  1. 你描述目標 — 「打開瀏覽器,到 GitHub 建一個新 repo」
  2. 模型截圖 — 對當前畫面拍截圖,理解螢幕上有什麼
  3. 生成操作指令 — 產出滑鼠點擊座標、鍵盤輸入、捲動動作
  4. 執行 → 驗證 → 修正 — 用 build-run-verify-fix 迴圈自我檢查
  5. 回傳結果 — 完成任務或請求確認

關鍵差異在於:這不是外掛在模型上的工具,而是原生內建的能力。模型直接理解桌面介面的視覺結構——按鈕在哪裡、輸入框是什麼、下拉選單怎麼互動。

Claude 的 Computer Use 從 2024 年 10 月就有了,但走的是 tool-based 路線,透過外部工具鏈銜接。GPT-5.4 把這個能力直接嵌進模型權重裡,少了一層抽象,操作更流暢。

用 API 呼叫 Computer Use 很直接:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
model="gpt-5.4",
tools=[{"type": "computer_use"}],
messages=[
{
"role": "user",
"content": "Open the browser, go to github.com, "
"and create a new repository called 'my-project'"
}
]
)

三行核心程式碼。跟一般 Chat Completions 呼叫的差別只有 tools=[{"type": "computer_use"}]

開發者該注意的三件事

1. 延遲是真實存在的痛

每個操作循環:截圖 → 推理 → 執行 → 截圖驗證。一個簡單的「打開瀏覽器填表單」可能跑 8-10 個循環。每個循環都有模型推理延遲。

我估算一個 10 步驟的任務,端到端延遲大概 30-60 秒。對於批次自動化來說可以接受,但你不會想把它放在用戶等待的即時路徑上。

正確的用法是非同步 + 背景執行。把 Computer Use 當成一個排程任務,不是一個即時 API:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
import asyncio
from openai import AsyncOpenAI

client = AsyncOpenAI()

async def automate_form_filling(form_data: dict):
"""背景執行的表單自動化 — 不要放在 request handler 裡"""
response = await client.chat.completions.create(
model="gpt-5.4",
tools=[{"type": "computer_use"}],
messages=[
{
"role": "system",
"content": "Fill out forms precisely. "
"Verify each field after input."
},
{
"role": "user",
"content": f"Fill the vendor registration form "
f"with: {form_data}"
}
]
)
return response

# 排進任務佇列,不阻塞主執行緒
asyncio.create_task(automate_form_filling(vendor_info))

2. 你需要虛擬顯示環境

Computer Use 需要一個可以截圖的畫面。本機開發沒問題,但部署到伺服器時,你需要跑虛擬顯示。

Linux 上用 Xvfb:

1
2
3
4
5
6
# 啟動虛擬 framebuffer
Xvfb :99 -screen 0 1920x1080x24 &
export DISPLAY=:99

# 跑你的 Python agent
python computer_use_agent.py

Docker 部署的話:

1
2
3
4
5
6
7
8
9
10
FROM python:3.12-slim

RUN apt-get update && apt-get install -y \
xvfb chromium-browser \
&& rm -rf /var/lib/apt/lists/*

ENV DISPLAY=:99

CMD Xvfb :99 -screen 0 1920x1080x24 & \
python agent.py

這不是什麼高深技術,但很多人第一次用會卡在「為什麼伺服器上跑不起來」。因為沒有顯示環境,截圖這一步就直接掛掉了。

3. 不要在高風險操作上放手不管

75% 的成功率聽起來很高,但反過來說,每 4 次操作有 1 次會失敗。失敗的方式可能是:

  • 點錯按鈕
  • 誤判 UI 元素(把「取消」看成「確認」)
  • 在多步驟流程中迷路
  • 遇到意料之外的彈出視窗

所以用 Computer Use 有一個鐵律:凡是不能 undo 的操作,都要加人工確認

刪除檔案、發送郵件、金融交易、簽合約——這些操作前面必須卡一個 checkpoint。把它想成你給實習生的權限管理:能做的事很多,但按下「發送」之前要先讓你看過。

對開發者工作流程的影響

Computer Use 最直接的衝擊是 UI 測試自動化

傳統 E2E 測試用 Playwright 或 Selenium,你要手動定義選擇器、撰寫操作步驟。當 UI 改版,選擇器全部壞掉。Computer Use 用視覺理解畫面,不依賴 DOM 結構,UI 改版對它的影響小得多。

另一個場景是跨系統資料搬運。很多企業內部系統沒有 API,只有 Web UI。以前只能手動複製貼上,現在可以用 Computer Use 自動化:從 CRM 抓資料 → 填進 ERP → 截圖存證。

第三個場景是軟體設定自動化。新員工入職要設定十幾個工具的帳號和偏好設定。Computer Use 可以按照 checklist 逐一執行,比寫 shell script 靈活(因為很多設定只有 GUI,沒有 CLI)。

GPT-5.4 vs Claude:兩條不同的路

現在能做 Computer Use 的有兩家:OpenAI 和 Anthropic。但它們走的路線根本不同。

GPT-5.4 Claude Opus 4.6
架構 原生內建 Tool-based 外掛
OSWorld 75.0% 未公開
強項 桌面自動化、多應用工作流 程式碼、多 agent 協作
定價 $2.50/$15.00(input/output per 1M) 類似價位帶
可用性 API + Codex API + 合作夥伴

GPT-5.4 的優勢是通用性——一個模型搞定 coding、reasoning、computer use。Claude 的優勢是深度——Agent Teams 多 agent 協作、程式碼品質在複雜專案裡更穩定。

我的看法:如果你要做的是「讓 AI 操作一個現有的桌面應用」,GPT-5.4 Computer Use 目前是最好的選擇。如果你要做的是「讓 AI 幫你寫一個複雜系統」,Claude 的程式碼能力和 agent 協作機制更成熟。

這不只是工具升級

從 47.3% 到 75.0%,從「不及格」到「超越人類」,GPT-5.4 的 Computer Use 代表的不只是一個模型版本的進步。它改變了 AI agent 能做什麼事的邊界。

之前的 AI agent 只能操作有 API 的系統。沒有 API?抱歉,做不到。Computer Use 把這個限制拿掉了。任何有畫面的軟體,AI 都能操作。

這意味著 AI agent 的應用場景,從「有 API 的系統」擴大到「所有有 UI 的系統」。Enterprise 環境裡有大量 legacy 系統只有 Web UI 沒有 API,Computer Use 讓這些系統第一次有了被自動化的可能。

75% 的成功率還不夠好到完全取代人類操作員。但從工程角度看,跟一年前的 47.3% 比,改善速度是驚人的。如果明年再跳一代到 85-90%,很多純重複性的電腦操作工作就真的可以全面自動化了。

目前 Computer Use 還在 API 和 Codex 階段,一般 ChatGPT 用戶用不到。但方向很明確。

開發者現在該做的事:開始想你的工作流程裡有哪些「只有 GUI 沒有 API」的系統。那些就是 Computer Use 第一波能解決的問題。