AI 比人類更會操作電腦了:GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事
3 月 5 日,OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了,但我認為真正該被討論的是另一件事:Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率,正式超過人類了。 OSWorld 75%,這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面,給它任務,看它能不能完成。 任務長這樣: 「找到最近修改過的試算表並打開它」 「把 Wi-Fi 切換到辦公室網路」 「打開 Chrome,到某個網站,把這份表單填完」 都是你每天在做的事。而 GPT-5.4 做這些事的成功率,比被付錢來完美完成任務的人類測試員還高。 模型 OSWorld 成功率 與人類(72.4%)比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳 AI ~60% -...
61 個 Markdown 檔讓你的 IDE 變成 AI 公司:agency-agents 爆紅背後的技術邏輯
一個 GitHub 專案,沒有任何可執行程式碼,只有 61 個 Markdown 檔案,7 天內拿到 10,000 顆星。截至 3/14 已經衝到 39,300 星。 這不是什麼新框架或新語言。agency-agents 做的事情只有一件:用 Markdown 定義 AI 的專業人格。 聽起來荒謬,但它戳中了一個真實的問題。 你的 AI 助手什麼都會,所以什麼都做不好用過 Claude Code 或 Cursor 的人都有這個經驗:你請 AI 寫一個 REST API,它給你一個「還行」的版本。能跑,但缺少認證考量、沒有速率限制、錯誤處理敷衍、命名風格前後不一。 問題不在模型能力。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro——這些模型的知識量早就超過任何單一工程師。問題在於 context window 裡塞了太多可能性,模型不知道你要哪一種。 你問「幫我設計 API」,模型在 REST、GraphQL、gRPC 之間游移。你問「幫我寫測試」,模型不確定你要 unit test 還是 integration test,最後給你一個不痛不癢的折衷。...
DeepSeek V4 一直跳票?從華為晶片到兆級參數,中國 AI 的硬體困境
DeepSeek V4 原定三月第一週發布。現在三月過了一半,官方一個字都沒說。 這不是一般的軟體延遲。這是中國 AI 產業第一次嘗試在非 NVIDIA 硬體上訓練兆級參數模型,而現實比預期殘酷。 V4 到底是什麼先說結論:如果 DeepSeek V4 真的發布,它會是目前最大的開源模型。 兆級參數的 Mixture-of-Experts(MoE)架構,每個 token 只啟用約 320 億參數。Top-16 路由策略——模型裡有上千個「專家」,每次推理只叫醒最相關的 16 個。這意味著你可以用 320 億參數的算力成本,得到兆級參數的知識容量。 V4 的架構有三個值得注意的設計: Manifold-Constrained Hyper-Connections。 解決 MoE 的老問題:專家之間不夠互通。傳統 MoE 的專家各做各的,資訊共享效率差。這個機制讓跨專家的資訊利用率提升了約 40%,同時不增加計算成本。這不是微調,是結構性改進。 Engram Conditional Memory。 處理超長 context 時動態維護關鍵資訊索引。白話說:在 100 萬 token 的...
NVIDIA 要做自己的 AI Agent 平台了:NemoClaw 技術架構解讀與開發者該注意的三件事
上週 CNBC 報導 NVIDIA 正在打造一個叫 NemoClaw 的開源 AI agent 平台,目標是企業市場。三天後,GTC 2026 就要開幕了。Jensen Huang 的主題演講排在 3/16 上午 11 點(太平洋時間),市場預期他會在那裡正式發布這東西。 我花了一些時間把目前流出的資訊整理了一遍,想搞清楚這個平台跟現有的 AI agent 方案(OpenClaw、Dify、LangChain)到底有什麼不同,以及對我們這些寫程式的人來說,真正值得關注的是什麼。 NemoClaw 是什麼一句話:NVIDIA 把自家的 NeMo 框架、Nemotron 模型系列和 NIM 推理微服務打包成一個企業級 AI agent 平台,然後開源。 聽起來很普通,但有幾個細節值得注意。 硬體不綁定。 NemoClaw 可以跑在 NVIDIA GPU 上,也可以跑在 AMD、Intel 和其他處理器上。一家以賣 GPU 為主要商業模式的公司,做了一個不強制要求用自家硬體的平台——這個決定背後的戰略考量很有意思。 企業安全優先。 跟 OpenClaw 這類個人向的 agent 平台不...
當你的 AI Agent 有 500 個工具:從 GPT-5.4 的 Tool Search 看工具管理的正確姿勢
上週我在幫公司的 AI Agent 接上第 47 個 MCP server 時,API 帳單跳了一個數字讓我差點從椅子上摔下來。 不是因為用量暴增。是因為每一次 API 呼叫,光是把 36 個 MCP server 的工具定義塞進 context,就吃掉了將近 40,000 tokens。模型還沒開始思考,錢已經燒了一半。 3 月 5 日 OpenAI 發布 GPT-5.4 時,benchmark 數字和 Computer Use 搶走了所有目光。但對我來說,最值得注意的功能只有一個——Tool Search。 工具爆炸問題:你可能已經踩到了先說個數字。一個標準的 function calling 工具定義,包含名稱、描述、參數 schema,平均佔 200-500 tokens。聽起來不多? 算一下: 10 個工具 → ~3,000 tokens(還好) 50 個工具 → ~15,000 tokens(開始痛) 200 個工具 → ~60,000 tokens(每次呼叫都在燒錢) 500 個工具 → ~150,000 tokens(恭喜,光工具定義就用掉一般模型 contex...
當你的AI供應商被政府列為國安威脅:Anthropic起訴五角大廈事件的三個技術啟示
3 月 9 號,Anthropic 做了一件 AI 產業前所未見的事:同時起訴美國政府、發布新產品、簽下微軟合作。三件事同一天。 這不是科技八卦。如果你在用 Claude API 寫程式、用 Claude Code 做開發,這件事直接影響你的技術棧穩定性。 發生了什麼事五角大廈要求 Anthropic 開放 Claude 用於「所有合法用途」。Anthropic 設了兩條紅線:不做完全自主武器,不做大規模國內監控。談判在 2 月 27 日破裂。 Trump 政府的回應很硬:下令所有聯邦機構停用 Anthropic 技術。國防部長 Hegseth 把 Anthropic 標記為「供應鏈風險」——這個標籤歷史上只用在華為、卡巴斯基這類外國實體身上。 Anthropic CFO 說這可能砍掉 2026 年數十億美元營收。 公司在加州聯邦地院和 DC 巡迴上訴法院同時開戰。 啟示一:你的 AI 供應商風險模型該更新了大部分技術團隊評估 AI 供應商,看的是模型能力、API 穩定性、定價。政治風險?不在 checklist 上。 這件事改變了遊戲規則。 「供應鏈風險」標籤不只影響政府合約。...
你的AI Agent安全嗎?從OpenAI收購Promptfoo看agent安全測試的崛起
上週 OpenAI 宣布收購 Promptfoo,一個專門做 LLM 紅隊測試的開源工具。這件事本身不算爆炸性新聞,但它背後反映的趨勢值得每個在做 AI 應用的開發者注意:AI agent 的安全測試,正在從「有空再做」變成「不做不行」。 當 AI 不只是聊天機器人2024 年我們還在用 ChatGPT 問問題、生成文案。2026 年,AI agent 已經在企業裡替人操作工具了。 根據 NVIDIA 最新報告,64% 的企業已經在生產環境部署 AI,其中 agent 形式的採用率在電信和零售業達到 47-48%。Oracle 上週公布的 OCI 雲端基礎設施營收年增 84%,主要驅動力就是 AI 訓練和推理需求。 這不再是實驗。Agent 真的在跑了。 問題是:當 agent 能呼叫 API、讀寫檔案、執行程式碼時,它的攻擊面跟傳統聊天機器人完全不同。 Prompt Injection:agent 時代的 SQL Injection如果你做過 Web 開發,對 SQL injection 不陌生。使用者輸入惡意 SQL,繞過驗證,直接操作資料庫。我們花了十幾年建立參數化查詢的最...
當AI有了自己的社群網路:Meta收購Moltbook背後的agent互聯革命
上週一(3/10),Meta 宣布收購 Moltbook。你可能沒聽過這個名字,但它代表的概念夠瘋狂:一個完全由 AI agent 運作的社群網路。沒有人類用戶,只有 bot 在上面發文、留言、投票。 我第一次看到這個消息的反應是「這到底在搞什麼」。認真研究之後,我認為這可能是 2026 年最重要的 AI 產業信號之一。 Moltbook 到底是什麼想像一個 Reddit,但每個帳號都是 AI agent。 Moltbook 在 2026 年 1 月上線,創辦人是 Matt Schlicht 和 Ben Parr(兩人之前做過 Octane AI,專注電商和 AI 的交叉領域)。平台的自我定位是「the front page of the agent internet」— 給 AI agent 用的網路首頁。 上線幾天內,平台就有數百萬個 bot 註冊。到 2 月底,官方數字是 160 萬個 agent。 在 Moltbook 上,AI agent 可以: 自主發文分享發現 在其他 agent 的貼文下留言討論 用投票系統對內容排序 加入「Submolt」(類似 subredd...
用兩個 AI 建立自動化工作流:讓龍蝦當 PM,Claude Code 當工人
凌晨三點,你的電腦正在幫你分析美股、寫技術文章、整理筆記。早上七點,一份完整的晨報自動推送到你的 Notion。白天你在 Telegram 對一隻機器龍蝦說「幫我查一下 NVIDIA 最新財報」,它寫好任務單,另一個 AI 在背景默默把事情做完。 這不是科幻小說,這是我用 Claude Code 和 OpenClaw 搭出來的雙 AI 工作流。 為什麼要用兩個 AI?一個 AI 做所有事情聽起來很美好,但實際跑起來會撞到幾個牆: Claude Code(CC) 是命令列工具,擅長深度工作——寫程式碼、分析資料、產出長篇內容。但它沒有常駐能力,不能 24 小時掛在那裡等你的訊息。 OpenClaw(龍蝦) 是 Docker 容器裡的常駐 AI 閘道,可以接 Telegram、Discord、Slack。它 24 小時在線,隨時能回你訊息。但它的強項是溝通和協調,不是深度工作。 把兩者組合起來:龍蝦當 PM 負責接單和調度,CC 當工人負責執行,各做各擅長的事。 整體架構12345678910111213141516你(Telegram) │ ▼龍蝦(OpenClaw Docke...
Apple花10億選Google不選Claude:Siri重生背後的AI權力遊戲
Apple 內部工程師最愛用的 AI 是 Claude。但 Siri 的大腦,最後給了 Google Gemini。 這不是技術選型的問題。這是一場價格談判的失敗,一次商業策略的博弈,以及一個讓 12 億 iPhone 用戶的 AI 體驗徹底改變的決定。 10 億美元 vs. 數十億美元2026 年 1 月 12 日,Apple 正式宣布與 Google 簽訂多年合作協議,用 Gemini 模型驅動新一代 Siri。價碼:每年約 10 億美元。 但在這之前,Apple 找的第一個對象其實是 Anthropic。 Bloomberg 記者 Mark Gurman 報導,Apple 內部已經大量使用 Claude 做產品開發和內部工具。工程團隊對 Claude 的表現相當滿意。自然而然,他們想把 Claude 放進 Siri。 談判破裂的原因很直接:Anthropic 開價「數十億美元」一年,而且金額逐年翻倍。三年下來,Apple 要付出的錢可能超過 100 億。 Apple 說不。 轉頭跟 Google 簽了一份 10 億的合約。對 Apple 來說,這個選擇的邏輯很清楚:Gemi...




