kyosora 筆記

你的 AI 應用塞了 50 個工具？GPT-5.4 的 Tool Search 讓你省下一半 token

發表於2026-03-15|AI工具實戰前後端開發

上個月我在幫一個客服系統接 AI，工具列表長到我自己看了都頭痛——查訂單、退款、修改地址、查庫存、轉人工、寄信、查物流……加起來 47 個 function definition。每次 API 呼叫，光是把這些工具塞進 prompt 就吃掉 8,000 多個 token。使用者問一句「我的包裹到哪了」，模型還得先讀完退款政策和寄信格式才能回答。 GPT-5.4 在三月初發佈時帶來的 Tool Search 機制，直接解決了這個問題。問題的根源：你付錢讓模型讀它用不到的東西傳統的 function calling 很直觀——你把所有工具的 JSON schema 丟進 tools 陣列，模型看完後決定要呼叫哪個。問題是，模型不管用不用，都得讀。算一筆帳： 123一個工具定義 ≈ 150-300 tokens30 個工具 ≈ 4,500-9,000 tokens每次對話 10 輪 ≈ 45,000-90,000 tokens 花在重複讀工具定義這些 token 不產生任何價值。它們只是讓模型知道「我有這些能力」，但 90% 的對話只會用到 2-3 個工具。更糟的是，工具太多...

AI 比人類更會操作電腦了：GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事

發表於2026-03-14|AI工具實戰工具與生產力

3 月 5 日，OpenAI 發佈 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了，但我認為真正該被討論的是另一件事：Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率，正式超過人類了。 OSWorld 75%，這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面，給它任務，看它能不能完成。任務長這樣：「找到最近修改過的試算表並打開它」「把 Wi-Fi 切換到辦公室網路」「打開 Chrome，到某個網站，把這份表單填完」都是你每天在做的事。而 GPT-5.4 做這些事的成功率，比被付錢來完美完成任務的人類測試員還高。模型 OSWorld 成功率與人類（72.4%）比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳 AI ~60% -...

當你的 AI Agent 有 500 個工具：從 GPT-5.4 的 Tool Search 看工具管理的正確姿勢

發表於2026-03-12|AI工具實戰

上週我在幫公司的 AI Agent 接上第 47 個 MCP server 時，API 帳單跳了一個數字讓我差點從椅子上摔下來。不是因為用量暴增。是因為每一次 API 呼叫，光是把 36 個 MCP server 的工具定義塞進 context，就吃掉了將近 40,000 tokens。模型還沒開始思考，錢已經燒了一半。 3 月 5 日 OpenAI 發佈 GPT-5.4 時，benchmark 數字和 Computer Use 搶走了所有目光。但對我來說，最值得注意的功能只有一個——Tool Search。工具爆炸問題：你可能已經踩到了先說個數字。一個標準的 function calling 工具定義，包含名稱、描述、參數 schema，平均佔 200-500 tokens。聽起來不多？算一下： 10 個工具 → ~3,000 tokens（還好） 50 個工具 → ~15,000 tokens（開始痛） 200 個工具 → ~60,000 tokens（每次呼叫都在燒錢） 500 個工具 → ~150,000 tokens（恭喜，光工具定義就用掉一般模型 contex...

三月AI模型大亂鬥：GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了

發表於2026-03-08|AI工具實戰AI產業觀察

3 月 5 日，OpenAI 丟出 GPT-5.4。兩週前，Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上，跑分互有勝負，開發者選擇困難症大爆發。我花了幾天把三家的 benchmark 資料、定價和實際使用場景整理了一遍。結論先說：沒有全能冠軍，但各有各的殺手鐧。 GPT-5.4：第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式：看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中，它拿到 75% 的成功率，超越人類的 72.4%。這不是小數字的進步，GPT-5.2 在同一個測試只有 47.3%。另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。硬指標項目 GPT-5.4 跟 GPT-5.2 相比 GDPval（知識工作） 83% 7...