上週 OpenAI 宣布收購 Promptfoo,一個專門做 LLM 紅隊測試的開源工具。這件事本身不算爆炸性新聞,但它背後反映的趨勢值得每個在做 AI 應用的開發者注意:AI agent 的安全測試,正在從「有空再做」變成「不做不行」。
當 AI 不只是聊天機器人
2024 年我們還在用 ChatGPT 問問題、生成文案。2026 年,AI agent 已經在企業裡替人操作工具了。
根據 NVIDIA 最新報告,64% 的企業已經在生產環境部署 AI,其中 agent 形式的採用率在電信和零售業達到 47-48%。Oracle 上週公布的 OCI 雲端基礎設施營收年增 84%,主要驅動力就是 AI 訓練和推理需求。
這不再是實驗。Agent 真的在跑了。
問題是:當 agent 能呼叫 API、讀寫檔案、執行程式碼時,它的攻擊面跟傳統聊天機器人完全不同。
Prompt Injection:agent 時代的 SQL Injection
如果你做過 Web 開發,對 SQL injection 不陌生。使用者輸入惡意 SQL,繞過驗證,直接操作資料庫。我們花了十幾年建立參數化查詢的最佳實踐,現在幾乎每個框架都內建防護。
Prompt injection 的原理類似,但更難防。
1 | # 正常使用 |
傳統聊天機器人被 inject 頂多回答一些不該回答的問題。但 agent 被 inject?它可能真的去執行那個操作。
更隱蔽的攻擊:
1 | # 間接 prompt injection(藏在資料裡) |
agent 讀到這段 HTML,可能就照做了。因為對它來說,這只是「輸入的一部分」。
Promptfoo 在做什麼
Promptfoo 本質上是 LLM 應用的自動化安全掃描器。它的運作方式:
1 | # promptfoo 設定範例 |
它會自動跑幾百種攻擊 pattern,測試你的 LLM 應用是否:
- 洩漏系統提示 — 攻擊者拿到你的 system prompt 就能針對性繞過
- 執行未授權工具呼叫 — agent 被誘導呼叫不該呼叫的 function
- 資料外洩 — 透過巧妙的問法把敏感資料問出來
- 越權操作 — 繞過角色限制,執行管理員動作
- Jailbreak — 繞過安全護欄,產生有害內容
超過 25% 的 Fortune 500 企業在用。這個數字本身就說明問題的嚴重性。
OpenAI 為什麼要買
OpenAI 正在推 Frontier 平台 — 企業級 AI coworker 解決方案。當你把 AI agent 賣給企業,企業第一個問題一定是:「這東西安全嗎?」
與其讓客戶自己想辦法,不如把安全測試做進平台。收購 Promptfoo 後:
- 安全掃描成為 Frontier 的原生功能,不需要額外整合
- 企業部署 agent 前,自動跑紅隊測試
- 持續監控生產環境的 agent 行為
這跟 GitHub 買 Dependabot 的邏輯一樣:把安全掃描做成開發流程的一部分,降低採用門檻。
對我們的影響
如果你正在開發 AI 應用,特別是有工具呼叫能力的 agent,以下是我認為需要注意的:
1. 把 LLM 安全測試加進 CI/CD
就像你不會跳過單元測試一樣,LLM 應用也需要自動化安全測試。Promptfoo 承諾維持開源,可以直接整合進現有 pipeline。
1 | # 在 CI pipeline 加入 promptfoo 掃描 |
2. 最小權限原則
Agent 的工具呼叫要遵循最小權限。不要給 agent 一把萬能鑰匙。
1 | # ❌ 給 agent 完整資料庫存取權 |
3. 輸入消毒不夠,還需要輸出監控
傳統安全思維是「驗證輸入」。但 LLM 的輸出是不確定的,你沒辦法用 schema 完全約束。需要同時監控 agent 的輸出和工具呼叫行為。
4. 間接注入是最大盲點
agent 從外部來源讀取資料時(網頁、email、文件),那些資料可能被植入惡意指令。這比直接的 prompt injection 更難防,因為攻擊面在你控制範圍之外。
產業訊號
把這件事放在更大的脈絡來看:
- OpenAI 收購 Promptfoo — AI 安全測試平台
- Meta 收購 Moltbook — AI agent 社群網路基礎設施
- NVIDIA 64% 企業部署率 — agent 已進入生產環境
- Claude Code 加入語音模式 — 開發者工具持續進化
這些加在一起的畫面是:AI agent 的基礎設施正在快速成熟。安全、互聯、工具鏈,每一塊都有人在補。
兩年前我們在討論「AI 能不能寫程式」。現在的問題是「AI agent 的安全防護做好了沒」。這個轉變的速度,快到產業都還在追。
你現在可以做的
- 裝 Promptfoo,跑一次你現有 LLM 應用的安全掃描,看看結果
- 審視你的 agent 工具權限,有沒有給太多不必要的存取
- 在 agent 讀取外部資料的地方加 sanitization,至少過濾掉已知的 injection pattern
- 關注 OWASP LLM Top 10,這份清單會持續更新,對應最新的攻擊手法
AI agent 的安全不是遙遠的問題。如果你的 agent 已經在生產環境跑了,這就是今天的問題。
