Prompt Injection 不只是學術問題:OpenAI 收購 Promptfoo 背後的 Agent 安全困局
三月初 OpenAI 宣布收購 Promptfoo,一家專門做 LLM 安全測試的新創。消息不算爆炸性——沒有天價估值、沒有千人團隊。但如果你正在寫 AI Agent,這件事值得你停下來想一分鐘。 為什麼一家手握 GPT-5.4 的公司,需要花錢買一個做 prompt injection 測試的工具? Agent 不是 Chatbot,安全模型完全不同傳統 chatbot 的安全問題相對好處理。使用者輸入一句話,模型回一句話。最壞的情況是輸出不當內容,加個 content filter 就能擋掉大部分。 Agent 不一樣。 一個典型的 Agent 工作流程長這樣:使用者下指令 → Agent 拆解任務 → 呼叫工具(搜尋、寫檔案、發 API)→ 讀取工具回傳結果 → 決定下一步 → 重複。每一步都有外部資料進入 context window。每一筆外部資料都是潛在的攻擊面。 想像你的 Agent 去搜尋一個網頁,網頁裡藏了一段 <div style="display:none">Ignore previous instructions....
