當攻擊者也有了 AI Agent:地下論壇討論量暴增 1500%,agentic 攻擊框架長什麼樣
Flashpoint 的 2026 全球威脅情報報告揭露了一個數字:2025 年 11 月到 12 月之間,地下論壇裡關於「用 AI 做壞事」的討論從 36.2 萬則暴增到超過 600 萬則。漲幅 1,500%。 這不再是「用 ChatGPT 寫釣魚信」的等級。攻擊者已經建出了全自動化的 agentic 攻擊框架——能自主執行偵察、產生釣魚內容、測試竊取的憑證、輪換基礎設施,整個過程不需要人類持續介入。 從好奇到量產:地下論壇裡發生了什麼Flashpoint 的研究團隊分析了 2025 年 1 月到 7 月間數十個網路犯罪論壇的對話。活動集中在 XSS、BreachForums、Dread 和 Exploit.in 這幾個知名平台。 四個主題佔據了絕大部分討論: 劫持主流 AI 服務:繞過 ChatGPT、Claude 的安全限制,讓它們產生惡意內容 推銷犯罪用 AI 產品:專門為攻擊設計的 AI 工具,在論壇上像 SaaS 一樣販售 微調模型做特定攻擊:針對特定產業或攻擊類型調整模型 討論操作風險:用 AI 攻擊時如何避免被追蹤 到了 11、12...
一台 Mac mini 變成 24 小時 AI 員工:Perplexity Personal Computer 的架構野心
3 月 11 日,Perplexity 在首屆 Ask 開發者大會上發表了 Personal Computer。不是一台新電腦,而是一套軟體——裝在你的 Mac mini 上,讓它變成一個 24 小時不關機的 AI 員工。 月費 200 美元。每個敏感操作需要你點一下「同意」。有 kill switch。 企業版的宣傳數字是「四週完成 3.25 年的工作量」。先別急著翻白眼,架構本身值得拆解。 三種「AI 控制你的電腦」路線2026 年至少有五家在做這件事。但技術路線完全不同: 產品 路線 核心差異 Perplexity Personal Computer 本地硬體 + 雲端大腦 Mac mini 24 小時跑,agent 直接存取本地檔案和 app Claude Computer Use 螢幕操控 看螢幕、移滑鼠、點按鈕,模擬人類操作 ChatGPT Agent Mode 雲端 agent 在 OpenAI 的伺服器上執行任務,透過 API 和工具完成 Microsoft Copilot 深度 OS 整合 綁定 Windows 和 Office...
你的商品開始在 ChatGPT 裡被賣了:Shopify Agentic Storefronts 技術拆解
3 月 24 日,Shopify 把 560 萬家商店的商品直接塞進了 ChatGPT、Google AI Mode、Microsoft Copilot 和 Gemini 的對話裡。不需要商家安裝任何 app,不需要額外設定,預設就開。 這不是「未來的電商趨勢」。這是上週發生的事。 發生了什麼事一個消費者在 ChatGPT 裡問「推薦一款適合冬天跑步的防風外套」,ChatGPT 直接列出商品、價格、評價,點擊後跳轉到商家網站完成購買。整個流程中,消費者不需要打開 Google、不需要逛電商平台、不需要比價網站。 數字說話:AI 導流量比 2025 年 1 月成長 7 倍,AI 歸因訂單成長 11 倍。Shopify 一口氣讓 560 萬商家對接 ChatGPT 的 8.8 億月活用戶。 技術架構:三層堆疊Shopify 不是簡單地把商品目錄丟給 ChatGPT。背後是一套完整的 agentic commerce 架構。 第一層:Shopify CatalogShopify 用自家的 LLM 自動分類和標註商品資料。關鍵在於——AI agent 不讀 HTML...
Meta 的 HyperAgents:AI Agent 開始改進自己的改進方式了
Meta 發了一篇論文叫 HyperAgents,副標題是「Self-referential self-improving agents that can optimize for any computable task」。GitHub 上已經開源,1.6k stars。 讓我把它翻譯成人話:一個 AI agent 不只能改進自己解題的方式,還能改進「自己改進自己」的方式。 聽起來像繞口令。但它指向的方向,值得每個做 AI 應用的開發者留意。 問題:現有的自我改進都卡在一個地方AI agent 的「自我改進」不是新概念。最直觀的版本:agent 跑完一個任務,回頭看看哪裡做得不好,調整策略,下次做得更好。OpenAI 的 o1 用的 self-play、DeepSeek 的 self-improvement、還有去年的 Darwin Gödel Machine(DGM),都是這個思路的變體。 DGM 特別有意思——它能自己修改自己的程式碼,然後測試修改後的版本是否更好。在 coding 領域效果很棒,因為「改善 coding...
Claude 寫、Codex 審:Agent-to-Agent 配對程式設計到底有沒有用?
一個人寫程式碼容易盲點。所以我們發明了 pair programming——兩個人看同一份程式碼,一個寫、一個審。 現在有人問:如果兩個都換成 AI 呢? 這個概念從哪來Axel Delafosse 在他的部落格上發了一篇「Agent-to-agent pair programming」,在 HN 拿了 97 分和 34 則討論。核心想法:讓 Claude Code 負責寫程式碼,讓 OpenAI Codex 負責 review,兩個 agent 在同一個 codebase 上來回迭代,直到 review 通過。 不是人 + AI,是 AI + AI。人類退到 supervisor 的角色——設定目標、審核最終結果,中間過程交給兩個 agent 自己跑。 實際怎麼運作目前有幾種做法在社群裡流通: 手動切換派。 最原始但很多人在用。Claude Code 寫完一個 feature,把 diff 丟給 Codex review。Codex 找到問題,人類把 review 結果貼回 Claude Code。來回幾輪直到通過。HN 上有人提到做了 10-15 輪...
一天、$400 的 token、年省 $500K:Reco 用 AI 重寫 JSONata 的真實帳本
Reco(一家 SaaS 安全公司)用 AI 在七小時內把 JSONata 從 JavaScript 重寫成 Go,產出 13,000 行程式碼,通過 1,778 個測試案例。token 花費 $400。上線後每月省 $25,000 compute 費用,加上後續的 pipeline 優化,年省 $500K。 這個故事在 Hacker News 上拿了 207 分和 186 則討論。數字很吸睛,但真正值得學的不是數字——是他們怎麼確保 AI 生成的 13,000 行程式碼不會在生產環境炸掉。 問題:一條昂貴的語言邊界Reco 有一個 policy engine,用 JSONata(一種 JSON 查詢和轉換語言,類似 jq 但有 lambda)對資料管線中的每條事件做規則比對。幾十億條事件,上千條規則。 JSONata 的參考實作是 JavaScript。Reco 的 pipeline 是 Go。所以他們多年來一直在 Kubernetes 上跑一整組 Node.js pod——Go 服務透過 RPC 呼叫 Node.js 來做 JSONata 運算。 每次呼叫的代價:序列化 →...
一張 $500 的顯卡跑贏 Claude Sonnet?ATLAS 專案的 benchmark 數字背後
「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分,208 則討論。一個叫 ATLAS 的開源專案,用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型,在 LiveCodeBench 上拿到 74.6%,超過 Claude 4.5 Sonnet 的 71.4%。 聽起來像是本地派的勝利號角。但數字不說謊,數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路:不微調模型,不呼叫 API,而是在推理時用「智慧基礎設施」包裝一個凍結的小模型,讓它表現得像大模型。 具體來說,它有三個階段: Phase 1:生成。 用 PlanSearch 從題目中提取約束條件,生成多樣化的解題計畫,然後控制 thinking token 的 budget,產出 k=3 個候選答案。 Phase 2:篩選。 用...
你的 AI 開發工具鏈被下毒了嗎?LiteLLM 供應鏈攻擊事件完整解析
2026 年 3 月 24 日上午 10:52 UTC,有人把一個藏了後門的 litellm 1.82.8 推上了 PyPI。六分鐘後,一位工程師的筆電因為 11,000 個 Python 程序同時爆開而當機。 他原本以為是 Cursor 更新搞的鬼。結果是一場精心設計的供應鏈攻擊——而且他是全世界第一個發現的人。 事件怎麼發生的litellm 是 AI 開發圈的常客。做 LLM 應用的人幾乎都用過它——統一呼叫 OpenAI、Anthropic、Gemini 等不同模型 API 的 proxy 層。PyPI 上的週下載量是百萬級別。 攻擊者拿到了 litellm 的 PyPI 發布權限(很可能是維護者帳號被盜),直接推了一個 1.82.8 版本上去。GitHub 上完全沒有對應的 tag 或 release——繞過了正常的發布流程。 惡意程式碼藏在一個叫 litellm_init.pth 的檔案裡。.pth 是 Python 的一個古老機制:放在 site-packages 目錄下的 .pth 檔案,會在每次 Python 啟動時自動執行。不需要...
Sora 之死不是敗給誰——是 OpenAI 在 IPO 前算了一筆帳
3 月 24 日,OpenAI 宣布全面關閉 Sora——app 砍了、API 砍了、ChatGPT 裡的影片生成也砍了。Disney 那筆 10 億美元的投資?胎死腹中,一毛錢都沒付出去。 群組裡在喊「Sora 已死」,不少人第一反應是「被 Seedance 打爆了吧?」 沒那麼簡單。Sora 的死因不是單一競爭對手,而是一連串產品、商業和戰略層面的連環失誤,最後由 OpenAI 自己拔掉了插頭。 960 萬次下載,140 萬美元營收先看數字。 去年九月 Sora 2 以獨立社群 app 的形式上線,五天內衝破百萬下載,比 ChatGPT 當初還快。十一月達到高峰——單月 330 萬次下載。所有人都覺得這是下一個殺手級應用。 然後就開始崩了。 時間 月下載量 變化 2025 年 11 月 330 萬 高峰 2025 年 12 月 224 萬 -32% 2026 年 1 月 120 萬 -45% 2026 年 2 月 110 萬 -8% 整個產品生命週期,消費者總共花了 140 萬美元。高峰月營收 54 萬美元,到三月只剩 36.7...
Cursor 自建 AI 模型的背後邏輯:當你的 IDE 不想再幫別人打工
三月十九號,Bloomberg 丟出一顆炸彈:Cursor 正在自建 AI 模型。 不是微調,不是套殼。是從頭訓練一個專門寫程式碼的基礎模型,叫做 Composer 2。同一天,消息傳出 Cursor 正在以約 500 億美元估值募資。 一個 IDE 公司,估值比大多數 SaaS 獨角獸加起來還高,然後決定去做模型。這件事值得認真想一下。 為什麼 Cursor 要自己做模型?先看數字:Cursor 現在每天有超過一百萬活躍用戶,五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。 表面上看,一切都很好。但 Cursor 的核心焦慮其實很明確:他們最重要的能力,是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。 這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex...
