.npmignore 少一行,512K 行原始碼見光——Claude Code 洩漏事件全解析
2026 年 3 月 31 日 UTC 凌晨 4 點,Anthropic 把 Claude Code v2.1.88 推上 npm。23 分鐘後,一位累積 190 萬美元漏洞賞金的安全研究員在 X 上發了一則貼文,引爆了 AI 開發工具史上最大的原始碼洩漏事件。 512,000 行 TypeScript。1,900 個檔案。44 個未開放的 Feature Flags。全部見光。 而最諷刺的是,這家公司的品牌定位是「安全至上」。 一個 .npmignore 的遺漏如何釀成災難事情的根因簡單到令人難以置信。 Claude Code 用 Bun 做 bundler。Bun 預設會產生 source map 檔案——一個 59.8 MB 的 cli.js.map,用來把打包後的程式碼對應回原始 TypeScript。這個檔案指向 Anthropic 的 Cloudflare R2 儲存桶上一個 zip 壓縮檔,裡面裝著完整的未混淆原始碼。 正常流程下,.npmignore 應該排除這個檔案。但不知道是哪個環節出了問題,它被一起推上了公開的 npm registry。 更慘的是,Bun...
一台 Mac mini 變成 24 小時 AI 員工:Perplexity Personal Computer 的架構野心
3 月 11 日,Perplexity 在首屆 Ask 開發者大會上發表了 Personal Computer。不是一台新電腦,而是一套軟體——裝在你的 Mac mini 上,讓它變成一個 24 小時不關機的 AI 員工。 月費 200 美元。每個敏感操作需要你點一下「同意」。有 kill switch。 企業版的宣傳數字是「四週完成 3.25 年的工作量」。先別急著翻白眼,架構本身值得拆解。 三種「AI 控制你的電腦」路線2026 年至少有五家在做這件事。但技術路線完全不同: 產品 路線 核心差異 Perplexity Personal Computer 本地硬體 + 雲端大腦 Mac mini 24 小時跑,agent 直接存取本地檔案和 app Claude Computer Use 螢幕操控 看螢幕、移滑鼠、點按鈕,模擬人類操作 ChatGPT Agent Mode 雲端 agent 在 OpenAI 的伺服器上執行任務,透過 API 和工具完成 Microsoft Copilot 深度 OS 整合 綁定 Windows 和 Office...
Claude 寫、Codex 審:Agent-to-Agent 配對程式設計到底有沒有用?
一個人寫程式碼容易盲點。所以我們發明了 pair programming——兩個人看同一份程式碼,一個寫、一個審。 現在有人問:如果兩個都換成 AI 呢? 這個概念從哪來Axel Delafosse 在他的部落格上發了一篇「Agent-to-agent pair programming」,在 HN 拿了 97 分和 34 則討論。核心想法:讓 Claude Code 負責寫程式碼,讓 OpenAI Codex 負責 review,兩個 agent 在同一個 codebase 上來回迭代,直到 review 通過。 不是人 + AI,是 AI + AI。人類退到 supervisor 的角色——設定目標、審核最終結果,中間過程交給兩個 agent 自己跑。 實際怎麼運作目前有幾種做法在社群裡流通: 手動切換派。 最原始但很多人在用。Claude Code 寫完一個 feature,把 diff 丟給 Codex review。Codex 找到問題,人類把 review 結果貼回 Claude Code。來回幾輪直到通過。HN 上有人提到做了 10-15 輪...
一張 $500 的顯卡跑贏 Claude Sonnet?ATLAS 專案的 benchmark 數字背後
「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分,208 則討論。一個叫 ATLAS 的開源專案,用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型,在 LiveCodeBench 上拿到 74.6%,超過 Claude 4.5 Sonnet 的 71.4%。 聽起來像是本地派的勝利號角。但數字不說謊,數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路:不微調模型,不呼叫 API,而是在推理時用「智慧基礎設施」包裝一個凍結的小模型,讓它表現得像大模型。 具體來說,它有三個階段: Phase 1:生成。 用 PlanSearch 從題目中提取約束條件,生成多樣化的解題計畫,然後控制 thinking token 的 budget,產出 k=3 個候選答案。 Phase 2:篩選。 用...
Cursor 自建 AI 模型的背後邏輯:當你的 IDE 不想再幫別人打工
三月十九號,Bloomberg 丟出一顆炸彈:Cursor 正在自建 AI 模型。 不是微調,不是套殼。是從頭訓練一個專門寫程式碼的基礎模型,叫做 Composer 2。同一天,消息傳出 Cursor 正在以約 500 億美元估值募資。 一個 IDE 公司,估值比大多數 SaaS 獨角獸加起來還高,然後決定去做模型。這件事值得認真想一下。 為什麼 Cursor 要自己做模型?先看數字:Cursor 現在每天有超過一百萬活躍用戶,五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。 表面上看,一切都很好。但 Cursor 的核心焦慮其實很明確:他們最重要的能力,是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。 這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex...
AI Agent 不寫程式了——2026 年 Agent 生態從寫 Code 走向裝 Skill
上個月我盯 GitHub Trending 的時候,發現一個微妙的轉變:排行榜上最火的 AI 專案,不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。 OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後,定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。 這幾個專案各做各的,但拼在一起看,指向同一件事:Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。 從「什麼都自己幹」到「會裝外掛就好」2024 年的 AI Agent 長這樣:給它一個任務,它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。 問題很明顯。每次執行同樣的任務,Agent...
從 10 萬到 9700 萬下載:MCP 如何在 14 個月內變成 AI 工具連接的 USB
2024 年 11 月,Anthropic 發了一篇不起眼的公告,介紹一個叫 Model Context Protocol 的東西。SDK 月下載量大約 10 萬。 14 個月後的今天,MCP 月下載量 9,700 萬。970 倍。OpenAI、Google、Microsoft、AWS 全部原生支援。治理權捐給了 Linux Foundation 底下的 Agentic AI Foundation。 10 萬到 9,700 萬,一年多一點。我想聊聊這件事為什麼值得開發者認真看待。 問題不是技術,是膠水2024 年底的 AI 開發長這樣:你的 LLM 需要讀 GitHub issue,你寫一個 function call。需要查 Slack 訊息,再寫一個。需要讀資料庫,再來一個。每個整合都是客製化的,每換一個 LLM 供應商就要重寫一遍。 這跟 USB 出現之前的電腦周邊一模一樣。印表機用 parallel port,滑鼠用 serial port,鍵盤用 PS/2。每種設備一種接口,每種接口一個驅動程式。 MCP...
你選的程式語言,其實是 AI 替你選的:GitHub 數據揭露的便利迴圈
2025 年 8 月,TypeScript 在 GitHub 上超越 Python 和 JavaScript,成為平台上最多人使用的程式語言。一年內新增超過一百萬名貢獻者,成長幅度 66%。 這不是自然演化。這是 AI 在背後推了一把。 GitHub 的開發者倡導者 Andrea Griffiths 替這個現象取了一個名字:便利迴圈(Convenience Loop)。當 AI 讓某個技術用起來特別順手,開發者就會湧向它。湧入的開發者產出更多程式碼,這些程式碼成為 AI 的訓練資料,AI 對這個技術變得更強,吸引更多開發者。 迴圈就這樣轉起來了。而且停不下來。 TypeScript 為什麼是最大贏家一個數字就能說明問題:2025 年一項學術研究發現,LLM 產出的編譯錯誤中,94% 是型別檢查失敗。 想想這代表什麼。AI 寫的程式碼,十次編譯錯誤有九次以上是型別搞錯了。TypeScript 的型別系統就像一張安全網——你宣告了 x: string,AI 立刻知道該排除所有不適用於字串的操作。Python 的動態型別沒有這道防線,錯誤要到 runtime 才會爆開。 對 AI...
AI Agent 框架大亂鬥:NemoClaw、OpenClaw 和開發者的真實選擇
老闆走過來說:「我看到競爭對手在用 AI Agent 自動處理客服了,我們也來做一個。」 你心裡的 OS 大概是:用哪個框架?LangChain?AutoGen?還是最近爆紅的 OpenClaw?明天 NVIDIA GTC 又要發布 NemoClaw,這局面到底怎麼選? 我花了一整晚研究目前的 AI Agent 框架生態,把我的觀察整理成這篇。不賣焦慮,只講開發者真正需要思考的問題。 數字先看:這不是 hype,但也不全是真的Gartner 和 Forrester 都把 2026 年標記為「多代理系統的突破年」。幾個關鍵數據: 57% 的企業已經有 AI Agent 在生產環境跑了(G2 調查) 40% 的企業應用預計會嵌入特定任務的 AI Agent 80% 的受訪者表示 AI Agent 已經產生可衡量的經濟影響 全球 Agentic AI 市場規模從 2026 年的 91.4 億美元,預計 2034 年達到 1,390 億美元 但 Gartner 同時預測:超過 40% 的 Agent 專案會在 2027...
AI 比人類更會操作電腦了:GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事
3 月 5 日,OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了,但我認為真正該被討論的是另一件事:Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率,正式超過人類了。 OSWorld 75%,這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面,給它任務,看它能不能完成。 任務長這樣: 「找到最近修改過的試算表並打開它」 「把 Wi-Fi 切換到辦公室網路」 「打開 Chrome,到某個網站,把這份表單填完」 都是你每天在做的事。而 GPT-5.4 做這些事的成功率,比被付錢來完美完成任務的人類測試員還高。 模型 OSWorld 成功率 與人類(72.4%)比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳...
