kyosora 筆記

.npmignore 少一行，512K 行原始碼見光——Claude Code 洩漏事件全解析

發表於2026-04-02|AI開發工具

2026 年 3 月 31 日 UTC 凌晨 4 點，Anthropic 把 Claude Code v2.1.88 推上 npm。23 分鐘後，一位累積 190 萬美元漏洞賞金的安全研究員在 X 上發了一則貼文，引爆了 AI 開發工具史上最大的原始碼洩漏事件。 512,000 行 TypeScript。1,900 個檔案。44 個未開放的 Feature Flags。全部見光。而最諷刺的是，這家公司的品牌定位是「安全至上」。一個 .npmignore 的遺漏如何釀成災難事情的根因簡單到令人難以置信。 Claude Code 用 Bun 做 bundler。Bun 預設會產生 source map 檔案——一個 59.8 MB 的 cli.js.map，用來把打包後的程式碼對應回原始 TypeScript。這個檔案指向 Anthropic 的 Cloudflare R2 儲存桶上一個 zip 壓縮檔，裡面裝著完整的未混淆原始碼。正常流程下，.npmignore 應該排除這個檔案。但不知道是哪個環節出了問題，它被一起推上了公開的 npm registry。更慘的是，Bun...

一台 Mac mini 變成 24 小時 AI 員工：Perplexity Personal Computer 的架構野心

發表於2026-03-28|AI開發工具

3 月 11 日，Perplexity 在首屆 Ask 開發者大會上發表了 Personal Computer。不是一台新電腦，而是一套軟體——裝在你的 Mac mini 上，讓它變成一個 24 小時不關機的 AI 員工。月費 200 美元。每個敏感操作需要你點一下「同意」。有 kill switch。企業版的宣傳數字是「四週完成 3.25 年的工作量」。先別急著翻白眼，架構本身值得拆解。三種「AI 控制你的電腦」路線2026 年至少有五家在做這件事。但技術路線完全不同：產品路線核心差異 Perplexity Personal Computer 本地硬體 + 雲端大腦 Mac mini 24 小時跑，agent 直接存取本地檔案和 app Claude Computer Use 螢幕操控看螢幕、移滑鼠、點按鈕，模擬人類操作 ChatGPT Agent Mode 雲端 agent 在 OpenAI 的伺服器上執行任務，透過 API 和工具完成 Microsoft Copilot 深度 OS 整合綁定 Windows 和 Office...

Claude 寫、Codex 審：Agent-to-Agent 配對程式設計到底有沒有用？

發表於2026-03-27|AI開發工具

一個人寫程式碼容易盲點。所以我們發明了 pair programming——兩個人看同一份程式碼，一個寫、一個審。現在有人問：如果兩個都換成 AI 呢？這個概念從哪來Axel Delafosse 在他的部落格上發了一篇「Agent-to-agent pair programming」，在 HN 拿了 97 分和 34 則討論。核心想法：讓 Claude Code 負責寫程式碼，讓 OpenAI Codex 負責 review，兩個 agent 在同一個 codebase 上來回迭代，直到 review 通過。不是人 + AI，是 AI + AI。人類退到 supervisor 的角色——設定目標、審核最終結果，中間過程交給兩個 agent 自己跑。實際怎麼運作目前有幾種做法在社群裡流通：手動切換派。最原始但很多人在用。Claude Code 寫完一個 feature，把 diff 丟給 Codex review。Codex 找到問題，人類把 review 結果貼回 Claude Code。來回幾輪直到通過。HN 上有人提到做了 10-15 輪...

一張 $500 的顯卡跑贏 Claude Sonnet？ATLAS 專案的 benchmark 數字背後

發表於2026-03-27|AI開發工具

「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分，208 則討論。一個叫 ATLAS 的開源專案，用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型，在 LiveCodeBench 上拿到 74.6%，超過 Claude 4.5 Sonnet 的 71.4%。聽起來像是本地派的勝利號角。但數字不說謊，數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路：不微調模型，不呼叫 API，而是在推理時用「智慧基礎設施」包裝一個凍結的小模型，讓它表現得像大模型。具體來說，它有三個階段： Phase 1：生成。用 PlanSearch 從題目中提取約束條件，生成多樣化的解題計畫，然後控制 thinking token 的 budget，產出 k=3 個候選答案。 Phase 2：篩選。用...

Cursor 自建 AI 模型的背後邏輯：當你的 IDE 不想再幫別人打工

發表於2026-03-20|AI開發工具

三月十九號，Bloomberg 丟出一顆炸彈：Cursor 正在自建 AI 模型。不是微調，不是套殼。是從頭訓練一個專門寫程式碼的基礎模型，叫做 Composer 2。同一天，消息傳出 Cursor 正在以約 500 億美元估值募資。一個 IDE 公司，估值比大多數 SaaS 獨角獸加起來還高，然後決定去做模型。這件事值得認真想一下。為什麼 Cursor 要自己做模型？先看數字：Cursor 現在每天有超過一百萬活躍用戶，五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。表面上看，一切都很好。但 Cursor 的核心焦慮其實很明確：他們最重要的能力，是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex...

AI Agent 不寫程式了——2026 年 Agent 生態從寫 Code 走向裝 Skill

發表於2026-03-19|AI開發工具

上個月我盯 GitHub Trending 的時候，發現一個微妙的轉變：排行榜上最火的 AI 專案，不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。 OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後，定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。這幾個專案各做各的，但拼在一起看，指向同一件事：Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。從「什麼都自己幹」到「會裝外掛就好」2024 年的 AI Agent 長這樣：給它一個任務，它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。問題很明顯。每次執行同樣的任務，Agent...

從 10 萬到 9700 萬下載：MCP 如何在 14 個月內變成 AI 工具連接的 USB

發表於2026-03-16|AI開發工具

2024 年 11 月，Anthropic 發了一篇不起眼的公告，介紹一個叫 Model Context Protocol 的東西。SDK 月下載量大約 10 萬。 14 個月後的今天，MCP 月下載量 9,700 萬。970 倍。OpenAI、Google、Microsoft、AWS 全部原生支援。治理權捐給了 Linux Foundation 底下的 Agentic AI Foundation。 10 萬到 9,700 萬，一年多一點。我想聊聊這件事為什麼值得開發者認真看待。問題不是技術，是膠水2024 年底的 AI 開發長這樣：你的 LLM 需要讀 GitHub issue，你寫一個 function call。需要查 Slack 訊息，再寫一個。需要讀資料庫，再來一個。每個整合都是客製化的，每換一個 LLM 供應商就要重寫一遍。這跟 USB 出現之前的電腦周邊一模一樣。印表機用 parallel port，滑鼠用 serial port，鍵盤用 PS/2。每種設備一種接口，每種接口一個驅動程式。 MCP...

你選的程式語言，其實是 AI 替你選的：GitHub 數據揭露的便利迴圈

發表於2026-03-16|AI開發工具

2025 年 8 月，TypeScript 在 GitHub 上超越 Python 和 JavaScript，成為平台上最多人使用的程式語言。一年內新增超過一百萬名貢獻者，成長幅度 66%。這不是自然演化。這是 AI 在背後推了一把。 GitHub 的開發者倡導者 Andrea Griffiths 替這個現象取了一個名字：便利迴圈（Convenience Loop）。當 AI 讓某個技術用起來特別順手，開發者就會湧向它。湧入的開發者產出更多程式碼，這些程式碼成為 AI 的訓練資料，AI 對這個技術變得更強，吸引更多開發者。迴圈就這樣轉起來了。而且停不下來。 TypeScript 為什麼是最大贏家一個數字就能說明問題：2025 年一項學術研究發現，LLM 產出的編譯錯誤中，94% 是型別檢查失敗。想想這代表什麼。AI 寫的程式碼，十次編譯錯誤有九次以上是型別搞錯了。TypeScript 的型別系統就像一張安全網——你宣告了 x: string，AI 立刻知道該排除所有不適用於字串的操作。Python 的動態型別沒有這道防線，錯誤要到 runtime 才會爆開。對 AI...

AI Agent 框架大亂鬥：NemoClaw、OpenClaw 和開發者的真實選擇

發表於2026-03-15|AI開發工具

老闆走過來說：「我看到競爭對手在用 AI Agent 自動處理客服了，我們也來做一個。」你心裡的 OS 大概是：用哪個框架？LangChain？AutoGen？還是最近爆紅的 OpenClaw？明天 NVIDIA GTC 又要發布 NemoClaw，這局面到底怎麼選？我花了一整晚研究目前的 AI Agent 框架生態，把我的觀察整理成這篇。不賣焦慮，只講開發者真正需要思考的問題。數字先看：這不是 hype，但也不全是真的Gartner 和 Forrester 都把 2026 年標記為「多代理系統的突破年」。幾個關鍵數據： 57% 的企業已經有 AI Agent 在生產環境跑了（G2 調查） 40% 的企業應用預計會嵌入特定任務的 AI Agent 80% 的受訪者表示 AI Agent 已經產生可衡量的經濟影響全球 Agentic AI 市場規模從 2026 年的 91.4 億美元，預計 2034 年達到 1,390 億美元但 Gartner 同時預測：超過 40% 的 Agent 專案會在 2027...

AI 比人類更會操作電腦了：GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事

發表於2026-03-14|AI開發工具

3 月 5 日，OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了，但我認為真正該被討論的是另一件事：Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率，正式超過人類了。 OSWorld 75%，這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面，給它任務，看它能不能完成。任務長這樣：「找到最近修改過的試算表並打開它」「把 Wi-Fi 切換到辦公室網路」「打開 Chrome，到某個網站，把這份表單填完」都是你每天在做的事。而 GPT-5.4 做這些事的成功率，比被付錢來完美完成任務的人類測試員還高。模型 OSWorld 成功率與人類（72.4%）比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳...