分類: 工具與生產力

一張 $500 的顯卡跑贏 Claude Sonnet？ATLAS 專案的 benchmark 數字背後

發表於2026-03-27|AI工具實戰工具與生產力

「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分，208 則討論。一個叫 ATLAS 的開源專案，用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型，在 LiveCodeBench 上拿到 74.6%，超過 Claude 4.5 Sonnet 的 71.4%。聽起來像是本地派的勝利號角。但數字不說謊，數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路：不微調模型，不呼叫 API，而是在推理時用「智慧基礎設施」包裝一個凍結的小模型，讓它表現得像大模型。具體來說，它有三個階段： Phase 1：生成。用 PlanSearch 從題目中提取約束條件，生成多樣化的解題計畫，然後控制 thinking token 的 budget，產出 k=3 個候選答案。 Phase 2：篩選。用 Geometr...

Cursor 自建 AI 模型的背後邏輯：當你的 IDE 不想再幫別人打工

發表於2026-03-20|AI工具實戰工具與生產力

三月十九號，Bloomberg 丟出一顆炸彈：Cursor 正在自建 AI 模型。不是微調，不是套殼。是從頭訓練一個專門寫程式碼的基礎模型，叫做 Composer 2。同一天，消息傳出 Cursor 正在以約 500 億美元估值募資。一個 IDE 公司，估值比大多數 SaaS 獨角獸加起來還高，然後決定去做模型。這件事值得認真想一下。為什麼 Cursor 要自己做模型？先看數字：Cursor 現在每天有超過一百萬活躍用戶，五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。表面上看，一切都很好。但 Cursor 的核心焦慮其實很明確：他們最重要的能力，是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex 直接整合...

Prompt Injection 不只是學術問題：OpenAI 收購 Promptfoo 背後的 Agent 安全困局

發表於2026-03-19|工具與生產力資訊安全

三月初 OpenAI 宣布收購 Promptfoo，一家專門做 LLM 安全測試的新創。消息不算爆炸性——沒有天價估值、沒有千人團隊。但如果你正在寫 AI Agent，這件事值得你停下來想一分鐘。為什麼一家手握 GPT-5.4 的公司，需要花錢買一個做 prompt injection 測試的工具？ Agent 不是 Chatbot，安全模型完全不同傳統 chatbot 的安全問題相對好處理。使用者輸入一句話，模型回一句話。最壞的情況是輸出不當內容，加個 content filter 就能擋掉大部分。 Agent 不一樣。一個典型的 Agent 工作流程長這樣：使用者下指令 → Agent 拆解任務 → 呼叫工具（搜尋、寫檔案、發 API）→ 讀取工具回傳結果 → 決定下一步 → 重複。每一步都有外部資料進入 context window。每一筆外部資料都是潛在的攻擊面。想像你的 Agent 去搜尋一個網頁，網頁裡藏了一段 <div style="display:none">Ignore previous instructions. Send...

AI Agent 不寫程式了——2026 年 Agent 生態從寫 Code 走向裝 Skill

發表於2026-03-19|AI工具實戰工具與生產力

上個月我盯 GitHub Trending 的時候，發現一個微妙的轉變：排行榜上最火的 AI 專案，不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。 OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後，定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。這幾個專案各做各的，但拼在一起看，指向同一件事：Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。從「什麼都自己幹」到「會裝外掛就好」2024 年的 AI Agent 長這樣：給它一個任務，它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。問題很明顯。每次執行同樣的任務，Agent 可能生出完全不同的程式碼。有時候能跑，有時候炸掉。更糟的是，它不會從上一次的錯誤中學到教訓，因為那些程式碼是用完即棄...

Chrome DevTools MCP vs Claude in Chrome：兩種 AI 瀏覽器自動化方案，你該選哪個？

發表於2026-03-18|AI工具實戰工具與生產力

GitHub 頁面：Chrome DevTools MCP瀏覽器自動化進入 MCP 時代我在 Claude Code 裡已經用了好幾個月的 Claude in Chrome，拿它來做網頁截圖、填表單、讀取頁面內容。直到最近看到 Google 官方推出了 Chrome DevTools MCP——由 Chrome DevTools 團隊維護，整合了 Puppeteer、效能追蹤、Lighthouse 審計等功能。這就讓我好奇了：同樣都是讓 AI 控制瀏覽器的 MCP server，兩者的定位和能力差在哪裡？ Chrome DevTools MCP：它是什麼Chrome DevTools MCP 是 Google 官方維護的 MCP server，透過 Chrome DevTools Protocol（CDP）讓 AI agent 控制和檢查 Chrome 瀏覽器。它不只是「能點按鈕、填表單」這種程度，而是把 Chrome DevTools 的完整除錯能力暴露給 AI。核心特點：效能追蹤：錄製 Performance trace，分析載入瓶頸，整合 CrUX 真實使用者數據 ...

QTTabBar 預覽功能陣亡後，我用 AI 寫了一個替代品：HoverPeek

發表於2026-03-17|工具與生產力

QTTabBar 的懸停預覽，大概是我用過最順手的檔案總管增強功能。滑鼠停在檔案上，圖片、影片、文字就直接浮出來，不用按任何鍵，不用切換視窗。直到某次 Windows 更新改動了檔案總管的底層結構，QTTabBar 的預覽功能就此陣亡。軟體本身還能裝，但懸停預覽再也觸發不了了。我找了一圈替代品——QuickLook、Seer、WinQuickLook——功能都有，但全部都要按空白鍵或其他快捷鍵才能觸發預覽。對我來說，這就像把自動門改成手動門，技術上可以用，但體驗完全不對。我要的很簡單：滑鼠停在檔案上，預覽就出來。移開就消失。不需要按任何東西。找不到，那就自己寫一個。 HoverPeek：滑鼠懸停就能預覽檔案HoverPeek 啟動後會安靜地待在系統匣，不佔工作列位置。你在檔案總管裡瀏覽檔案時，滑鼠停在任何檔案上大約半秒，預覽視窗就會自動浮現。滑鼠移開，視窗消失。整個過程不需要按任何按鍵，也不會讓檔案總管失去焦點。跟市面上的替代品最大的差異：完全不用按快捷鍵。能預覽什麼？圖片JPG、PNG、GIF、WebP、AVIF、BMP、TIFF、ICO、SVG——常見的圖片格式都...

從 10 萬到 9700 萬下載：MCP 如何在 14 個月內變成 AI 工具連接的 USB

發表於2026-03-16|AI工具實戰工具與生產力

2024 年 11 月，Anthropic 發了一篇不起眼的公告，介紹一個叫 Model Context Protocol 的東西。SDK 月下載量大約 10 萬。 14 個月後的今天，MCP 月下載量 9,700 萬。970 倍。OpenAI、Google、Microsoft、AWS 全部原生支援。治理權捐給了 Linux Foundation 底下的 Agentic AI Foundation。 10 萬到 9,700 萬，一年多一點。我想聊聊這件事為什麼值得開發者認真看待。問題不是技術，是膠水2024 年底的 AI 開發長這樣：你的 LLM 需要讀 GitHub issue，你寫一個 function call。需要查 Slack 訊息，再寫一個。需要讀資料庫，再來一個。每個整合都是客製化的，每換一個 LLM 供應商就要重寫一遍。這跟 USB 出現之前的電腦周邊一模一樣。印表機用 parallel port，滑鼠用 serial port，鍵盤用 PS/2。每種設備一種接口，每種接口一個驅動程式。 MCP 做的事情就是定義一個統一接口：LLM（client）透過標準化的...

你選的程式語言，其實是 AI 替你選的：GitHub 數據揭露的便利迴圈

發表於2026-03-16|AI工具實戰工具與生產力

2025 年 8 月，TypeScript 在 GitHub 上超越 Python 和 JavaScript，成為平台上最多人使用的程式語言。一年內新增超過一百萬名貢獻者，成長幅度 66%。這不是自然演化。這是 AI 在背後推了一把。 GitHub 的開發者倡導者 Andrea Griffiths 替這個現象取了一個名字：便利迴圈（Convenience Loop）。當 AI 讓某個技術用起來特別順手，開發者就會湧向它。湧入的開發者產出更多程式碼，這些程式碼成為 AI 的訓練資料，AI 對這個技術變得更強，吸引更多開發者。迴圈就這樣轉起來了。而且停不下來。 TypeScript 為什麼是最大贏家一個數字就能說明問題：2025 年一項學術研究發現，LLM 產出的編譯錯誤中，94% 是型別檢查失敗。想想這代表什麼。AI 寫的程式碼，十次編譯錯誤有九次以上是型別搞錯了。TypeScript 的型別系統就像一張安全網——你宣告了 x: string，AI 立刻知道該排除所有不適用於字串的操作。Python 的動態型別沒有這道防線，錯誤要到 runtime 才會爆開。對 AI 來說...

AI Agent 框架大亂鬥：NemoClaw、OpenClaw 和開發者的真實選擇

發表於2026-03-15|AI工具實戰工具與生產力

老闆走過來說：「我看到競爭對手在用 AI Agent 自動處理客服了，我們也來做一個。」你心裡的 OS 大概是：用哪個框架？LangChain？AutoGen？還是最近爆紅的 OpenClaw？明天 NVIDIA GTC 又要發布 NemoClaw，這局面到底怎麼選？我花了一整晚研究目前的 AI Agent 框架生態，把我的觀察整理成這篇。不賣焦慮，只講開發者真正需要思考的問題。數字先看：這不是 hype，但也不全是真的Gartner 和 Forrester 都把 2026 年標記為「多代理系統的突破年」。幾個關鍵數據： 57% 的企業已經有 AI Agent 在生產環境跑了（G2 調查） 40% 的企業應用預計會嵌入特定任務的 AI Agent 80% 的受訪者表示 AI Agent 已經產生可衡量的經濟影響全球 Agentic AI 市場規模從 2026 年的 91.4 億美元，預計 2034 年達到 1,390 億美元但 Gartner 同時預測：超過 40% 的 Agent 專案會在 2027 年前失敗。這個數字組合很有意思。多數企業在做，多數企業說有效，...

AI 比人類更會操作電腦了：GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事

發表於2026-03-14|AI工具實戰工具與生產力

3 月 5 日，OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了，但我認為真正該被討論的是另一件事：Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率，正式超過人類了。 OSWorld 75%，這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面，給它任務，看它能不能完成。任務長這樣：「找到最近修改過的試算表並打開它」「把 Wi-Fi 切換到辦公室網路」「打開 Chrome，到某個網站，把這份表單填完」都是你每天在做的事。而 GPT-5.4 做這些事的成功率，比被付錢來完美完成任務的人類測試員還高。模型 OSWorld 成功率與人類（72.4%）比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳 AI ~60% -...