Xcode 終於讓 AI Agent 進場了:兩分鐘做出一個 App 的背後意味著什麼
二月底,Apple 悄悄推了 Xcode 26.3。沒有 Keynote,沒有 Craig Federighi 站在台上用動畫炫技。但這次更新可能是 Xcode 近五年來最重要的一個版本。 因為從這個版本開始,你可以在 Xcode 裡直接使用 AI coding agent。不是那種「自動補完下一行」的小聰明,而是整個 agent 接管你的專案:理解架構、搜文件、改多個檔案、跑 build、看 Preview、發現 UI 有問題還會自己修。 有人用它兩分鐘內做出一個完整的 Pomodoro 計時器 App——有設定頁面、提醒功能、能跑的 UI。 兩分鐘。 這不是 Copilot 的升級版先說清楚 agentic coding 跟傳統 AI 輔助寫 code 的差別。 GitHub Copilot 和早期的 AI 工具做的事情是「你寫一行,它猜下一行」。你是主角,AI 是配角。你的游標在哪裡,它就在那裡幫你。 Agentic coding 完全不同。你給 agent 一個目標——「幫我做一個 Pomodoro 計時器」——然後它自己拆解任務、決定要改哪些檔案、寫 code、跑...
當 Siri 終於有了大腦:Apple 與 Google 聯手打造的三層 AI 架構解析
等了快十年,Siri 終於要從「智障助理」畢業了。 Apple 在 iOS 26.4 中重新打造了 Siri,背後用的是 Google 的 Gemini 模型。這不是小改版——是整個架構砍掉重練。22 億台 Apple 裝置將在三月底收到更新,這是史上最大規模的 AI 助理部署。 身為開發者,我最關心的不是行銷話術,而是三個問題:架構怎麼設計的?隱私怎麼處理?對我們的 App 有什麼影響? 三層處理架構:該在哪算就在哪算新 Siri 的核心設計是一個三層漸進式架構。不是所有請求都丟給雲端,而是根據任務複雜度,動態決定在哪一層處理。 第一層:裝置端處理(On-Device) 簡單任務直接在手機上跑。設鬧鐘、開 App、查天氣——這些不需要網路請求,回應速度在毫秒等級。Apple 在 A17/M 系列晶片上跑的本地模型處理這些綽綽有餘。 隱私上最安全,因為資料根本不離開裝置。 第二層:Apple Private Cloud Compute 本地模型搞不定的中等複雜度任務,送到 Apple 自己的私有雲。這層用的是 Apple 自研的模型,跑在 Apple Silicon...
當AI公司對五角大廈說不:Anthropic被封殺卻逆襲App Store的荒謬劇
2 月 27 日晚上,Trump 簽署行政命令,禁止所有聯邦機構使用 Anthropic 的產品。國防部長 Hegseth 把 Anthropic 列為「供應鏈風險」——一個通常保留給中國和俄羅斯企業的標籤。 72 小時後,Claude 衝上美國 App Store 第一名,超越 ChatGPT 和 Gemini。每天有超過一百萬人註冊。 這不是電影劇情,這是 2026 年 3 月正在發生的事。 Anthropic 的兩條紅線整件事的核心,其實就兩句話。 Anthropic 告訴五角大廈:你可以用 Claude 做幾乎所有事情,但有兩個例外——不能用於大規模監控美國公民,不能用於全自主致命武器。 五角大廈的回應是:我們要「所有合法用途」的授權。 談判破裂。 CEO Dario Amodei 事後說:「我們要求的限制只涉及高層級的使用領域,不干涉具體的操作決策。」換句話說,Anthropic 沒有要求審查每一次模型調用,他們只是不想讓自己的技術出現在「用 AI 自動決定要不要開火」或「用 AI...
你的 CLAUDE.md 寫太多了:7,308 次實驗證明 AI Agent 指令 2-3 條就好
上週我在整理自己的 CLAUDE.md 時,發現它已經膨脹到快 800 行。規則疊規則、範例套範例,像一本員工手冊。直覺告訴我這樣「比較完整」,但實際體感是——Claude Code 有時會忽略我寫在後半段的指令,偶爾還會把兩條規則搞混。 然後我讀到 SkillsBench 這篇論文,它用 7,308 條執行軌跡和 84 個任務做了一件事:測量「給 AI Agent 的操作指引(Skills)」到底給多少、寫多長才有效。 結論讓我重新打開編輯器,把那 800 行砍掉一半。 先講數字研究團隊在 Claude Code、Codex CLI、Gemini CLI 三個平台上,測試了七種模型配置。每個任務跑五次,用程式化斷言判定通過與否——不是讓另一個 LLM 當裁判,是寫死的測試。 整體結論:精心撰寫的 Skills 平均提升 16.2 個百分點。這個數字本身不意外,有指引當然比沒有好。 意外的是拆開來看的時候。 2-3 條指引是甜蜜點,4 條以上開始拖後腿 Skills 數量 有 Skills 無 Skills 差距 1...
三月AI模型大亂鬥:GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了
3 月 5 日,OpenAI 丟出 GPT-5.4。兩週前,Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上,跑分互有勝負,開發者選擇困難症大爆發。 我花了幾天把三家的 benchmark 數據、定價和實際使用場景整理了一遍。結論先說:沒有全能冠軍,但各有各的殺手鐧。 GPT-5.4:第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式:看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中,它拿到 75% 的成功率,超越人類的 72.4%。這不是小數字的進步,GPT-5.2 在同一個測試只有 47.3%。 另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。 硬指標 項目 GPT-5.4 跟 GPT-5.2...
Claude Code 每次開新對話都在「失憶」?這個工具讓它記住你說過的每件事
你有沒有過這種經驗: 花了半小時跟 Claude Code 說清楚你的專案架構,解釋為什麼這裡不用 ORM、那裡要用自定義的錯誤格式、這個 naming convention 有歷史原因不要改——然後隔天開新 session,一切歸零。 它不記得。你得再說一遍。 這不是 Claude 的問題,是 LLM 的根本限制:每個 session 都是一個全新的對話,沒有上一次的任何記憶。你在 CLAUDE.md 寫的東西只能覆蓋靜態規範,卻沒辦法保留「上週我們決定把 API 分層重構,目前做到一半」這種動態的工作狀態。 claude-mem 就是為了解決這件事而生的。 它在背後做了什麼安裝之後,claude-mem 會在 Claude Code 的整個生命週期裡掛上 5 個自動化 hook: SessionStart:新 session 開始,自動把過去相關記憶注入進來 UserPromptSubmit:你每次送出訊息,它都在旁邊記錄 PostToolUse:Claude 每次用工具之後,觀察結果被自動捕捉 Stop:Claude...
你還在每次重新教 Claude Code 你的開發習慣嗎?這個 51k Stars 的配置包幫你省掉這件事
每次開一個新專案,你是不是都得跟 Claude Code 說一遍一樣的事: 「我們用 TypeScript,記得寫型別。」「代碼審查要檢查 SQL Injection。」「commit 訊息要用 conventional commits 格式。」 說完這次,下次還得再說一遍。 everything-claude-code 要解決的就是這件事——讓 Claude Code 一次就記住你的整套開發規範,不用每個專案都重頭來過。 這個 repo 有 51k Stars、6.4k Forks,是一個 Anthropic Hackathon 冠軍用超過 10 個月的實際開發產品經驗打磨出來的配置集合。不是某人週末隨手整理的筆記,是真的拿去建產品跑過的。 這到底是什麼?簡單講:一個完整的 Claude Code 腦袋移植包。 它包含: 13 個專業 subagent,各自負責不同工作(規劃、TDD、代碼審查、安全掃描……) 48 個 workflow skill,從 Django 到 Go 到 React 都有對應的最佳實踐 32 個 slash...
你的 Claude Code 只用到了 20%?這份 25k Stars 的資源清單讓它變 5 倍強
剛開始用 Claude Code 的時候,我以為它就是個進階版的「對話框」——貼代碼進去,等它回答。 直到我看到 awesome-claude-code 這個 repo,才發現自己根本沒在用這個工具。 這份由社群維護的清單目前有 25k Stars、1.5k Forks,收錄了超過 200 個工具、工作流程、配置模板和自動化腳本。不是那種「整理一堆連結就叫 awesome」的水貨清單——每個項目都要求有實際可用的功能,不收實驗性的佔坑。 拆開來看,你會發現 Claude Code 早就進化成一個完整的開發生態系了。 大多數人都在手動做的事,這裡早有自動化方案先說最實際的:Hooks。 Claude Code 支援在特定事件觸發時執行自定義腳本——工具執行前後、Session 結束時都能掛載。清單裡有幾個直接可以用的: CCNotify:每次 Claude Code 完成任務就發桌面通知。你終於不用一直盯著終端機等它跑完了 Britfix:自動把美式英語拼法轉成英式(color → colour,analyze → analyse)。在有語言規範要求的專案裡省下大量...
100 兆 tokens 告訴你:為什麼降價 10% 也救不了你的 LLM 產品
你以為 AI 模型競爭就是打價格戰? OpenRouter 剛發布的報告分析了 100 兆 tokens 的真實使用數據,發現一個驚人事實:**降價 10%,使用量只增加 0.5-0.7%**。 更扯的是,Claude 價格最貴,卻占了編程市場 60%。 到底發生什麼事? 為什麼這份報告值得關注?這不是又一份「AI 趨勢預測」報告。 OpenRouter 是全球最大的 LLM API 聚合平台: 支援 300+ 模型 60+ 供應商(OpenAI、Anthropic、Google、DeepSeek...) 100 兆 tokens 真實使用數據(2024/11 - 2025/11) 這份報告揭露了三個開發者必須知道的反直覺發現。 發現 1:價格戰是假議題數據打臉時刻 策略 實際結果 降價 10% 使用量 ↑ 0.5-0.7% Claude(最貴) 編程市場占...
