kyosora 筆記

Xcode 終於讓 AI Agent 進場了：兩分鐘做出一個 App 的背後意味著什麼

發表於2026-03-09|AIiOS 開發

二月底，Apple 悄悄推了 Xcode 26.3。沒有 Keynote，沒有 Craig Federighi 站在台上用動畫炫技。但這次更新可能是 Xcode 近五年來最重要的一個版本。因為從這個版本開始，你可以在 Xcode 裡直接使用 AI coding agent。不是那種「自動補完下一行」的小聰明，而是整個 agent 接管你的專案：理解架構、搜文件、改多個檔案、跑 build、看 Preview、發現 UI 有問題還會自己修。有人用它兩分鐘內做出一個完整的 Pomodoro 計時器 App——有設定頁面、提醒功能、能跑的 UI。兩分鐘。這不是 Copilot 的升級版先說清楚 agentic coding 跟傳統 AI 輔助寫 code 的差別。 GitHub Copilot 和早期的 AI 工具做的事情是「你寫一行，它猜下一行」。你是主角，AI 是配角。你的游標在哪裡，它就在那裡幫你。 Agentic coding 完全不同。你給 agent 一個目標——「幫我做一個 Pomodoro 計時器」——然後它自己拆解任務、決定要改哪些檔案、寫 code、跑...

當 Siri 終於有了大腦：Apple 與 Google 聯手打造的三層 AI 架構解析

發表於2026-03-09|AI行動開發

等了快十年，Siri 終於要從「智障助理」畢業了。 Apple 在 iOS 26.4 中重新打造了 Siri，背後用的是 Google 的 Gemini 模型。這不是小改版——是整個架構砍掉重練。22 億台 Apple 裝置將在三月底收到更新，這是史上最大規模的 AI 助理部署。身為開發者，我最關心的不是行銷話術，而是三個問題：架構怎麼設計的？隱私怎麼處理？對我們的 App 有什麼影響？三層處理架構：該在哪算就在哪算新 Siri 的核心設計是一個三層漸進式架構。不是所有請求都丟給雲端，而是根據任務複雜度，動態決定在哪一層處理。第一層：裝置端處理（On-Device）簡單任務直接在手機上跑。設鬧鐘、開 App、查天氣——這些不需要網路請求，回應速度在毫秒等級。Apple 在 A17/M 系列晶片上跑的本地模型處理這些綽綽有餘。隱私上最安全，因為資料根本不離開裝置。第二層：Apple Private Cloud Compute 本地模型搞不定的中等複雜度任務，送到 Apple 自己的私有雲。這層用的是 Apple 自研的模型，跑在 Apple Silicon...

當AI公司對五角大廈說不：Anthropic被封殺卻逆襲App Store的荒謬劇

發表於2026-03-09|AI產業觀察

2 月 27 日晚上，Trump 簽署行政命令，禁止所有聯邦機構使用 Anthropic 的產品。國防部長 Hegseth 把 Anthropic 列為「供應鏈風險」——一個通常保留給中國和俄羅斯企業的標籤。 72 小時後，Claude 衝上美國 App Store 第一名，超越 ChatGPT 和 Gemini。每天有超過一百萬人註冊。這不是電影劇情，這是 2026 年 3 月正在發生的事。 Anthropic 的兩條紅線整件事的核心，其實就兩句話。 Anthropic 告訴五角大廈：你可以用 Claude 做幾乎所有事情，但有兩個例外——不能用於大規模監控美國公民，不能用於全自主致命武器。五角大廈的回應是：我們要「所有合法用途」的授權。談判破裂。 CEO Dario Amodei 事後說：「我們要求的限制只涉及高層級的使用領域，不干涉具體的操作決策。」換句話說，Anthropic 沒有要求審查每一次模型調用，他們只是不想讓自己的技術出現在「用 AI 自動決定要不要開火」或「用 AI...

你的 CLAUDE.md 寫太多了：7,308 次實驗證明 AI Agent 指令 2-3 條就好

發表於2026-03-08|AI開發工具

上週我在整理自己的 CLAUDE.md 時，發現它已經膨脹到快 800 行。規則疊規則、範例套範例，像一本員工手冊。直覺告訴我這樣「比較完整」，但實際體感是——Claude Code 有時會忽略我寫在後半段的指令，偶爾還會把兩條規則搞混。然後我讀到 SkillsBench 這篇論文，它用 7,308 條執行軌跡和 84 個任務做了一件事：測量「給 AI Agent 的操作指引（Skills）」到底給多少、寫多長才有效。結論讓我重新打開編輯器，把那 800 行砍掉一半。先講數字研究團隊在 Claude Code、Codex CLI、Gemini CLI 三個平台上，測試了七種模型配置。每個任務跑五次，用程式化斷言判定通過與否——不是讓另一個 LLM 當裁判，是寫死的測試。整體結論：精心撰寫的 Skills 平均提升 16.2 個百分點。這個數字本身不意外，有指引當然比沒有好。意外的是拆開來看的時候。 2-3 條指引是甜蜜點，4 條以上開始拖後腿 Skills 數量有 Skills 無 Skills 差距 1...

三月AI模型大亂鬥：GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了

發表於2026-03-08|AI模型比較

3 月 5 日，OpenAI 丟出 GPT-5.4。兩週前，Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上，跑分互有勝負，開發者選擇困難症大爆發。我花了幾天把三家的 benchmark 數據、定價和實際使用場景整理了一遍。結論先說：沒有全能冠軍，但各有各的殺手鐧。 GPT-5.4：第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式：看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中，它拿到 75% 的成功率，超越人類的 72.4%。這不是小數字的進步，GPT-5.2 在同一個測試只有 47.3%。另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。硬指標項目 GPT-5.4 跟 GPT-5.2...

Claude Code 每次開新對話都在「失憶」？這個工具讓它記住你說過的每件事

發表於2026-02-25|AI開發工具

你有沒有過這種經驗：花了半小時跟 Claude Code 說清楚你的專案架構，解釋為什麼這裡不用 ORM、那裡要用自定義的錯誤格式、這個 naming convention 有歷史原因不要改——然後隔天開新 session，一切歸零。它不記得。你得再說一遍。這不是 Claude 的問題，是 LLM 的根本限制：每個 session 都是一個全新的對話，沒有上一次的任何記憶。你在 CLAUDE.md 寫的東西只能覆蓋靜態規範，卻沒辦法保留「上週我們決定把 API 分層重構，目前做到一半」這種動態的工作狀態。 claude-mem 就是為了解決這件事而生的。它在背後做了什麼安裝之後，claude-mem 會在 Claude Code 的整個生命週期裡掛上 5 個自動化 hook： SessionStart：新 session 開始，自動把過去相關記憶注入進來 UserPromptSubmit：你每次送出訊息，它都在旁邊記錄 PostToolUse：Claude 每次用工具之後，觀察結果被自動捕捉 Stop：Claude...

你還在每次重新教 Claude Code 你的開發習慣嗎？這個 51k Stars 的配置包幫你省掉這件事

發表於2026-02-25|AI開發工具

每次開一個新專案，你是不是都得跟 Claude Code 說一遍一樣的事：「我們用 TypeScript，記得寫型別。」「代碼審查要檢查 SQL Injection。」「commit 訊息要用 conventional commits 格式。」說完這次，下次還得再說一遍。 everything-claude-code 要解決的就是這件事——讓 Claude Code 一次就記住你的整套開發規範，不用每個專案都重頭來過。這個 repo 有 51k Stars、6.4k Forks，是一個 Anthropic Hackathon 冠軍用超過 10 個月的實際開發產品經驗打磨出來的配置集合。不是某人週末隨手整理的筆記，是真的拿去建產品跑過的。這到底是什麼？簡單講：一個完整的 Claude Code 腦袋移植包。它包含： 13 個專業 subagent，各自負責不同工作（規劃、TDD、代碼審查、安全掃描……） 48 個 workflow skill，從 Django 到 Go 到 React 都有對應的最佳實踐 32 個 slash...

你的 Claude Code 只用到了 20%？這份 25k Stars 的資源清單讓它變 5 倍強

發表於2026-02-25|AI開發工具

剛開始用 Claude Code 的時候，我以為它就是個進階版的「對話框」——貼代碼進去，等它回答。直到我看到 awesome-claude-code 這個 repo，才發現自己根本沒在用這個工具。這份由社群維護的清單目前有 25k Stars、1.5k Forks，收錄了超過 200 個工具、工作流程、配置模板和自動化腳本。不是那種「整理一堆連結就叫 awesome」的水貨清單——每個項目都要求有實際可用的功能，不收實驗性的佔坑。拆開來看，你會發現 Claude Code 早就進化成一個完整的開發生態系了。大多數人都在手動做的事，這裡早有自動化方案先說最實際的：Hooks。 Claude Code 支援在特定事件觸發時執行自定義腳本——工具執行前後、Session 結束時都能掛載。清單裡有幾個直接可以用的： CCNotify：每次 Claude Code 完成任務就發桌面通知。你終於不用一直盯著終端機等它跑完了 Britfix：自動把美式英語拼法轉成英式（color → colour，analyze → analyse）。在有語言規範要求的專案裡省下大量...

100 兆 tokens 告訴你：為什麼降價 10% 也救不了你的 LLM 產品

發表於2025-12-09|AI數據分析

你以為 AI 模型競爭就是打價格戰？ OpenRouter 剛發布的報告分析了 100 兆 tokens 的真實使用數據，發現一個驚人事實：**降價 10%，使用量只增加 0.5-0.7%**。更扯的是，Claude 價格最貴，卻占了編程市場 60%。到底發生什麼事？為什麼這份報告值得關注？這不是又一份「AI 趨勢預測」報告。 OpenRouter 是全球最大的 LLM API 聚合平台：支援 300+ 模型 60+ 供應商（OpenAI、Anthropic、Google、DeepSeek...） 100 兆 tokens 真實使用數據（2024/11 - 2025/11）這份報告揭露了三個開發者必須知道的反直覺發現。發現 1：價格戰是假議題數據打臉時刻策略實際結果降價 10% 使用量 ↑ 0.5-0.7% Claude（最貴）編程市場占...