kyosora 筆記

你的 AI Agent 拿到的權限比你的實習生還大？Anthropic 零信任框架拆解

發表於2026-05-28|AI工具實戰資訊安全

5 月 27 日 Anthropic 丟出一份 36 頁的電子書，標題叫《Zero Trust for AI Agents》。這不是一般的行銷白皮書——它給了具體的架構、實施路徑和威脅分類，而且每條建議都對應到成熟度等級，讓你知道自己該做到哪一層。我把重點整理出來，順便加上我自己在用 Claude Code 和各種 Agent 工具時踩過的坑。為什麼現在要談 Agent 安全先說結論：AI Agent 跟傳統軟體最大的差別，是它會自己做決定。傳統軟體執行你寫好的邏輯。Agent 不一樣，它解讀目標、選擇工具、執行多步驟操作，全程不需要你點頭。這帶來一個根本性的安全問題——你給它的權限，它會用自己的判斷去使用。 Anthropic 在文件裡點出了五個 Agent 特有的安全考量：自主執行：不用人工批准就能完成整條工作流程工具存取：能操作 API、資料庫、檔案系統、MCP 伺服器決策模糊性：人類覺得無害的指令，Agent 可能解讀出完全不同的結果跨 session 記憶：記住上次對話的偏好和知識——也記住被注入的毒多 Agent 協作：Agent 之間的信任關係，讓...

六月 AI 模型大戰前夕：GPT-5.6、Gemini 3.5 Pro、Claude Mythos 同時壓境，開發者怎麼準備？

發表於2026-05-27|AI工具實戰AI產業觀察

2026 年 5 月最後一週，GPT-5.6 在 Codex 後端日誌裡被挖出來、Anthropic 的 Mythos 推翻了一個近 80 年的數學猜想、WWDC 很可能揭露 Gemini 驅動的新 Siri。如果這些消息有一半成真，六月的模型名稱、API 規格、token 單價會同時變動，留給開發者的切換視窗很短。我三月寫過一篇模型大亂鬥，當時的結論是「沒有全能冠軍」——這句話到現在還適用。這次要聊的不是跑分比較，而是一個更實際的問題：你的系統架構裡，模型名稱寫死了幾處？錯誤碼寫死了幾處？stream chunk 格式寫死了幾處？備戰清單放前面，後面的情報分析都服務這份清單。開發者備戰清單（六月前完成）1. 把 LLM 呼叫抽象出來如果你的程式碼裡直接寫死 openai.chat.completions.create()，六月切模型會很痛苦。不需要複雜框架，一個 adapter 層就夠。核心是把模型選擇和業務邏輯分開。 1234567891011121314151617181920212223242526272829// 這是整理過的示意，實際版本會更簡單interfa...

一張 $500 的顯卡跑贏 Claude Sonnet？ATLAS 專案的 benchmark 數字背後

發表於2026-03-27|AI工具實戰工具與生產力

「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分，208 則討論。一個叫 ATLAS 的開源專案，用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型，在 LiveCodeBench 上拿到 74.6%，超過 Claude 4.5 Sonnet 的 71.4%。聽起來像是本地派的勝利號角。但數字不說謊，數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路：不微調模型，不呼叫 API，而是在推理時用「智慧基礎設施」包裝一個凍結的小模型，讓它表現得像大模型。具體來說，它有三個階段： Phase 1：生成。用 PlanSearch 從題目中提取約束條件，生成多樣化的解題計畫，然後控制 thinking token 的 budget，產出 k=3 個候選答案。 Phase 2：篩選。用 Geometr...

Anthropic 拒絕讓 AI 做武器，被美國政府列入黑名單：技術紅線背後的架構抉擇

發表於2026-03-15|AI工具實戰AI產業觀察

3 月 9 日，Anthropic 同時在加州北區聯邦法院和華盛頓特區上訴法院提起訴訟，控告美國國防部違法將其列為「供應鏈風險」。原因很單純：CEO Dario Amodei 拒絕讓 Claude 被用於大規模監控美國公民，也拒絕讓它操控自主武器。這不是一般的商業糾紛。這是一家估值數百億美元的 AI 公司，因為堅持技術紅線而被自己國家的軍方封殺。兩條紅線Anthropic 和五角大廈的談判卡在兩個條款上：禁止大規模監控：Claude 不能被用來對美國公民進行未經授權的大規模資料蒐集和分析禁止自主武器：Claude 不能作為完全自主殺傷性武器的決策核心 Amodei 的立場很明確——這兩條不談。五角大廈的回應也很明確——那你就別做政府生意了。 2 月底，國防部正式將 Anthropic 列入「供應鏈風險」名單。這個標籤的殺傷力不只是失去國防合約，而是所有聯邦政府承包商在六個月內都必須停止使用 Claude。根據 Anthropic 的法庭文件，超過 100 家企業客戶已經就此聯繫他們，可能影響「數億美元」營收。技術層面：紅線怎麼實作？這裡值得從工程角度思考一個問題：A...

當你的AI供應商被政府列為國安威脅：Anthropic起訴五角大廈事件的三個技術啟示

發表於2026-03-12|AI工具實戰AI產業觀察

3 月 9 號，Anthropic 做了一件 AI 產業前所未見的事：同時起訴美國政府、發布新產品、簽下微軟合作。三件事同一天。這不是科技八卦。如果你在用 Claude API 寫程式、用 Claude Code 做開發，這件事直接影響你的技術棧穩定性。發生了什麼事五角大廈要求 Anthropic 開放 Claude 用於「所有合法用途」。Anthropic 設了兩條紅線：不做完全自主武器，不做大規模國內監控。談判在 2 月 27 日破裂。 Trump 政府的回應很硬：下令所有聯邦機構停用 Anthropic 技術。國防部長 Hegseth 把 Anthropic 標記為「供應鏈風險」——這個標籤歷史上只用在華為、卡巴斯基這類外國實體身上。 Anthropic CFO 說這可能砍掉 2026 年數十億美元營收。公司在加州聯邦地院和 DC 巡迴上訴法院同時開戰。啟示一：你的 AI 供應商風險模型該更新了大部分技術團隊評估 AI 供應商，看的是模型能力、API 穩定性、定價。政治風險？不在 checklist 上。這件事改變了遊戲規則。「供應鏈風險」標籤不只影響政府合約。...

AI抓漏洞比人快？Claude兩週內在Firefox挖出22個安全漏洞的技術內幕

發表於2026-03-10|AI工具實戰資訊安全

上週 Anthropic 和 Mozilla 聯合發了一篇公告：Claude Opus 4.6 在兩週內掃描了 Firefox 將近 6,000 個 C++ 檔案，提交 112 份報告，其中 22 個被確認為真實漏洞，14 個是高嚴重性。這個數字什麼概念？2025 一整年 Firefox 修補的高嚴重性漏洞，大約是這次兩週產出的五倍。換句話說，Claude 兩週的產量接近 2025 全年的兩成。我花了一些時間讀完 Anthropic 的技術報告和 Mozilla 的回應，想整理出幾個工程師會在意的重點。它是怎麼掃的？Anthropic 的團隊沒有直接丟整個 codebase 給 Claude 然後說「幫我找 bug」。他們分了兩個階段：第一階段：驗證能力。先拿 Firefox 舊版本中已知的 CVE，讓 Claude 看能不能重現。這步很關鍵——如果連已知漏洞都找不到，就沒必要往下走了。第二階段：掃描未知漏洞。從 JavaScript 引擎開始（這是瀏覽器最複雜、攻擊面最大的部分），逐步擴展到其他元件。兩週內掃了將近 6,000 個 C++ 檔案。第一個漏洞在探索...

當AI公司對五角大廈說不：Anthropic被封殺卻逆襲App Store的荒謬劇

發表於2026-03-09|AI工具實戰AI產業觀察

2 月 27 日晚上，Trump 簽署行政命令，禁止所有聯邦機構使用 Anthropic 的產品。國防部長 Hegseth 把 Anthropic 列為「供應鏈風險」——一個通常保留給中國和俄羅斯企業的標籤。 72 小時後，Claude 衝上美國 App Store 第一名，超越 ChatGPT 和 Gemini。每天有超過一百萬人註冊。這不是電影劇情，這是 2026 年 3 月正在發生的事。 Anthropic 的兩條紅線整件事的核心，其實就兩句話。 Anthropic 告訴五角大廈：你可以用 Claude 做幾乎所有事情，但有兩個例外——不能用於大規模監控美國公民，不能用於全自主致命武器。五角大廈的回應是：我們要「所有合法用途」的授權。談判破裂。 CEO Dario Amodei 事後說：「我們要求的限制只涉及高層級的使用領域，不干涉具體的操作決策。」換句話說，Anthropic 沒有要求審查每一次模型呼叫，他們只是不想讓自己的技術出現在「用 AI 自動決定要不要開火」或「用 AI 監聽所有美國人通訊」的場景裡。聽起來合理？五角大廈不這麼認為。連鎖反應比預期更猛Tr...

三月AI模型大亂鬥：GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了

發表於2026-03-08|AI工具實戰AI產業觀察

3 月 5 日，OpenAI 丟出 GPT-5.4。兩週前，Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上，跑分互有勝負，開發者選擇困難症大爆發。我花了幾天把三家的 benchmark 資料、定價和實際使用場景整理了一遍。結論先說：沒有全能冠軍，但各有各的殺手鐧。 GPT-5.4：第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式：看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中，它拿到 75% 的成功率，超越人類的 72.4%。這不是小數字的進步，GPT-5.2 在同一個測試只有 47.3%。另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。硬指標項目 GPT-5.4 跟 GPT-5.2 相比 GDPval（知識工作） 83% 7...

100 兆 tokens 告訴你：為什麼降價 10% 也救不了你的 LLM 產品

發表於2025-12-09|AI工具實戰AI產業觀察

你以為 AI 模型競爭就是打價格戰？ OpenRouter 剛發佈的報告分析了 100 兆 tokens 的真實使用資料，發現一個驚人事實：**降價 10%，使用量只增加 0.5-0.7%**。更扯的是，Claude 價格最貴，卻占了編程市場 60%。到底發生什麼事？為什麼這份報告值得關注？這不是又一份「AI 趨勢預測」報告。 OpenRouter 是全球最大的 LLM API 聚合平台：支援 300+ 模型 60+ 供應商（OpenAI、Anthropic、Google、DeepSeek...） 100 兆 tokens 真實使用資料（2024/11 - 2025/11）這份報告揭露了三個開發者必須知道的反直覺發現。發現 1：價格戰是假議題資料打臉時刻策略實際結果降價 10% 使用量 ↑ 0.5-0.7% Claude（最貴）編程市場占 60% DeepSeek（便宜）使用者流失後又回流報告原話： "需求缺乏價格彈性，使用者優先考慮品質和可靠性而非價格。" 為什麼會這樣？工程師選模型的真實決策流程：...

Notion MCP 使用教學：讓 Claude 直接操作你的 Notion 工作區

發表於2025-06-23|AI工具實戰工具與生產力

你是不是經常在 Notion 和 Claude 之間來回複製貼上？有了 Notion MCP（Model Context Protocol），Claude 可以直接連接你的 Notion 工作區，幫你建立頁面、整理資料、查詢內容，不用再手動搬資料。什麼是 Notion MCP？Notion MCP 讓 Claude 可以直接讀寫你的工作區——不只是讀取筆記，還能新增頁面、查詢資料庫、建立結構化內容。 MCP（Model Context Protocol）是 Claude 和外部工具之間的通訊協定。Notion 官方提供了對應的 MCP Server，串接之後 Claude 就能直接操作你的 Notion，而不是只能在旁邊看著。開始前的準備需要準備的東西： Claude Desktop 應用程式（必須是桌面版，Claude.ai 網頁版不支援 MCP）一個 Notion 帳戶基本的終端機操作能力大約 15 分鐘第一步：建立 Notion Integration首先要在 Notion 建立一個 Integration，讓 Claude 取得操作工作區的授權。前往 ...