kyosora 筆記

發表於2026-05-18|AI工具實戰AI產業觀察

五月十四日 Anthropic 在自家部落格放出一份叫 Founder's Playbook 的內部手冊，主題是「怎麼用 AI 從零做一家 startup」。結論反直覺：AI 會放大你的創業失敗模式，而不是降低失敗率。寫這份手冊的是 Anthropic 自己——賣你 Claude Code 的那家公司——提醒你它賣的工具會放大失敗。我下載 PDF 那天剛好在抓一個 bug那天我在改公司專案的下載功能。PM 一直堅持是「SQL 抓不到資料」，花了快兩小時才發現根本不是——伺服器上的 LibreOffice 被 MODA ODF Application Tools 的安裝程式覆寫掉了，舊路徑變成空殼資料夾。問題本身只是一行硬編碼路徑。難搞的是錯誤被四層補丁吞掉的方式：執行檔不見就拋例外、ConvertFile 沒產出檔還是寫 log 繼續跑、controller 對著不存在路徑 return File()、最外層 catch 把一切包成 Content("查無資料")。前端拿到 1,229 bytes 的「ODS 檔」（其實是 HTML 錯誤頁），或...

跟 AI 說「這對我很重要」讓它表現提升 115%——論文怎麼解釋這件事

發表於2026-05-06|AI工具實戰AI產業觀察

那個 115% 是怎麼來的我第一次看到這個數字的時候反應是「不可能吧」。論文叫 Large Language Models Understand and Can be Enhanced by Emotional Stimuli，2023 年由 Microsoft、中科院、威廉與瑪麗學院等機構合作發表。研究方法很簡單：在 prompt 末尾加上一句情緒話語，例如「這對我的職涯非常重要」「我相信你可以做得很好」，然後看模型表現會不會變化。結果是：自動評測涵蓋 45 個任務（Instruction Induction + BIG-Bench），多個模型上都看到改善另有 106 位受試者評估 30 個生成問題，EmotionPrompt 在 performance、truthfulness、responsibility 三項平均相對提升 10.9% 在 BIG-Bench 某些子任務上，相對改善飆到 115%（注意這是 relative improvement，在原始低基準任務上會被放大）在 Flan-T5、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4...

以為寫完了：Claude Code 觀測 digest 的兩次設計

發表於2026-04-10|AI工具實戰

我一直以為 Claude Code 在靜默觀測我做的每件事。裝了 continuous-learning-v2 這個 skill，規則寫著「每輪對話自動抽取模式」、「任務結束時主動寫入知識庫」，加上 auto-skill 把產出綁到 Obsidian Vault——聽起來就像我敲的每一行指令都會被默默萃取成經驗。然後我打開 Vault 的 auto-skill/experience/ 看一眼。 7 筆。 9 天 7 筆，其中 6 筆是某個下午當場叫 Claude 記的。真正「自動」產出的是 0 筆。我愣了一下——這兩週敲出來的幾千次工具呼叫到底去了哪裡？還是根本沒被記？規則沒壞，但產出為零auto-skill 的規則是這樣設計的：每輪對話抽關鍵詞、判斷話題切換、符合條件才主動問使用者要不要寫入。理論上很精巧，每次任務結束都會評估一下「這次解決的問題下次還能用嗎」，可以就寫。問題是這個評估是我執行的，而我是一個對話結束就消失的行程。每一代 session 用自己那輪的「品質標準」判斷，標準會漂移，多數日常工作我會覺得「這沒什麼特別」就跳過。結果 9 天產出 1 筆自動紀錄。...

你的 CLAUDE.md 超過 300 行了嗎？我用分層架構解決了三個問題

發表於2026-04-02|AI工具實戰

我的 CLAUDE.md 曾經有 800 多行。裡面塞了程式碼規範、交易哲學、小說寫作標準、TRPG 跑團引擎、150 個 skill 綁定，全部標「必須使用」。結果就是：AI 每次回應都在評估一百多條規則，該觸發的 skill 常常漏掉，不該觸發的反而亂觸發。寫程式的時候它想跟我討論交易策略，跑團的時候它想幫我做程式碼審查。花了幾週迭代，最後整理成一套架構，解決了三個具體問題。今天把它開源了：claude-layers。問題一：150 個 Skill 全標「必須使用」裝了三四十個 skill 之後，CLAUDE.md 裡的綁定表越來越長。每一條都寫「看到這個關鍵字，必須觸發這個 skill」。聽起來很合理，直到你發現 AI 把「必須」當成「全部一樣重要」。實際狀況是：有些 skill 包裝了外部 API（像 Twitter 發推用的 xurl、Google Workspace 用的 gog），不觸發就真的做不了事。但有些 skill 只是品質指引（像 python-patterns 提供 PEP 8 建議），不觸發也不會怎樣，只是品質稍差。把這兩種混在一起全部標...

.npmignore 少一行，512K 行原始碼見光——Claude Code 洩漏事件全解析

發表於2026-04-02|AI工具實戰工具與生產力

2026 年 3 月 31 日 UTC 凌晨 4 點，Anthropic 把 Claude Code v2.1.88 推上 npm。23 分鐘後，一位累積 190 萬美元漏洞賞金的安全研究員在 X 上發了一則貼文，引爆了 AI 開發工具史上最大的原始碼洩漏事件。 512,000 行 TypeScript。1,900 個檔案。44 個未開放的 Feature Flags。全部見光。而最諷刺的是，這家公司的品牌定位是「安全至上」。一個 .npmignore 的遺漏如何釀成災難事情的根因簡單到令人難以置信。 Claude Code 用 Bun 做 bundler。Bun 預設會產生 source map 檔案——一個 59.8 MB 的 cli.js.map，用來把打包後的程式碼對應回原始 TypeScript。這個檔案指向 Anthropic 的 Cloudflare R2 儲存桶上一個 zip 壓縮檔，裡面裝著完整的未混淆原始碼。正常流程下，.npmignore 應該排除這個檔案。但不知道是哪個環節出了問題，它被一起推上了公開的 npm registry。更慘的是，Bun ...

你的 AI 產品準備好被審計了嗎？美國兩部法案正在搶著定義規則

發表於2026-03-28|AI工具實戰AI產業觀察

3 月 18 日，美國參議員 Marsha Blackburn 丟出了一份近 300 頁的法案討論稿：TRUMP AMERICA AI Act。幾乎同時，參議員 Edward Markey 推出了 AI Civil Rights Act。兩部法案都要求對高風險 AI 系統做獨立的第三方偏見審計。但它們對「什麼是偏見」的定義完全不同，對「誰該負責」的看法也截然相反。如果你的 AI 產品面向美國市場，這不是「未來的問題」。這是現在進行式。兩部法案在吵什麼TRUMP AMERICA AI Act核心主張：聯邦法統一全國規則，取代各州自己搞的法規拼裝車。關鍵條款：風險分級制度：高風險 AI（醫療、信貸、招聘、關鍵基礎設施）需要強制審計和人工監督；低風險 AI 只需要資訊揭露年度偏見審計：高風險系統必須由獨立第三方做年度審計，特別檢測觀點歧視和政治傾向歧視廢除 Section 230：AI 公司不再能用「我只是平台」來免責聯邦搶佔州法：通過後，各州的 AI 法規全部失效，只認聯邦標準最後一條是最具爭議的。它意味著科羅拉多州、伊利諾州、紐約市這些已經實施的 AI 法規都...

當攻擊者也有了 AI Agent：地下論壇討論量暴增 1500%，agentic 攻擊框架長什麼樣

發表於2026-03-28|AI工具實戰資訊安全

Flashpoint 的 2026 全球威脅情報報告揭露了一個數字：2025 年 11 月到 12 月之間，地下論壇裡關於「用 AI 做壞事」的討論從 36.2 萬則暴增到超過 600 萬則。漲幅 1,500%。這不再是「用 ChatGPT 寫釣魚信」的等級。攻擊者已經建出了全自動化的 agentic 攻擊框架——能自主執行偵察、產生釣魚內容、測試竊取的憑證、輪換基礎設施，整個過程不需要人類持續介入。從好奇到量產：地下論壇裡發生了什麼Flashpoint 的研究團隊分析了 2025 年 1 月到 7 月間數十個網路犯罪論壇的對話。活動集中在 XSS、BreachForums、Dread 和 Exploit.in 這幾個知名平台。四個主題佔據了絕大部分討論：劫持主流 AI 服務：繞過 ChatGPT、Claude 的安全限制，讓它們產生惡意內容推銷犯罪用 AI 產品：專門為攻擊設計的 AI 工具，在論壇上像 SaaS 一樣販售微調模型做特定攻擊：針對特定產業或攻擊類型調整模型討論操作風險：用 AI 攻擊時如何避免被追蹤到了 11、12 月，討論量的爆發意味著社群...

一台 Mac mini 變成 24 小時 AI 員工：Perplexity Personal Computer 的架構野心

發表於2026-03-28|AI工具實戰工具與生產力

3 月 11 日，Perplexity 在首屆 Ask 開發者大會上發表了 Personal Computer。不是一台新電腦，而是一套軟體——裝在你的 Mac mini 上，讓它變成一個 24 小時不關機的 AI 員工。月費 200 美元。每個敏感操作需要你點一下「同意」。有 kill switch。企業版的宣傳數字是「四週完成 3.25 年的工作量」。先別急著翻白眼，架構本身值得拆解。三種「AI 控制你的電腦」路線2026 年至少有五家在做這件事。但技術路線完全不同：產品路線核心差異 Perplexity Personal Computer 本地硬體 + 雲端大腦 Mac mini 24 小時跑，agent 直接存取本地檔案和 app Claude Computer Use 螢幕操控看螢幕、移滑鼠、點按鈕，模擬人類操作 ChatGPT Agent Mode 雲端 agent 在 OpenAI 的伺服器上執行任務，透過 API 和工具完成 Microsoft Copilot 深度 OS 整合綁定 Windows 和 Office 365，...

你的商品開始在 ChatGPT 裡被賣了：Shopify Agentic Storefronts 技術拆解

發表於2026-03-28|AI工具實戰前後端開發

3 月 24 日，Shopify 把 560 萬家商店的商品直接塞進了 ChatGPT、Google AI Mode、Microsoft Copilot 和 Gemini 的對話裡。不需要商家安裝任何 app，不需要額外設定，預設就開。這不是「未來的電商趨勢」。這是上週發生的事。發生了什麼事一個消費者在 ChatGPT 裡問「推薦一款適合冬天跑步的防風外套」，ChatGPT 直接列出商品、價格、評價，點擊後跳轉到商家網站完成購買。整個流程中，消費者不需要打開 Google、不需要逛電商平台、不需要比價網站。數字說話：AI 導流量比 2025 年 1 月成長 7 倍，AI 歸因訂單成長 11 倍。Shopify 一口氣讓 560 萬商家對接 ChatGPT 的 8.8 億月活用戶。技術架構：三層堆疊Shopify 不是簡單地把商品目錄丟給 ChatGPT。背後是一套完整的 agentic commerce 架構。第一層：Shopify CatalogShopify 用自家的 LLM 自動分類和標註商品資料。關鍵在於——AI agent 不讀 HTML 描述。如果你的商品規...

Meta 的 HyperAgents：AI Agent 開始改進自己的改進方式了

發表於2026-03-27|AI工具實戰AI產業觀察

Meta 發了一篇論文叫 HyperAgents，副標題是「Self-referential self-improving agents that can optimize for any computable task」。GitHub 上已經開源，1.6k stars。讓我把它翻譯成人話：一個 AI agent 不只能改進自己解題的方式，還能改進「自己改進自己」的方式。聽起來像繞口令。但它指向的方向，值得每個做 AI 應用的開發者留意。問題：現有的自我改進都卡在一個地方AI agent 的「自我改進」不是新概念。最直觀的版本：agent 跑完一個任務，回頭看看哪裡做得不好，調整策略，下次做得更好。OpenAI 的 o1 用的 self-play、DeepSeek 的 self-improvement、還有去年的 Darwin Gödel Machine（DGM），都是這個思路的變體。 DGM 特別有意思——它能自己修改自己的程式碼，然後測試修改後的版本是否更好。在 coding 領域效果很棒，因為「改善 coding 能力」和「改善自我修改能力」是同一件事——你寫程式碼越...