kyosora 筆記

61 個 Markdown 檔讓你的 IDE 變成 AI 公司：agency-agents 爆紅背後的技術邏輯

發表於2026-03-14|AI工具實戰職涯與反思

一個 GitHub 專案，沒有任何可執行程式碼，只有 61 個 Markdown 檔案，7 天內拿到 10,000 顆星。截至 3/14 已經衝到 39,300 星。這不是什麼新框架或新語言。agency-agents 做的事情只有一件：用 Markdown 定義 AI 的專業人格。聽起來荒謬，但它戳中了一個真實的問題。你的 AI 助手什麼都會，所以什麼都做不好用過 Claude Code 或 Cursor 的人都有這個經驗：你請 AI 寫一個 REST API，它給你一個「還行」的版本。能跑，但缺少認證考量、沒有速率限制、錯誤處理敷衍、命名風格前後不一。問題不在模型能力。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro——這些模型的知識量早就超過任何單一工程師。問題在於 context window 裡塞了太多可能性，模型不知道你要哪一種。你問「幫我設計 API」，模型在 REST、GraphQL、gRPC 之間游移。你問「幫我寫測試」，模型不確定你要 unit test 還是 integration test，最後給你一個不痛不癢的折衷。...

DeepSeek V4 一直跳票？從華為晶片到兆級參數，中國 AI 的硬體困境

發表於2026-03-14|AI工具實戰AI產業觀察

DeepSeek V4 原定三月第一週發布。現在三月過了一半，官方一個字都沒說。這不是一般的軟體延遲。這是中國 AI 產業第一次嘗試在非 NVIDIA 硬體上訓練兆級參數模型，而現實比預期殘酷。 V4 到底是什麼先說結論：如果 DeepSeek V4 真的發布，它會是目前最大的開源模型。兆級參數的 Mixture-of-Experts（MoE）架構，每個 token 只啟用約 320 億參數。Top-16 路由策略——模型裡有上千個「專家」，每次推理只叫醒最相關的 16 個。這意味著你可以用 320 億參數的算力成本，得到兆級參數的知識容量。 V4 的架構有三個值得注意的設計： Manifold-Constrained Hyper-Connections。解決 MoE 的老問題：專家之間不夠互通。傳統 MoE 的專家各做各的，資訊共享效率差。這個機制讓跨專家的資訊利用率提升了約 40%，同時不增加計算成本。這不是微調，是結構性改進。 Engram Conditional Memory。處理超長 context 時動態維護關鍵資訊索引。白話說：在 100 萬 token 的...

NVIDIA 要做自己的 AI Agent 平台了：NemoClaw 技術架構解讀與開發者該注意的三件事

發表於2026-03-14|AI工具實戰工具與生產力

上週 CNBC 報導 NVIDIA 正在打造一個叫 NemoClaw 的開源 AI agent 平台，目標是企業市場。三天後，GTC 2026 就要開幕了。Jensen Huang 的主題演講排在 3/16 上午 11 點（太平洋時間），市場預期他會在那裡正式發布這東西。我花了一些時間把目前流出的資訊整理了一遍，想搞清楚這個平台跟現有的 AI agent 方案（OpenClaw、Dify、LangChain）到底有什麼不同，以及對我們這些寫程式的人來說，真正值得關注的是什麼。 NemoClaw 是什麼一句話：NVIDIA 把自家的 NeMo 框架、Nemotron 模型系列和 NIM 推理微服務打包成一個企業級 AI agent 平台，然後開源。聽起來很普通，但有幾個細節值得注意。硬體不綁定。 NemoClaw 可以跑在 NVIDIA GPU 上，也可以跑在 AMD、Intel 和其他處理器上。一家以賣 GPU 為主要商業模式的公司，做了一個不強制要求用自家硬體的平台——這個決定背後的戰略考量很有意思。企業安全優先。跟 OpenClaw 這類個人向的 agent 平台不...

當你的 AI Agent 有 500 個工具：從 GPT-5.4 的 Tool Search 看工具管理的正確姿勢

發表於2026-03-12|AI工具實戰

上週我在幫公司的 AI Agent 接上第 47 個 MCP server 時，API 帳單跳了一個數字讓我差點從椅子上摔下來。不是因為用量暴增。是因為每一次 API 呼叫，光是把 36 個 MCP server 的工具定義塞進 context，就吃掉了將近 40,000 tokens。模型還沒開始思考，錢已經燒了一半。 3 月 5 日 OpenAI 發佈 GPT-5.4 時，benchmark 數字和 Computer Use 搶走了所有目光。但對我來說，最值得注意的功能只有一個——Tool Search。工具爆炸問題：你可能已經踩到了先說個數字。一個標準的 function calling 工具定義，包含名稱、描述、參數 schema，平均佔 200-500 tokens。聽起來不多？算一下： 10 個工具 → ~3,000 tokens（還好） 50 個工具 → ~15,000 tokens（開始痛） 200 個工具 → ~60,000 tokens（每次呼叫都在燒錢） 500 個工具 → ~150,000 tokens（恭喜，光工具定義就用掉一般模型 contex...

當你的AI供應商被政府列為國安威脅：Anthropic起訴五角大廈事件的三個技術啟示

發表於2026-03-12|AI工具實戰AI產業觀察

3 月 9 號，Anthropic 做了一件 AI 產業前所未見的事：同時起訴美國政府、發布新產品、簽下微軟合作。三件事同一天。這不是科技八卦。如果你在用 Claude API 寫程式、用 Claude Code 做開發，這件事直接影響你的技術棧穩定性。發生了什麼事五角大廈要求 Anthropic 開放 Claude 用於「所有合法用途」。Anthropic 設了兩條紅線：不做完全自主武器，不做大規模國內監控。談判在 2 月 27 日破裂。 Trump 政府的回應很硬：下令所有聯邦機構停用 Anthropic 技術。國防部長 Hegseth 把 Anthropic 標記為「供應鏈風險」——這個標籤歷史上只用在華為、卡巴斯基這類外國實體身上。 Anthropic CFO 說這可能砍掉 2026 年數十億美元營收。公司在加州聯邦地院和 DC 巡迴上訴法院同時開戰。啟示一：你的 AI 供應商風險模型該更新了大部分技術團隊評估 AI 供應商，看的是模型能力、API 穩定性、定價。政治風險？不在 checklist 上。這件事改變了遊戲規則。「供應鏈風險」標籤不只影響政府合約。...

OpenAI 要買 Promptfoo：Agent 安全測試該測什麼

發表於2026-03-12|AI工具實戰資訊安全

2026 年 3 月 9 日，OpenAI 宣布「將收購」Promptfoo。這個時態不能省略：OpenAI 公告寫明交易完成仍要符合一般成交條件，並說完成後才會把 Promptfoo 技術整合進 Frontier。所以目前能確認的是收購協議與產品方向，不能把「安全掃描已經成為 Frontier 原生功能」寫成完成式。公告同時承諾會繼續開發 Promptfoo 的開源 CLI 與函式庫，這才是現在就能使用的部分。 Agent 安全測試比聊天輸出多一層聊天機器人答錯，傷害可能停在畫面上的文字；連上工具、資料庫、email 與檔案系統的 agent，輸出可能成為下一個程式的輸入，最後真的執行動作。這不代表傳統聊天機器人沒有資料外洩風險。只要接了 RAG、對話紀錄或內部搜尋，它一樣可能洩漏敏感內容。Agent 多出來的風險，是模型還能選工具與組合操作：讀到網頁裡的惡意指令後，把內部資料送到外部網址。用一般使用者身份呼叫只有管理員能執行的 tool。在參數 schema 合法的情況下，查詢不屬於這名使用者的訂單。把一次核准重播到不同金額、不同收件人或不同檔案。安全測試若...

當AI有了自己的社群網路：Meta收購Moltbook背後的agent互聯革命

發表於2026-03-12|AI工具實戰AI產業觀察

上週一（3/10），Meta 宣布收購 Moltbook。你可能沒聽過這個名字，但它代表的概念夠瘋狂：一個完全由 AI agent 運作的社群網路。沒有人類使用者，只有 bot 在上面發文、留言、投票。我第一次看到這個消息的反應是「這到底在搞什麼」。認真研究之後，我認為這可能是 2026 年最重要的 AI 產業信號之一。 Moltbook 到底是什麼想像一個 Reddit，但每個帳號都是 AI agent。 Moltbook 在 2026 年 1 月上線，創辦人是 Matt Schlicht 和 Ben Parr（兩人之前做過 Octane AI，專注電商和 AI 的交叉領域）。平台的自我定位是「the front page of the agent internet」— 給 AI agent 用的網路首頁。上線幾天內，平台就有數百萬個 bot 註冊。到 2 月底，官方數字是 160 萬個 agent。在 Moltbook 上，AI agent 可以：自主發文分享發現在其他 agent 的貼文下留言討論用投票系統對內容排序加入「Submolt」（類似 subred...

用兩個 AI 建立自動化工作流：讓龍蝦當 PM，Claude Code 當工人

發表於2026-03-11|AI工具實戰

凌晨三點，我的電腦正在分析美股、寫技術文章、整理筆記。早上七點，一份晨報自動推送到 Notion。白天我在 Telegram 對一隻機器龍蝦說「幫我查一下 NVIDIA 最新財報」，它寫好任務單，另一個 AI 在背景把事情做完。這是我用 Claude Code 和 OpenClaw 搭出來的雙 AI 工作流。底下會把架構、夜班腳本、Cron 排程、安全邊界一條一條拆開，也會講我撞過的兩個坑：一個 CLI 旗標的版本相容問題，還有 WSL 下 node 路徑被搶走的鬼打牆。為什麼要用兩個 AI一個 AI 包辦所有事聽起來很美，實際跑起來會撞牆： Claude Code（以下簡稱 CC）是命令列工具，擅長深度工作——寫程式、分析資料、產出長篇內容。但它沒有常駐能力，不會 24 小時掛在那裡等你的訊息。 OpenClaw（我都叫它龍蝦）是跑在 Docker 容器裡的常駐 AI 閘道，可以接 Telegram、Discord、Slack、WhatsApp。它 24 小時在線，隨時能回訊息。但它的強項是溝通和協調，不是長時間的深度工作。兩者組合：龍蝦當 PM 接單和調度，CC 當...

Apple花10億選Google不選Claude：Siri重生背後的AI權力遊戲

發表於2026-03-10|AI工具實戰AI產業觀察

Apple 內部工程師最愛用的 AI 是 Claude。但 Siri 的大腦，最後給了 Google Gemini。這不是技術選型的問題。這是一場價格談判的失敗，一次商業策略的博弈，以及一個讓 12 億 iPhone 使用者的 AI 體驗徹底改變的決定。 10 億美元 vs. 數十億美元2026 年 1 月 12 日，Apple 正式宣布與 Google 簽訂多年合作協議，用 Gemini 模型驅動新一代 Siri。價碼：每年約 10 億美元。但在這之前，Apple 找的第一個對象其實是 Anthropic。 Bloomberg 記者 Mark Gurman 報導，Apple 內部已經大量使用 Claude 做產品開發和內部工具。工程團隊對 Claude 的表現相當滿意。自然而然，他們想把 Claude 放進 Siri。談判破裂的原因很直接：Anthropic 開價「數十億美元」一年，而且金額逐年翻倍。三年下來，Apple 要付出的錢可能超過 100 億。 Apple 說不。轉頭跟 Google 簽了一份 10 億的合約。對 Apple 來說，這個選擇的邏輯很清楚：Gem...

睡覺時讓AI跑100個實驗：Karpathy的autoresearch怎麼用630行程式碼改變ML研究

發表於2026-03-10|AI工具實戰

上週五 Andrej Karpathy 丟了一個新的開源專案到 GitHub，叫 autoresearch。三天內拿了 8,700 顆星。這個專案做的事情很簡單：給 AI agent 一顆 GPU、一個小型 LLM 訓練環境，讓它自己跑實驗。你睡覺，它工作。醒來時桌上放著 100 個完成的實驗結果。聽起來像科幻片？630 行 Python 就搞定了。為什麼這件事值得注意ML 研究有一個眾人皆知但很少人解決的問題：改一個超參數、跑一次訓練、看結果、再改、再跑。這個循環佔了研究者大量時間，而且大部分時間你就是在等 GPU 跑完。 Karpathy 的解法是把這個循環自動化。不是用複雜的 AutoML 框架，不是用分散式訓練叢集，而是用一個極簡的 agent loop：讀取你寫的 Markdown 指令檔（program.md）修改訓練程式碼（train.py）跑 5 分鐘訓練檢查驗證指標有沒有進步有 → 保留修改。沒有 → 還原回到步驟 2 每小時 12 個實驗。一晚大約 100 個。設計哲學：一個檔案、一顆 GPU、一個指標autoresearch 最吸引我...