kyosora 筆記

發表於2026-05-22|技術觀察AI 工程

智譜 5/22 對部分企業客戶推出 GLM-5.1 高速版，API 輸出速度達 400 tokens/s。新聞標題是「全球最快」，但這個說法不嚴謹——Cerebras 跑 Llama 405B 早就破 900 tps。真正值得單獨講的不是「誰快」，而是 400 tps 在工程上意味著什麼。這篇不是寫智譜的 PR 稿。我關心的問題是：旗艦級大模型過了某個速度門檻之後，工程師能做的事會出現質變——這個門檻大概在哪裡？哪些場景真的能因此解鎖？哪些只是看起來很厲害的行銷數字？速度光譜定位先把 400 tps 放到正確的座標上。市面上幾個常見的推理速度：模型 / 平台輸出速度性質 GPT-5 / Claude Sonnet 4.6（標準 API） 60-120 tps 旗艦級的「典型」速度 Groq LPU 跑 Llama 70B ~280 tps 中型模型 + 客製晶片智譜 GLM-5.1 highspeed 400 tps 旗艦級 + 純軟體優化 Cerebras WSE-3 跑 Llama 405B ~970 tps 旗艦級 +...

90% 到 99% 之間的工程戰爭：Cursor 雲端 Agent 一年實戰拆解

發表於2026-05-22|技術觀察AI 工程

Cursor 在 5/21 釋出一篇「What we've learned building cloud agents」，作者是 Josh Ma。看起來像普通的工程經驗總結，但藏了一個讓我看完盯著螢幕想很久的數字：他們把 Cursor 內部 monorepo 的 40% PR 交給雲端 Agent 寫，而且這個比例還在漲。這套系統最後支撐到 40% 之前，他們花了一年——不是「把本地 Agent 搬到伺服器」那種一年，而是把可靠性從 90%（一個九）拉到 99%（兩個九），中間放棄了自研架構、改用 Temporal、重新拆解了 agent、機器、對話三個狀態。我自己沒做過 cloud agent 產品，但這篇花了一個下午消化，因為文章拆出來的五個學習，每一個都是「想做 AI Agent SaaS 的人遲早會撞上的牆」。寫一篇給台灣中階開發者看的拆解版。（附帶一個小插曲：中文 AI 資訊聚合站把原文的 "two nines" 翻成「99.9%」，實際是 99%。讀任何技術摘要，最後一步都要回原文校對。）第一個坑：以為雲端 Agent 就是把本地...