400 tps 是分水嶺:智譜 GLM-5.1 高速版能解決哪些工程瓶頸
智譜 5/22 對部分企業客戶推出 GLM-5.1 高速版,API 輸出速度達 400 tokens/s。新聞標題是「全球最快」,但這個說法不嚴謹——Cerebras 跑 Llama 405B 早就破 900 tps。真正值得單獨講的不是「誰快」,而是 400 tps 在工程上意味著什麼。 這篇不是寫智譜的 PR 稿。我關心的問題是:旗艦級大模型過了某個速度門檻之後,工程師能做的事會出現質變——這個門檻大概在哪裡?哪些場景真的能因此解鎖?哪些只是看起來很厲害的行銷數字? 速度光譜定位先把 400 tps 放到正確的座標上。市面上幾個常見的推理速度: 模型 / 平台 輸出速度 性質 GPT-5 / Claude Sonnet 4.6(標準 API) 60-120 tps 旗艦級的「典型」速度 Groq LPU 跑 Llama 70B ~280 tps 中型模型 + 客製晶片 智譜 GLM-5.1 highspeed 400 tps 旗艦級 + 純軟體優化 Cerebras WSE-3 跑 Llama 405B ~970 tps 旗艦級 +...
90% 到 99% 之間的工程戰爭:Cursor 雲端 Agent 一年實戰拆解
Cursor 在 5/21 釋出一篇「What we've learned building cloud agents」,作者是 Josh Ma。看起來像普通的工程經驗總結,但藏了一個讓我看完盯著螢幕想很久的數字:他們把 Cursor 內部 monorepo 的 40% PR 交給雲端 Agent 寫,而且這個比例還在漲。 這套系統最後支撐到 40% 之前,他們花了一年——不是「把本地 Agent 搬到伺服器」那種一年,而是把可靠性從 90%(一個九)拉到 99%(兩個九),中間放棄了自研架構、改用 Temporal、重新拆解了 agent、機器、對話三個狀態。 我自己沒做過 cloud agent 產品,但這篇花了一個下午消化,因為文章拆出來的五個學習,每一個都是「想做 AI Agent SaaS 的人遲早會撞上的牆」。寫一篇給台灣中階開發者看的拆解版。(附帶一個小插曲:中文 AI 資訊聚合站把原文的 "two nines" 翻成「99.9%」,實際是 99%。讀任何技術摘要,最後一步都要回原文校對。) 第一個坑:以為雲端 Agent 就是把本地...
