kyosora 筆記

發表於2026-05-22|AI工具實戰AI產業觀察

智譜 5/22 對部分企業客戶推出 GLM-5.1 高速版，API 輸出速度達 400 tokens/s。新聞標題是「全球最快」，但這個說法不嚴謹——Cerebras 跑 Llama 405B 早就破 900 tps。真正值得單獨講的不是「誰快」，而是 400 tps 在工程上意味著什麼。這篇不是寫智譜的 PR 稿。我關心的問題是：旗艦級大模型過了某個速度門檻之後，工程師能做的事會出現質變——這個門檻大概在哪裡？哪些場景真的能因此解鎖？哪些只是看起來很厲害的行銷數字？速度光譜定位先把 400 tps 放到正確的座標上。市面上幾個常見的推理速度：模型 / 平台輸出速度性質 GPT-5 / Claude Sonnet 4.6（標準 API） 60-120 tps 旗艦級的「典型」速度 Groq LPU 跑 Llama 70B ~280 tps 中型模型 + 客製晶片智譜 GLM-5.1 highspeed 400 tps 旗艦級 + 純軟體優化 Cerebras WSE-3 跑 Llama 405B ~970 tps 旗艦級 + 晶圓級晶片人...