400 tps 是分水嶺:智譜 GLM-5.1 高速版能解決哪些工程瓶頸
智譜 5/22 對部分企業客戶推出 GLM-5.1 高速版,API 輸出速度達 400 tokens/s。新聞標題是「全球最快」,但這個說法不嚴謹——Cerebras 跑 Llama 405B 早就破 900 tps。真正值得單獨講的不是「誰快」,而是 400 tps 在工程上意味著什麼。 這篇不是寫智譜的 PR 稿。我關心的問題是:旗艦級大模型過了某個速度門檻之後,工程師能做的事會出現質變——這個門檻大概在哪裡?哪些場景真的能因此解鎖?哪些只是看起來很厲害的行銷數字? 速度光譜定位先把 400 tps 放到正確的座標上。市面上幾個常見的推理速度: 模型 / 平台 輸出速度 性質 GPT-5 / Claude Sonnet 4.6(標準 API) 60-120 tps 旗艦級的「典型」速度 Groq LPU 跑 Llama 70B ~280 tps 中型模型 + 客製晶片 智譜 GLM-5.1 highspeed 400 tps 旗艦級 + 純軟體優化 Cerebras WSE-3 跑 Llama 405B ~970 tps 旗艦級 +...
