2026 年 5 月最後一週,GPT-5.6 在 Codex 後端日誌裡被挖出來、Anthropic 的 Mythos 推翻了一個近 80 年的數學猜想、WWDC 很可能揭露 Gemini 驅動的新 Siri。如果這些消息有一半成真,六月的模型名稱、API 規格、token 單價會同時變動,留給開發者的切換視窗很短。
我三月寫過一篇模型大亂鬥,當時的結論是「沒有全能冠軍」——這句話到現在還適用。這次要聊的不是跑分比較,而是一個更實際的問題:你的系統架構裡,模型名稱寫死了幾處?錯誤碼寫死了幾處?stream chunk 格式寫死了幾處?
備戰清單放前面,後面的情報分析都服務這份清單。
開發者備戰清單(六月前完成)
1. 把 LLM 呼叫抽象出來
如果你的程式碼裡直接寫死 openai.chat.completions.create(),六月切模型會很痛苦。不需要複雜框架,一個 adapter 層就夠。核心是把模型選擇和業務邏輯分開。
1 | // 這是整理過的示意,實際版本會更簡單 |
切換模型不只是改一個字串。實際要驗的差異清單:
- tool calling schema 格式(OpenAI 和 Anthropic 的結構不同)
- streaming chunk 結構
- JSON mode 支援程度
- 錯誤碼分類和 retry 策略
- rate limit 和 quota 機制
- 定價欄位(input / output / cached token 單價各不同)
多模型路由已經是基礎設施等級的需求——OpenRouter 2026/5/26 宣布完成 1.13 億美元 B 輪,週處理量半年內從 5 兆 token 長到 25 兆。
另外,adapter 層同時要設計 rollback 機制:新模型切上去後如果 eval 指標掉了,能在一個 config 改動內退回舊模型。灰度流量(先導 5% 到新模型觀察)也值得考慮。
2. 壓力測試長上下文
150 萬 token 窗口聽起來很美。但長上下文不只是「塞得進去」的問題:
- 推理品質在 50 萬 token 之後是否衰減?(所謂的 “lost in the middle” 問題)
- 延遲和成本能接受嗎?150 萬 input token 的單次呼叫,以 GPT-5.5 目前的定價算,光 input 就超過 10 美元
- 什麼場景用完整上下文比 RAG 更值得?文件完整性要求高、跨段引用需要精確時,full-context 有優勢。延遲敏感、Token 預算有限時,RAG 仍然更實際
在六月發布前,拿你目前最長的真實使用場景,刻意把上下文灌到兩倍跑一次,觀察輸出品質和延遲變化。
3. 重算 token 預算
MiMo 2.5 Pro 降價最高 99%、Qwen 隱式快取上線(自動啟用不需設定)、OpenAI 新模型可能調整定價。六月之後,你的 token 單價結構很可能會變。
現在就把月用量拆一遍:多少是 input token、多少是 output、多少重複輸入可以用快取省掉、有沒有 batch mode 可以跑離線任務。這些數字在手,新模型定價一出來你就能直接算。順便確認你的每個 request 有記錄 model、input/output/cached token 數、latency 和 error class——沒有 observability,成本優化就是瞎猜。
中國模型的價格衝擊也跟這一項直接相關:
| 模型 | 亮點 | 來源 |
|---|---|---|
| Qwen3.7-Max | Code Arena 1541 分(非 Claude 陣營最高),隱式快取自動啟用 | 阿里雲官方 2026/5/26 |
| MiMo 2.5 Pro | API 價格永久下調最高 99%,與 DeepSeek V4 Pro 同價 | 2026/5/26 公告 |
| MiniCPM5-1B | 1B 參數,INT4 量化後 0.5GB,可在手機和瀏覽器跑 | 面壁智能 2026/5/26 開源 |
成本敏感 + 低敏感資料的場景適合考慮。使用邊界:跨境資料傳輸合規、供應商穩定度、企業採購審核流程。
4. 別急著 all-in——先建 eval 集
每家的 benchmark 都只能參考,你的任務分佈跟他們的測試集不會一樣。正式切換前,用自己場景的 eval 集跑兩週再決定。
eval 集怎麼建?不需要很複雜:從你的生產日誌裡撈 50-100 筆有代表性的真實任務,固定輸入、記錄期望的輸出格式和品質標準,人工評分打 pass/fail。跑 eval 時固定 temperature、seed 和 prompt 版本,確保可重跑。新模型上線後跑一遍,看 pass rate、p95 延遲、單任務成本三個數字,資料會告訴你哪個模型在你的場景裡表現最好。
以下是六月前後各家的動態整理。每段結尾會標出確認程度和建議動作時機。
OpenAI:GPT-5.6 iris-alpha
多名開發者在 OpenAI Codex 的後端日誌裡獨立發現了未官宣的 GPT-5.6 模型,內部代號 iris-alpha(來源:IT 之家 2026/5/26 報導,引述多名開發者獨立發現)。
核心規格:
- 上下文窗口 150 萬 token,較 GPT-5.5 的 105 萬提升 43%
- 測試顯示在輸入達 90 萬 token 時仍能流暢回應
- 同時被發現的 ember-alpha、beacon-alpha 變體用途不明
- 前端界面生成能力有所提升
值得注意的是發現方式——不是 API changelog,是 Codex 後端日誌。這代表 OpenAI 已經在自家產品裡跑這個模型了。如果 90 萬 token 下仍能流暢回應的報告屬實,意味著 OpenAI 在長上下文的推理品質上有了實質進展,不只是把窗口數字拉大。
確認程度: 洩漏情報(多人獨立驗證,但非官方公告)
建議動作: 不要基於洩漏資訊重寫架構。但如果你的應用涉及大量文件分析或整個程式碼庫的理解,值得留意正式發布後的 benchmark 和定價。
Anthropic:Mythos 不只是解數學題
2026/5/26,Anthropic 工程師 Sholto Douglas 在社群表示,Claude Mythos 在週末推翻了 Erdős 單位距離猜想——一個近 80 年的數學難題,OpenAI 曾將其列為 AI 數學能力的里程碑(來源:The Decoder 2026/5/26 報導)。Douglas 形容那是一個「巧妙簡潔的證明」。
數學題是能力信號,但真正能落到工程流程的是安全掃描。Mythos 對開發者更直接的影響是 Project Glasswing——這對備戰清單第 4 點的 eval 流程最相關。Glasswing 從 2026 年 4 月啟動,約 50 家合作夥伴用 Mythos Preview 掃描關鍵軟體(來源:Anthropic 官方 2026/5/21 發佈的 Glasswing 進度更新)。幾個數字:
- 超過 10,000 個高危或嚴重漏洞
- 多家合作夥伴回報效率提升超過十倍
- Cloudflare 在關鍵路徑系統找到 2,000 個漏洞
- Mozilla 在 Firefox 150 裡發現並修復 271 個
- 獨立驗證準確率 90.6%
Mythos 目前不是一般開發者能直接呼叫的模型。即使用不到 Mythos,Glasswing 的數據說明一件事:AI 輔助 code review 的效率已經到了一個新量級。現有的 Claude 模型整合進 CI 做安全掃描是可以認真考慮的方向,但要注意邊界:
- 只阻擋 critical / high,medium 以下產警告就好
- 敏感程式碼不送未核准供應商(確認供應商的資料保留期和訓練使用條款)
- 要有 suppression 機制處理誤報
- 密鑰和客戶資料絕對不進 prompt
確認程度: Mythos 能力與 Glasswing 數據 — 官方發佈
建議動作: 可以開始在 staging 環境測試 Claude 做 SAST 掃描。
Google + Apple:Gemini 3.5 Pro 和 1.2T 的 Siri 引擎
Google 這邊有兩條線。
Gemini 3.5 Pro 預期 2026 年 6 月發布(來源:Nathan Lambert Interconnects 2026/5/26 文章提及;Kim @kimmonismus 2026/5/25 推文交叉印證)。Google I/O 後,Sundar Pichai 受訪把方向講得很直——搜尋要從「給結果」變成「啟動任務」(來源:The Verge Decoder Podcast 2026/5/26)。Gemini Spark Agent平台是這個方向的產品化嘗試。
另一條是 Apple:據報導,Apple 不只是把 Gemini 加到 Siri,而是用了一個定制版 1.2T 參數的 Google 模型重塑 Siri 核心(來源:Kim @kimmonismus 2026/5/25 推文,為單一二手來源,未經官方確認)。如果屬實,這個規模遠大於 Gemini 3.5 Flash 預估的 300B。
Apple 的方案據稱是分層架構:簡單查詢走本地端側模型,複雜問題上雲端大模型。架構合理,但「什麼算簡單」的切分邏輯是使用體驗的關鍵。WWDC 預計六月初舉行。
如果 WWDC 確認 Siri 能更可靠地呼叫 App Intents,iOS 開發者需要重新評估整合策略。後端開發者也值得留意——Apple Intelligence 對 API schema 的理解能力提升,意味著你的 API 文件品質會直接影響 Siri 能不能正確呼叫你的服務。
確認程度: WWDC — 已確認;Gemini 3.5 Pro — 高度可能(多來源交叉);1.2T 定制模型 — 單一二手來源,未官方確認
建議動作: WWDC 後第一週重新評估 Apple Intelligence 整合方案。
xAI:Grok Build 已經在跑了
其他家還在「即將發布」,xAI 的 Grok Build 2026/5/25 已開放 Beta(來源:xAI 官方推文)。跟 Claude Code 走類似路線——不只是 chat,而是 CLI 工具直接進入開發者工作流程。同時 Grok 模型接進了開源編碼工具 OpenCode,用 OAuth 認證即可在終端裡呼叫。xAI 在模型排行上不是前三,但產品節奏確實激進。
確認程度: 官方發佈
建議動作: 有 SuperGrok 訂閱的話花半小時試用,跟現有工具比一下手感。不急。
回到清單
六月之後回來看,這些消息裡一定有些是錯的。但不管哪些成真,備戰清單裡的四件事都不會白做。如果只能做一件,先做第一項——把模型名稱從業務邏輯裡抽出來,六月不管誰先出牌,你都能跟上。




