kyosora 筆記

六月 AI 模型大戰前夕：GPT-5.6、Gemini 3.5 Pro、Claude Mythos 同時壓境，開發者怎麼準備？

發表於2026-05-27|AI工具實戰AI產業觀察

2026 年 5 月最後一週，GPT-5.6 在 Codex 後端日誌裡被挖出來、Anthropic 的 Mythos 推翻了一個近 80 年的數學猜想、WWDC 很可能揭露 Gemini 驅動的新 Siri。如果這些消息有一半成真，六月的模型名稱、API 規格、token 單價會同時變動，留給開發者的切換視窗很短。我三月寫過一篇模型大亂鬥，當時的結論是「沒有全能冠軍」——這句話到現在還適用。這次要聊的不是跑分比較，而是一個更實際的問題：你的系統架構裡，模型名稱寫死了幾處？錯誤碼寫死了幾處？stream chunk 格式寫死了幾處？備戰清單放前面，後面的情報分析都服務這份清單。開發者備戰清單（六月前完成）1. 把 LLM 呼叫抽象出來如果你的程式碼裡直接寫死 openai.chat.completions.create()，六月切模型會很痛苦。不需要複雜框架，一個 adapter 層就夠。核心是把模型選擇和業務邏輯分開。 1234567891011121314151617181920212223242526272829// 這是整理過的示意，實際版本會更簡單interfa...

當 Siri 終於有了大腦：Apple 與 Google 聯手打造的三層 AI 架構解析

發表於2026-03-09|AI工具實戰前後端開發

等了快十年，Siri 終於要從「智障助理」畢業了。 Apple 在 iOS 26.4 中重新打造了 Siri，背後用的是 Google 的 Gemini 模型。這不是小改版——是整個架構砍掉重練。22 億台 Apple 裝置將在三月底收到更新，這是史上最大規模的 AI 助理部署。身為開發者，我最關心的不是行銷話術，而是三個問題：架構怎麼設計的？隱私怎麼處理？對我們的 App 有什麼影響？三層處理架構：該在哪算就在哪算新 Siri 的核心設計是一個三層漸進式架構。不是所有請求都丟給雲端，而是根據任務複雜度，動態決定在哪一層處理。第一層：裝置端處理（On-Device）簡單任務直接在手機上跑。設鬧鐘、開 App、查天氣——這些不需要網路請求，回應速度在毫秒等級。Apple 在 A17/M 系列晶片上跑的本地模型處理這些綽綽有餘。隱私上最安全，因為資料根本不離開裝置。第二層：Apple Private Cloud Compute 本地模型搞不定的中等複雜度任務，送到 Apple 自己的私有雲。這層用的是 Apple 自研的模型，跑在 Apple Silicon 伺服器上。 ...

三月AI模型大亂鬥：GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了

發表於2026-03-08|AI工具實戰AI產業觀察

3 月 5 日，OpenAI 丟出 GPT-5.4。兩週前，Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上，跑分互有勝負，開發者選擇困難症大爆發。我花了幾天把三家的 benchmark 資料、定價和實際使用場景整理了一遍。結論先說：沒有全能冠軍，但各有各的殺手鐧。 GPT-5.4：第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式：看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中，它拿到 75% 的成功率，超越人類的 72.4%。這不是小數字的進步，GPT-5.2 在同一個測試只有 47.3%。另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。硬指標項目 GPT-5.4 跟 GPT-5.2 相比 GDPval（知識工作） 83% 7...

100 兆 tokens 告訴你：為什麼降價 10% 也救不了你的 LLM 產品

發表於2025-12-09|AI工具實戰AI產業觀察

你以為 AI 模型競爭就是打價格戰？ OpenRouter 剛發佈的報告分析了 100 兆 tokens 的真實使用資料，發現一個驚人事實：**降價 10%，使用量只增加 0.5-0.7%**。更扯的是，Claude 價格最貴，卻占了編程市場 60%。到底發生什麼事？為什麼這份報告值得關注？這不是又一份「AI 趨勢預測」報告。 OpenRouter 是全球最大的 LLM API 聚合平台：支援 300+ 模型 60+ 供應商（OpenAI、Anthropic、Google、DeepSeek...） 100 兆 tokens 真實使用資料（2024/11 - 2025/11）這份報告揭露了三個開發者必須知道的反直覺發現。發現 1：價格戰是假議題資料打臉時刻策略實際結果降價 10% 使用量 ↑ 0.5-0.7% Claude（最貴）編程市場占 60% DeepSeek（便宜）使用者流失後又回流報告原話： "需求缺乏價格彈性，使用者優先考慮品質和可靠性而非價格。" 為什麼會這樣？工程師選模型的真實決策流程：...