kyosora 筆記

你的 AI 模型不需要永遠在思考：Phi-4-reasoning-vision 的思考開關機制拆解

發表於2026-03-15|AI工具實戰AI產業觀察

上週我在測一個圖片分類 pipeline，用的是某個 70B 的多模態模型。每張圖片丟進去，模型都要「深呼吸」想個十幾秒，輸出一大段 chain-of-thought，最後才吐出一個分類標籤。問題是，八成的圖片根本不需要推理。一張貓的照片，你不需要「讓我仔細分析這張圖片的像素分佈和語義特徵」，你只需要說「貓」。 Microsoft 在 3 月 4 日開源的 Phi-4-reasoning-vision-15B，做了一件我認為比「更大更強」更有價值的事：教模型判斷什麼時候該思考，什麼時候不該。 15B 參數做到了什麼先看數字。Phi-4-reasoning-vision-15B 在十個基準測試上的表現： AI2D（科學圖表）：84.8 ChartQA（圖表問答）：83.3 MathVista（數學視覺推理）：75.2 ScreenSpot v2（UI 元素定位）：88.2 MMMU（綜合多模態理解）：54.3 這些分數追不上 Qwen3-VL-32B，但跟同量級的 Qwen3-VL-8B 和 Kimi-VL-A3B 比，持平甚至領先。重點是，Qwen 家族的訓練資料量超過一兆...