你的 AI 模型不需要永遠在思考:Phi-4-reasoning-vision 的思考開關機制拆解
上週我在測一個圖片分類 pipeline,用的是某個 70B 的多模態模型。每張圖片丟進去,模型都要「深呼吸」想個十幾秒,輸出一大段 chain-of-thought,最後才吐出一個分類標籤。 問題是,八成的圖片根本不需要推理。一張貓的照片,你不需要「讓我仔細分析這張圖片的像素分佈和語義特徵」,你只需要說「貓」。 Microsoft 在 3 月 4 日開源的 Phi-4-reasoning-vision-15B,做了一件我認為比「更大更強」更有價值的事:教模型判斷什麼時候該思考,什麼時候不該。 15B 參數做到了什麼先看數字。Phi-4-reasoning-vision-15B 在十個基準測試上的表現: AI2D(科學圖表):84.8 ChartQA(圖表問答):83.3 MathVista(數學視覺推理):75.2 ScreenSpot v2(UI 元素定位):88.2 MMMU(綜合多模態理解):54.3 這些分數追不上 Qwen3-VL-32B,但跟同量級的 Qwen3-VL-8B 和 Kimi-VL-A3B 比,持平甚至領先。重點是,Qwen...
