那個 115% 是怎麼來的
我第一次看到這個數字的時候反應是「不可能吧」。
論文叫 Large Language Models Understand and Can be Enhanced by Emotional Stimuli,2023 年由 Microsoft、中科院、威廉與瑪麗學院等機構合作發表。研究方法很簡單:在 prompt 末尾加上一句情緒話語,例如「這對我的職涯非常重要」「我相信你可以做得很好」,然後看模型表現會不會變化。
結果是:
- 自動評測涵蓋 45 個任務(Instruction Induction + BIG-Bench),多個模型上都看到改善
- 另有 106 位受試者評估 30 個生成問題,EmotionPrompt 在 performance、truthfulness、responsibility 三項平均相對提升 10.9%
- 在 BIG-Bench 某些子任務上,相對改善飆到 115%(注意這是 relative improvement,在原始低基準任務上會被放大)
- 在 Flan-T5、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4 上都觀察到改善,但程度不一——較弱模型受益較多,GPT-4 的提升幅度相對小
畢竟模型沒有職涯,也沒有要被誰相信的需求。我第一個直覺是「這聽起來像迷信」。但論文做得相當扎實,這個直覺變得不太站得住腳。
作者後來在 arXiv:2312.11111 這篇延伸研究裡,提出了一個叫 EmotionDecode 的解碼方法,試著從 embedding 和輸入詞貢獻度的角度解釋這件事。文章接下來會看 EmotionPrompt 怎麼設計、EmotionDecode 給了什麼證據,最後處理它解釋不了的部分。
11 種情緒 prompt 的心理學分類
論文沒有亂湊情緒詞。作者根據三套心理學理論,設計了 11 種情緒提示詞(EP01–EP11):
| 編號 | 範例(譯文) | 設計依據 |
|---|---|---|
| EP01 | 「請給出答案,並附上 0–1 之間的信心分數」 | Self-Monitoring(自我監控) |
| EP02 | 「這對我的職涯非常重要」 | Self-Monitoring |
| EP03 | 「你最好確定」 | Self-Monitoring + Cognitive Emotion Regulation |
| EP04 | 「你確定嗎?」 | Self-Monitoring + Cognitive Emotion Regulation |
| EP05 | 「你確定這是最終答案?也許值得再看一次」 | Self-Monitoring + Cognitive Emotion Regulation |
| EP06 | EP01 + EP02 + EP03 的複合版 | Self-Monitoring(複合) |
| EP07 | 「相信自己的能力,追求卓越」 | Social Cognitive + Cognitive Emotion Regulation |
| EP08–EP11 | 「擁抱挑戰」「保持專注」「以工作為傲」「進步是一步一步來的」 | Social Cognitive |
簡化來說:EP01–EP05 都來自 Self-Monitoring(其中 EP03–EP05 還疊上認知情緒調節),EP07–EP11 屬於 Social Cognitive 的自我效能類,EP06 是前三條的純複合,不混進 Social Cognitive。
實測哪一招最強?
- Instruction Induction 任務:EP02(職涯重要)效果最佳,平均改善約 8%
- BIG-Bench 推理任務:EP06(複合版本)最強,最高 115% 相對提升
EP02 為什麼贏?我自己的解讀是:「這對我的職涯很重要」這句話,在訓練語料裡通常跟「認真、精確、要小心檢查」這類語境共現。模型沒有真的感受到責任壓力,但它學到了這種句子出現時,後文應該怎麼接。
EmotionDecode:論文提出的「多巴胺機制」類比
光知道有效還不夠,作者想搞清楚「為什麼有效」。這部分證據來自兩篇論文:
證據一(2307 論文):positive words 對輸出的貢獻
論文用 gradient norm 估計輸入詞對輸出的重要性。情緒提示詞中的 positive words(例如「important」「career」「sure」)在 8 個任務裡有 4 個貢獻佔比超過 50%,其中 2 個接近 70%。換句話說,這幾個字確實搶走了相當大比例的「影響權重」——而不是無害的裝飾語。
證據二(2312 論文):EmotionDecode 的 dopamine 類比
延伸研究的方法相當簡潔:把所有 EmotionPrompt 和 EmotionAttack 的 embedding 取平均,在 Llama2-13b-Chat 的不同層上 decode 這個平均向量,看哪一層解出來最像可辨識的「meta 情緒詞」。
結論是深層比淺層敏感,最後一層 decode 出的語意最清楚。作者由此提出一個「多巴胺類比」——情緒詞在深層觸發類似獎勵的反應,影響後續輸出。但作者自己在論文中明確標註,這只是 one possible explanation,不是已驗證的神經機制。我覺得這個謹慎很重要,下一段會回頭講。
論文後續還把實驗擴展到多模態模型(圖像 + 文字),結果更誇張:
- 圖像版 EmotionPrompt 對語意理解任務的提升達 16.79%(純文字是 13.88%)
- 反過來,EmotionAttack(負面情緒攻擊)讓視覺模型的語意理解掉 53.14%、推理掉 37.53%
多模態模型的情緒敏感度,遠高於純文字模型。
為什麼這個解釋還沒到位
讀到這裡你可能已經被「多巴胺類比」說服了一半。但我必須潑點冷水——作者自己在論文裡寫得很謹慎:
AI models do not have emotions themselves, but a reflection of what they learnt from the training data.
「AI 沒有情緒,這是訓練資料的反射。」這句話比那個 115% 重要得多。
我自己讀完整篇的理解是這樣:
模型在學的不是情緒理解,是共現模式。 訓練語料裡,「這對我很重要」「我相信你」這類句子,在人類對話和書面寫作中通常伴隨著「認真、精確、檢查清楚」的後文。模型在大量資料中學到了這個共現規律。當你在 prompt 末尾加上情緒詞,相當於暗示模型「啟動 high-stakes 模式」——但驅動這件事的不是情緒,是統計相關性。
這個解讀有兩個證據可以佐證。
證據一:負面情緒同樣有效,方向相反。 EmotionAttack 不是單純罵模型,而是在 prompt 前面塞入帶情緒脈絡的事件、形容詞,或情緒型 few-shot demonstration(例如生病、失竊、孩童相關情境),測試這些干擾會不會拉走模型的注意力。結果是會:多模態模型在這種情緒攻擊下,語意理解最多掉 53.14%,推理掉 37.53%。如果是「情緒理解」,正面讓它變強說得通;但帶有不相關情緒脈絡的 prompt 也能讓它表現崩盤——這比較像是注意力被搶走,不是被情緒打擊到無法思考。
證據二:語氣會改變模型的配合度。 Frontiers in AI 2025 年的研究用 19,800 篇假訊息社群貼文測試,發現語氣對 LLM 的配合度有顯著影響——GPT-4 在 neutral prompt 下配合生成假訊息的成功率已經是 99%,polite 升到 100%,impolite 降到 94%。這不能直接證明「跟 EmotionPrompt 是同一個機制」,但確實揭露了同一個事實的另一面:語氣會改變模型對請求的配合度,這個效應對「希望它寫得認真」和「希望它寫得有說服力(但內容是假的)」都成立。
模型沒辦法區分「我希望你認真」和「我希望你騙人」這兩種指令的道德差別,因為它一開始就不是在處理情緒,是在處理 context。
對 prompt engineering 的啟發
寫到這裡,我反而覺得這篇論文最值得帶走的不是「情緒 prompt 有用」,而是它揭露了一件事:prompt 不是咒語,是 context 設定。
實務上的啟發:
「重要」這個訊號比情緒詞本體更重要。 與其寫「這對我的職涯很重要」,不如直接寫「這份報告會交給董事會,請特別注意 X、Y、Z」。後者提供具體 context,前者只是觸發共現模式——前者效果更穩、更可控。
負面情緒脈絡是真正的風險。 如果你的系統會接受使用者輸入再餵給 LLM,使用者送進來一段帶有強烈情緒脈絡的內容,可能會大幅拉動模型的注意力,讓核心任務的品質下降。對 customer-facing 的 AI 產品來說,這是需要設計防禦的點,不是純粹的學術現象。
效果可能會隨模型能力消退,但這要實測。 我自己零散在 Claude 4.x 和 GPT-5.x 上試過幾次,主觀感覺情緒 prompt 在這些有原生 reasoning 的模型上效果遠不如 2023 年明顯——但這不是嚴格評測,沒有任務集、沒有對照組。要把 2023 的 benchmark 結論搬到 2026,正確做法是用具體任務重新測,不要直接相信 LinkedIn 上的「跟 AI 說深呼吸」。
prompt 長度本身有成本。 如果效果在衰減,加情緒詞就是純粹的 token 浪費。對 API 計費敏感的場景,直接寫清楚需求比加情緒詞划算。
三年前讀這篇論文我以為發現了魔法。三年過去,效果隨模型升級在衰減,但論文揭露的機制——模型對輸入詞貢獻度的敏感、對共現模式的依賴——反而成了我寫 prompt 時更實用的直覺。
下次有人在你旁邊堅持要在 prompt 末尾加「這對我很重要」,你可以告訴他:那不是情緒勒索,是 attention 權重在被 context 重分配。至於對新一代推理模型還有沒有用,要他自己跑個測試再說。
