跟 AI 說「這對我很重要」讓它表現提升 115%——論文怎麼解釋這件事
那個 115% 是怎麼來的我第一次看到這個數字的時候反應是「不可能吧」。 論文叫 Large Language Models Understand and Can be Enhanced by Emotional Stimuli,2023 年由 Microsoft、中科院、威廉與瑪麗學院等機構合作發表。研究方法很簡單:在 prompt 末尾加上一句情緒話語,例如「這對我的職涯非常重要」「我相信你可以做得很好」,然後看模型表現會不會變化。 結果是: 自動評測涵蓋 45 個任務(Instruction Induction + BIG-Bench),多個模型上都看到改善 另有 106 位受試者評估 30 個生成問題,EmotionPrompt 在 performance、truthfulness、responsibility 三項平均相對提升 10.9% 在 BIG-Bench 某些子任務上,相對改善飆到 115%(注意這是 relative improvement,在原始低基準任務上會被放大) 在 Flan-T5、Vicuna、Llama...
AI Agent 不寫程式了——2026 年 Agent 生態從寫 Code 走向裝 Skill
上個月我盯 GitHub Trending 的時候,發現一個微妙的轉變:排行榜上最火的 AI 專案,不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。 OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後,定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。 這幾個專案各做各的,但拼在一起看,指向同一件事:Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。 從「什麼都自己幹」到「會裝外掛就好」2024 年的 AI Agent 長這樣:給它一個任務,它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。 問題很明顯。每次執行同樣的任務,Agent...
當你的 AI Agent 有 500 個工具:從 GPT-5.4 的 Tool Search 看工具管理的正確姿勢
上週我在幫公司的 AI Agent 接上第 47 個 MCP server 時,API 帳單跳了一個數字讓我差點從椅子上摔下來。 不是因為用量暴增。是因為每一次 API 呼叫,光是把 36 個 MCP server 的工具定義塞進 context,就吃掉了將近 40,000 tokens。模型還沒開始思考,錢已經燒了一半。 3 月 5 日 OpenAI 發布 GPT-5.4 時,benchmark 數字和 Computer Use 搶走了所有目光。但對我來說,最值得注意的功能只有一個——Tool Search。 工具爆炸問題:你可能已經踩到了先說個數字。一個標準的 function calling 工具定義,包含名稱、描述、參數 schema,平均佔 200-500 tokens。聽起來不多? 算一下: 10 個工具 → ~3,000 tokens(還好) 50 個工具 → ~15,000 tokens(開始痛) 200 個工具 → ~60,000 tokens(每次呼叫都在燒錢) 500 個工具 → ~150,000 tokens(恭喜,光工具定義就用掉一般模型...
你的 CLAUDE.md 寫太多了:7,308 次實驗證明 AI Agent 指令 2-3 條就好
上週我在整理自己的 CLAUDE.md 時,發現它已經膨脹到快 800 行。規則疊規則、範例套範例,像一本員工手冊。直覺告訴我這樣「比較完整」,但實際體感是——Claude Code 有時會忽略我寫在後半段的指令,偶爾還會把兩條規則搞混。 然後我讀到 SkillsBench 這篇論文,它用 7,308 條執行軌跡和 84 個任務做了一件事:測量「給 AI Agent 的操作指引(Skills)」到底給多少、寫多長才有效。 結論讓我重新打開編輯器,把那 800 行砍掉一半。 先講數字研究團隊在 Claude Code、Codex CLI、Gemini CLI 三個平台上,測試了七種模型配置。每個任務跑五次,用程式化斷言判定通過與否——不是讓另一個 LLM 當裁判,是寫死的測試。 整體結論:精心撰寫的 Skills 平均提升 16.2 個百分點。這個數字本身不意外,有指引當然比沒有好。 意外的是拆開來看的時候。 2-3 條指引是甜蜜點,4 條以上開始拖後腿 Skills 數量 有 Skills 無 Skills 差距 1...
三月AI模型大亂鬥:GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了
3 月 5 日,OpenAI 丟出 GPT-5.4。兩週前,Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上,跑分互有勝負,開發者選擇困難症大爆發。 我花了幾天把三家的 benchmark 數據、定價和實際使用場景整理了一遍。結論先說:沒有全能冠軍,但各有各的殺手鐧。 GPT-5.4:第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式:看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中,它拿到 75% 的成功率,超越人類的 72.4%。這不是小數字的進步,GPT-5.2 在同一個測試只有 47.3%。 另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。 硬指標 項目 GPT-5.4 跟 GPT-5.2...
100 兆 tokens 告訴你:為什麼降價 10% 也救不了你的 LLM 產品
你以為 AI 模型競爭就是打價格戰? OpenRouter 剛發布的報告分析了 100 兆 tokens 的真實使用數據,發現一個驚人事實:**降價 10%,使用量只增加 0.5-0.7%**。 更扯的是,Claude 價格最貴,卻占了編程市場 60%。 到底發生什麼事? 為什麼這份報告值得關注?這不是又一份「AI 趨勢預測」報告。 OpenRouter 是全球最大的 LLM API 聚合平台: 支援 300+ 模型 60+ 供應商(OpenAI、Anthropic、Google、DeepSeek...) 100 兆 tokens 真實使用數據(2024/11 - 2025/11) 這份報告揭露了三個開發者必須知道的反直覺發現。 發現 1:價格戰是假議題數據打臉時刻 策略 實際結果 降價 10% 使用量 ↑ 0.5-0.7% Claude(最貴) 編程市場占...
Context7mcp:為你的 AI 開發助手注入最新文件庫的即時知識
Github頁面:Context7mcp當你的 AI 助手不懂最新技術文件時「這段程式碼有問題,Upstash Redis 的連線方式好像不對...」 我盯著 Claude 給我的程式碼,皺了皺眉。即使是最新的 LLM 模型,在處理新的函式庫或快速迭代的專案時,也會產生過時的程式碼。它們訓練的知識總有截止日,新的 API 或功能怎麼可能被它們掌握? 這正是 Upstash 團隊開發 Context7 的原因。 Context7:讓你的 AI 助手立即獲得最新文件Context7 是一個專為大型語言模型(LLM)和 AI 程式編輯器設計的即時文件提供工具。它能確保你的 AI 助手(如 Claude、GitHub Copilot、Cursor 等)可以獲取最新、最準確的技術文件,而不是依賴可能過時的訓練資料。 透過 Context7,不管你是使用 Next.js、Zod、Tailwind 這些快速迭代的框架,還是使用 LLM 可能從未見過的小眾函式庫,都能讓 AI 助手產生正確的程式碼。 主要功能與特色Context7...
在本機免費運行 AI 大模型的開源神器 Ollama
前言隨著 AI 技術的快速發展,大型語言模型(LLM)的應用越來越廣泛。然而,要在本機運行這些模型往往需要複雜的環境設定與昂貴的硬體設備。今天要介紹的 Ollama 就是一個能讓你輕鬆在本機運行各種開源 AI 模型的神器! Ollama 是什麼?Ollama 是一個開源的 LLM 運行工具,它的主要特色包括: 簡單易用的安裝流程 支援多種開源模型 優秀的效能最佳化 完整的 API 支援 活躍的社群支援 安裝教學系統需求 作業系統: Windows/macOS/Linux RAM: 建議至少 8GB 硬碟空間: 依照模型大小,建議預留 10GB 以上 安裝步驟Windows 安裝 從 Ollama 官網 下載 Windows 安裝檔 執行安裝檔,依照指示完成安裝 開啟命令提示字元確認安裝成功:1ollama --version macOS 安裝使用 Homebrew 安裝: 1brew install ollama Linux 安裝使用官方腳本安裝: 1curl -fsSL https://ollama.ai/install.sh |...
