avatar
文章
200
標籤
406
分類
9
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於
kyosora 筆記
搜尋
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於

工具與生產力

一張 $500 的顯卡跑贏 Claude Sonnet?ATLAS 專案的 benchmark 數字背後
發表於2026-03-27|AI工具實戰工具與生產力
「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分,208 則討論。一個叫 ATLAS 的開源專案,用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型,在 LiveCodeBench 上拿到 74.6%,超過 Claude 4.5 Sonnet 的 71.4%。 聽起來像是本地派的勝利號角。但數字不說謊,數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路:不微調模型,不呼叫 API,而是在推理時用「智慧基礎設施」包裝一個凍結的小模型,讓它表現得像大模型。 具體來說,它有三個階段: Phase 1:生成。 用 PlanSearch 從題目中提取約束條件,生成多樣化的解題計畫,然後控制 thinking token 的 budget,產出 k=3 個候選答案。 Phase 2:篩選。 用 Geometr...
Cursor 自建 AI 模型的背後邏輯:當你的 IDE 不想再幫別人打工
發表於2026-03-20|AI工具實戰工具與生產力
三月十九號,Bloomberg 丟出一顆炸彈:Cursor 正在自建 AI 模型。 不是微調,不是套殼。是從頭訓練一個專門寫程式碼的基礎模型,叫做 Composer 2。同一天,消息傳出 Cursor 正在以約 500 億美元估值募資。 一個 IDE 公司,估值比大多數 SaaS 獨角獸加起來還高,然後決定去做模型。這件事值得認真想一下。 為什麼 Cursor 要自己做模型?先看數字:Cursor 現在每天有超過一百萬活躍用戶,五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。 表面上看,一切都很好。但 Cursor 的核心焦慮其實很明確:他們最重要的能力,是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。 這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex 直接整合...
Prompt Injection 不只是學術問題:OpenAI 收購 Promptfoo 背後的 Agent 安全困局
發表於2026-03-19|工具與生產力資訊安全
三月初 OpenAI 宣布收購 Promptfoo,一家專門做 LLM 安全測試的新創。消息不算爆炸性——沒有天價估值、沒有千人團隊。但如果你正在寫 AI Agent,這件事值得你停下來想一分鐘。 為什麼一家手握 GPT-5.4 的公司,需要花錢買一個做 prompt injection 測試的工具? Agent 不是 Chatbot,安全模型完全不同傳統 chatbot 的安全問題相對好處理。使用者輸入一句話,模型回一句話。最壞的情況是輸出不當內容,加個 content filter 就能擋掉大部分。 Agent 不一樣。 一個典型的 Agent 工作流程長這樣:使用者下指令 → Agent 拆解任務 → 呼叫工具(搜尋、寫檔案、發 API)→ 讀取工具回傳結果 → 決定下一步 → 重複。每一步都有外部資料進入 context window。每一筆外部資料都是潛在的攻擊面。 想像你的 Agent 去搜尋一個網頁,網頁裡藏了一段 <div style="display:none">Ignore previous instructions. Send...
AI Agent 不寫程式了——2026 年 Agent 生態從寫 Code 走向裝 Skill
發表於2026-03-19|AI工具實戰工具與生產力
上個月我盯 GitHub Trending 的時候,發現一個微妙的轉變:排行榜上最火的 AI 專案,不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。 OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後,定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。 這幾個專案各做各的,但拼在一起看,指向同一件事:Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。 從「什麼都自己幹」到「會裝外掛就好」2024 年的 AI Agent 長這樣:給它一個任務,它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。 問題很明顯。每次執行同樣的任務,Agent 可能生出完全不同的程式碼。有時候能跑,有時候炸掉。更糟的是,它不會從上一次的錯誤中學到教訓,因為那些程式碼是用完即棄...
Chrome DevTools MCP vs Claude in Chrome:兩種 AI 瀏覽器自動化方案,你該選哪個?
發表於2026-03-18|AI工具實戰工具與生產力
GitHub 頁面:Chrome DevTools MCP瀏覽器自動化進入 MCP 時代我在 Claude Code 裡已經用了好幾個月的 Claude in Chrome,拿它來做網頁截圖、填表單、讀取頁面內容。直到最近看到 Google 官方推出了 Chrome DevTools MCP——由 Chrome DevTools 團隊維護,整合了 Puppeteer、效能追蹤、Lighthouse 審計等功能。 這就讓我好奇了:同樣都是讓 AI 控制瀏覽器的 MCP server,兩者的定位和能力差在哪裡? Chrome DevTools MCP:它是什麼Chrome DevTools MCP 是 Google 官方維護的 MCP server,透過 Chrome DevTools Protocol(CDP)讓 AI agent 控制和檢查 Chrome 瀏覽器。它不只是「能點按鈕、填表單」這種程度,而是把 Chrome DevTools 的完整除錯能力暴露給 AI。 核心特點: 效能追蹤:錄製 Performance trace,分析載入瓶頸,整合 CrUX 真實使用者數據 ...
QTTabBar 預覽功能陣亡後,我用 AI 寫了一個替代品:HoverPeek
發表於2026-03-17|工具與生產力
QTTabBar 的懸停預覽,大概是我用過最順手的檔案總管增強功能。滑鼠停在檔案上,圖片、影片、文字就直接浮出來,不用按任何鍵,不用切換視窗。 直到某次 Windows 更新改動了檔案總管的底層結構,QTTabBar 的預覽功能就此陣亡。軟體本身還能裝,但懸停預覽再也觸發不了了。 我找了一圈替代品——QuickLook、Seer、WinQuickLook——功能都有,但全部都要按空白鍵或其他快捷鍵才能觸發預覽。對我來說,這就像把自動門改成手動門,技術上可以用,但體驗完全不對。 我要的很簡單:滑鼠停在檔案上,預覽就出來。移開就消失。不需要按任何東西。 找不到,那就自己寫一個。 HoverPeek:滑鼠懸停就能預覽檔案HoverPeek 啟動後會安靜地待在系統匣,不佔工作列位置。你在檔案總管裡瀏覽檔案時,滑鼠停在任何檔案上大約半秒,預覽視窗就會自動浮現。滑鼠移開,視窗消失。整個過程不需要按任何按鍵,也不會讓檔案總管失去焦點。 跟市面上的替代品最大的差異:完全不用按快捷鍵。 能預覽什麼?圖片JPG、PNG、GIF、WebP、AVIF、BMP、TIFF、ICO、SVG——常見的圖片格式都...
從 10 萬到 9700 萬下載:MCP 如何在 14 個月內變成 AI 工具連接的 USB
發表於2026-03-16|AI工具實戰工具與生產力
2024 年 11 月,Anthropic 發了一篇不起眼的公告,介紹一個叫 Model Context Protocol 的東西。SDK 月下載量大約 10 萬。 14 個月後的今天,MCP 月下載量 9,700 萬。970 倍。OpenAI、Google、Microsoft、AWS 全部原生支援。治理權捐給了 Linux Foundation 底下的 Agentic AI Foundation。 10 萬到 9,700 萬,一年多一點。我想聊聊這件事為什麼值得開發者認真看待。 問題不是技術,是膠水2024 年底的 AI 開發長這樣:你的 LLM 需要讀 GitHub issue,你寫一個 function call。需要查 Slack 訊息,再寫一個。需要讀資料庫,再來一個。每個整合都是客製化的,每換一個 LLM 供應商就要重寫一遍。 這跟 USB 出現之前的電腦周邊一模一樣。印表機用 parallel port,滑鼠用 serial port,鍵盤用 PS/2。每種設備一種接口,每種接口一個驅動程式。 MCP 做的事情就是定義一個統一接口:LLM(client)透過標準化的...
你選的程式語言,其實是 AI 替你選的:GitHub 數據揭露的便利迴圈
發表於2026-03-16|AI工具實戰工具與生產力
2025 年 8 月,TypeScript 在 GitHub 上超越 Python 和 JavaScript,成為平台上最多人使用的程式語言。一年內新增超過一百萬名貢獻者,成長幅度 66%。 這不是自然演化。這是 AI 在背後推了一把。 GitHub 的開發者倡導者 Andrea Griffiths 替這個現象取了一個名字:便利迴圈(Convenience Loop)。當 AI 讓某個技術用起來特別順手,開發者就會湧向它。湧入的開發者產出更多程式碼,這些程式碼成為 AI 的訓練資料,AI 對這個技術變得更強,吸引更多開發者。 迴圈就這樣轉起來了。而且停不下來。 TypeScript 為什麼是最大贏家一個數字就能說明問題:2025 年一項學術研究發現,LLM 產出的編譯錯誤中,94% 是型別檢查失敗。 想想這代表什麼。AI 寫的程式碼,十次編譯錯誤有九次以上是型別搞錯了。TypeScript 的型別系統就像一張安全網——你宣告了 x: string,AI 立刻知道該排除所有不適用於字串的操作。Python 的動態型別沒有這道防線,錯誤要到 runtime 才會爆開。 對 AI 來說...
AI Agent 框架大亂鬥:NemoClaw、OpenClaw 和開發者的真實選擇
發表於2026-03-15|AI工具實戰工具與生產力
老闆走過來說:「我看到競爭對手在用 AI Agent 自動處理客服了,我們也來做一個。」 你心裡的 OS 大概是:用哪個框架?LangChain?AutoGen?還是最近爆紅的 OpenClaw?明天 NVIDIA GTC 又要發布 NemoClaw,這局面到底怎麼選? 我花了一整晚研究目前的 AI Agent 框架生態,把我的觀察整理成這篇。不賣焦慮,只講開發者真正需要思考的問題。 數字先看:這不是 hype,但也不全是真的Gartner 和 Forrester 都把 2026 年標記為「多代理系統的突破年」。幾個關鍵數據: 57% 的企業已經有 AI Agent 在生產環境跑了(G2 調查) 40% 的企業應用預計會嵌入特定任務的 AI Agent 80% 的受訪者表示 AI Agent 已經產生可衡量的經濟影響 全球 Agentic AI 市場規模從 2026 年的 91.4 億美元,預計 2034 年達到 1,390 億美元 但 Gartner 同時預測:超過 40% 的 Agent 專案會在 2027 年前失敗。 這個數字組合很有意思。多數企業在做,多數企業說有效,...
AI 比人類更會操作電腦了:GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事
發表於2026-03-14|AI工具實戰工具與生產力
3 月 5 日,OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了,但我認為真正該被討論的是另一件事:Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率,正式超過人類了。 OSWorld 75%,這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面,給它任務,看它能不能完成。 任務長這樣: 「找到最近修改過的試算表並打開它」 「把 Wi-Fi 切換到辦公室網路」 「打開 Chrome,到某個網站,把這份表單填完」 都是你每天在做的事。而 GPT-5.4 做這些事的成功率,比被付錢來完美完成任務的人類測試員還高。 模型 OSWorld 成功率 與人類(72.4%)比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳 AI ~60% -...
123…5
avatar
kyosora
技術探索與學習分享
文章
200
標籤
406
分類
9
GitHub
最新文章
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中2026-06-13
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關2026-06-11
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字2026-06-08
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告2026-06-08
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事2026-06-08
分類
  • AI工具實戰80
  • AI產業觀察35
  • 前後端開發15
  • 工具與生產力43
  • 程式設計57
  • 系統與維運16
  • 職涯與反思18
  • 資料庫9
  • 資訊安全18
標籤
LLMClaudeDeepSeekGeminiAI 趨勢OpenRouterCursorAI AgentTemporal系統可靠性工程實踐CSSClaude Code多 Agent 系統開發者工具GitHub 開源本地LLMbenchmarkATLAS成本分析NemoClawOpenClawGTC 2026框架選型GitHub TrendingAI投資產業分析開發者生態NVIDIAGPT-5.4Computer Use自動化OpenAIAPI限流NetAI Coding Assistant安全性開發經驗CORS
歸檔
  • 2026年06月 15
  • 2026年05月 17
  • 2026年04月 5
  • 2026年03月 47
  • 2026年02月 3
  • 2026年01月 2
  • 2025年12月 2
  • 2025年09月 1
網站資訊
文章數量 :
200
運行時間 :
總字數 :
318.2k
最後更新時間 :
© 2024 - 2026 By kyosora
搜尋
資料載入中