avatar
文章
200
標籤
406
分類
9
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於
kyosora 筆記
搜尋
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於

AI工具實戰

Meta 的 HyperAgents:AI Agent 開始改進自己的改進方式了
發表於2026-03-27|AI工具實戰AI產業觀察
Meta 發了一篇論文叫 HyperAgents,副標題是「Self-referential self-improving agents that can optimize for any computable task」。GitHub 上已經開源,1.6k stars。 讓我把它翻譯成人話:一個 AI agent 不只能改進自己解題的方式,還能改進「自己改進自己」的方式。 聽起來像繞口令。但它指向的方向,值得每個做 AI 應用的開發者留意。 問題:現有的自我改進都卡在一個地方AI agent 的「自我改進」不是新概念。最直觀的版本:agent 跑完一個任務,回頭看看哪裡做得不好,調整策略,下次做得更好。OpenAI 的 o1 用的 self-play、DeepSeek 的 self-improvement、還有去年的 Darwin Gödel Machine(DGM),都是這個思路的變體。 DGM 特別有意思——它能自己修改自己的程式碼,然後測試修改後的版本是否更好。在 coding 領域效果很棒,因為「改善 coding 能力」和「改善自我修改能力」是同一件事——你寫程式碼越...
Claude 寫、Codex 審:Agent-to-Agent 配對程式設計到底有沒有用?
發表於2026-03-27|AI工具實戰工具與生產力
一個人寫程式碼容易盲點。所以我們發明了 pair programming——兩個人看同一份程式碼,一個寫、一個審。 現在有人問:如果兩個都換成 AI 呢? 這個概念從哪來Axel Delafosse 在他的部落格上發了一篇「Agent-to-agent pair programming」,在 HN 拿了 97 分和 34 則討論。核心想法:讓 Claude Code 負責寫程式碼,讓 OpenAI Codex 負責 review,兩個 agent 在同一個 codebase 上來回迭代,直到 review 通過。 不是人 + AI,是 AI + AI。人類退到 supervisor 的角色——設定目標、審核最終結果,中間過程交給兩個 agent 自己跑。 實際怎麼運作目前有幾種做法在社群裡流通: 手動切換派。 最原始但很多人在用。Claude Code 寫完一個 feature,把 diff 丟給 Codex review。Codex 找到問題,人類把 review 結果貼回 Claude Code。來回幾輪直到通過。HN 上有人提到做了 10-15 輪 fix-and-revi...
一天、$400 的 token、年省 $500K:Reco 用 AI 重寫 JSONata 的真實帳本
發表於2026-03-27|AI工具實戰前後端開發
Reco(一家 SaaS 安全公司)用 AI 在七小時內把 JSONata 從 JavaScript 重寫成 Go,產出 13,000 行程式碼,通過 1,778 個測試案例。token 花費 $400。上線後每月省 $25,000 compute 費用,加上後續的 pipeline 優化,年省 $500K。 這個故事在 Hacker News 上拿了 207 分和 186 則討論。數字很吸睛,但真正值得學的不是數字——是他們怎麼確保 AI 生成的 13,000 行程式碼不會在生產環境炸掉。 問題:一條昂貴的語言邊界Reco 有一個 policy engine,用 JSONata(一種 JSON 查詢和轉換語言,類似 jq 但有 lambda)對資料管線中的每條事件做規則比對。幾十億條事件,上千條規則。 JSONata 的參考實作是 JavaScript。Reco 的 pipeline 是 Go。所以他們多年來一直在 Kubernetes 上跑一整組 Node.js pod——Go 服務透過 RPC 呼叫 Node.js 來做 JSONata 運算。 每次呼叫的代價:序列化 → ...
一張 $500 的顯卡跑贏 Claude Sonnet?ATLAS 專案的 benchmark 數字背後
發表於2026-03-27|AI工具實戰工具與生產力
「$500 GPU outperforms Claude Sonnet on coding benchmarks」——這個標題在 Hacker News 上拿了 370 分,208 則討論。一個叫 ATLAS 的開源專案,用一張 RTX 5060 Ti 16GB 跑 Qwen3-14B 量化模型,在 LiveCodeBench 上拿到 74.6%,超過 Claude 4.5 Sonnet 的 71.4%。 聽起來像是本地派的勝利號角。但數字不說謊,數字只是不說完整的故事。 ATLAS 做了什麼ATLAS 全名是 Adaptive Test-time Learning and Autonomous Specialization。核心思路:不微調模型,不呼叫 API,而是在推理時用「智慧基礎設施」包裝一個凍結的小模型,讓它表現得像大模型。 具體來說,它有三個階段: Phase 1:生成。 用 PlanSearch 從題目中提取約束條件,生成多樣化的解題計畫,然後控制 thinking token 的 budget,產出 k=3 個候選答案。 Phase 2:篩選。 用 Geometr...
你的 AI 開發工具鏈被下毒了嗎?LiteLLM 供應鏈攻擊事件完整解析
發表於2026-03-27|AI工具實戰資訊安全
2026 年 3 月 24 日上午 10:52 UTC,有人把一個藏了後門的 litellm 1.82.8 推上了 PyPI。六分鐘後,一位工程師的筆電因為 11,000 個 Python 程序同時爆開而當機。 他原本以為是 Cursor 更新搞的鬼。結果是一場精心設計的供應鏈攻擊——而且他是全世界第一個發現的人。 事件怎麼發生的litellm 是 AI 開發圈的常客。做 LLM 應用的人幾乎都用過它——統一呼叫 OpenAI、Anthropic、Gemini 等不同模型 API 的 proxy 層。PyPI 上的週下載量是百萬級別。 攻擊者拿到了 litellm 的 PyPI 發布權限(很可能是維護者帳號被盜),直接推了一個 1.82.8 版本上去。GitHub 上完全沒有對應的 tag 或 release——繞過了正常的發布流程。 惡意程式碼藏在一個叫 litellm_init.pth 的檔案裡。.pth 是 Python 的一個古老機制:放在 site-packages 目錄下的 .pth 檔案,會在每次 Python 啟動時自動執行。不需要 import,不需要呼叫,Py...
Sora 之死不是敗給誰——是 OpenAI 在 IPO 前算了一筆帳
發表於2026-03-25|AI工具實戰AI產業觀察
3 月 24 日,OpenAI 宣布全面關閉 Sora——app 砍了、API 砍了、ChatGPT 裡的影片生成也砍了。Disney 那筆 10 億美元的投資?胎死腹中,一毛錢都沒付出去。 群組裡在喊「Sora 已死」,不少人第一反應是「被 Seedance 打爆了吧?」 沒那麼簡單。Sora 的死因不是單一競爭對手,而是一連串產品、商業和戰略層面的連環失誤,最後由 OpenAI 自己拔掉了插頭。 960 萬次下載,140 萬美元營收先看數字。 去年九月 Sora 2 以獨立社群 app 的形式上線,五天內衝破百萬下載,比 ChatGPT 當初還快。十一月達到高峰——單月 330 萬次下載。所有人都覺得這是下一個殺手級應用。 然後就開始崩了。 時間 月下載量 變化 2025 年 11 月 330 萬 高峰 2025 年 12 月 224 萬 -32% 2026 年 1 月 120 萬 -45% 2026 年 2 月 110 萬 -8% 整個產品生命週期,消費者總共花了 140 萬美元。高峰月營收 54 萬美元,到三月只剩 36.7 萬。 一個需要天文...
Cursor 自建 AI 模型的背後邏輯:當你的 IDE 不想再幫別人打工
發表於2026-03-20|AI工具實戰工具與生產力
三月十九號,Bloomberg 丟出一顆炸彈:Cursor 正在自建 AI 模型。 不是微調,不是套殼。是從頭訓練一個專門寫程式碼的基礎模型,叫做 Composer 2。同一天,消息傳出 Cursor 正在以約 500 億美元估值募資。 一個 IDE 公司,估值比大多數 SaaS 獨角獸加起來還高,然後決定去做模型。這件事值得認真想一下。 為什麼 Cursor 要自己做模型?先看數字:Cursor 現在每天有超過一百萬活躍用戶,五萬家企業客戶——包括 Stripe 和 Figma 這種等級的公司。ARR 已經衝到 20 億美元。 表面上看,一切都很好。但 Cursor 的核心焦慮其實很明確:他們最重要的能力,是別人提供的。 Cursor 背後的模型主要是 Claude 和 GPT。每一次 Anthropic 改了 API 定價、每一次 OpenAI 決定把 Codex 做得更好、每一次這些公司推出自己的 IDE 或 Agent 產品——Cursor 的護城河就窄了一點。 這不是被害妄想。Claude Code 已經在搶 Cursor 的午餐。OpenAI 的 Codex 直接整合...
AI Agent 不寫程式了——2026 年 Agent 生態從寫 Code 走向裝 Skill
發表於2026-03-19|AI工具實戰工具與生產力
上個月我盯 GitHub Trending 的時候,發現一個微妙的轉變:排行榜上最火的 AI 專案,不再是「更好的模型」或「更快的推理引擎」。而是一堆教 Agent 怎麼裝外掛、怎麼組合技能的框架。 OpenClaw 60 天內從 9,000 顆星飆到 250,000 顆。Obra/superpowers 緊隨其後,定位自己是「Agent 的 App Store」。ByteDance 的 DeerFlow v2 上線當天就衝上 Trending 第一。Karpathy 的 autoresearch 三天拿了 23,000 顆星。 這幾個專案各做各的,但拼在一起看,指向同一件事:Agent 的核心能力正從「寫程式碼」轉移到「組合技能」。 從「什麼都自己幹」到「會裝外掛就好」2024 年的 AI Agent 長這樣:給它一個任務,它會嘗試用程式碼從零搭出解決方案。寫 API 呼叫、處理 JSON、做錯誤處理——全部即時生成。 問題很明顯。每次執行同樣的任務,Agent 可能生出完全不同的程式碼。有時候能跑,有時候炸掉。更糟的是,它不會從上一次的錯誤中學到教訓,因為那些程式碼是用完即棄...
AI 投資三年了,錢到底花到哪去了?從 Bloomberg 的靈魂拷問看開發者該知道的事
發表於2026-03-19|AI工具實戰AI產業觀察
Bloomberg 今天丟出一篇標題很直白的文章:「AI 泡沫要破了嗎?」三年過去,華爾街自己都搞不定這個問題——有人說投資人低估了 AI,有人說砸進去的錢已經變成一顆定時炸彈。 我不是金融分析師,但身為一個每天跟 AI 工具打交道的開發者,我想從技術端的角度聊聊:錢到底去了哪裡,哪些地方看得到回報,哪些地方還在燒。 錢去了三個地方第一塊:算力基礎設施。 Jensen Huang 在 GTC 2026 說 Blackwell 加 Vera Rubin 的訂單量預計到 2027 年達到一兆美元。雲端合作夥伴的 GPU 總量突破 100 萬顆。這些錢是實打實花出去的——資料中心、電力、散熱、光纖。你用 Claude、GPT 或任何一個 AI 服務,背後都是這些硬體在撐。 第二塊:模型研發。 OpenAI、Anthropic、Google、xAI、DeepSeek——每家都在瘋狂燒錢訓練下一代模型。GPT-5.4 三個月內把推理效率提升 32 倍,Groq 3 LPU 的推理速度是 GPU 的 35 倍。這些進步是真的,但訓練一個前沿模型的成本也是真的——動輒數億美元。 第三塊:應用層...
Chrome DevTools MCP vs Claude in Chrome:兩種 AI 瀏覽器自動化方案,你該選哪個?
發表於2026-03-18|AI工具實戰工具與生產力
GitHub 頁面:Chrome DevTools MCP瀏覽器自動化進入 MCP 時代我在 Claude Code 裡已經用了好幾個月的 Claude in Chrome,拿它來做網頁截圖、填表單、讀取頁面內容。直到最近看到 Google 官方推出了 Chrome DevTools MCP——由 Chrome DevTools 團隊維護,整合了 Puppeteer、效能追蹤、Lighthouse 審計等功能。 這就讓我好奇了:同樣都是讓 AI 控制瀏覽器的 MCP server,兩者的定位和能力差在哪裡? Chrome DevTools MCP:它是什麼Chrome DevTools MCP 是 Google 官方維護的 MCP server,透過 Chrome DevTools Protocol(CDP)讓 AI agent 控制和檢查 Chrome 瀏覽器。它不只是「能點按鈕、填表單」這種程度,而是把 Chrome DevTools 的完整除錯能力暴露給 AI。 核心特點: 效能追蹤:錄製 Performance trace,分析載入瓶頸,整合 CrUX 真實使用者數據 ...
1…345…8
avatar
kyosora
技術探索與學習分享
文章
200
標籤
406
分類
9
GitHub
最新文章
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中2026-06-13
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關2026-06-11
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字2026-06-08
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告2026-06-08
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事2026-06-08
分類
  • AI工具實戰80
  • AI產業觀察35
  • 前後端開發15
  • 工具與生產力43
  • 程式設計57
  • 系統與維運16
  • 職涯與反思18
  • 資料庫9
  • 資訊安全18
標籤
LLMClaudeDeepSeekGeminiAI 趨勢OpenRouterCursorAI AgentTemporal系統可靠性工程實踐CSSClaude Code多 Agent 系統開發者工具GitHub 開源本地LLMbenchmarkATLAS成本分析NemoClawOpenClawGTC 2026框架選型GitHub TrendingAI投資產業分析開發者生態NVIDIAGPT-5.4Computer Use自動化OpenAIAPI限流NetAI Coding Assistant安全性開發經驗CORS
歸檔
  • 2026年06月 15
  • 2026年05月 17
  • 2026年04月 5
  • 2026年03月 47
  • 2026年02月 3
  • 2026年01月 2
  • 2025年12月 2
  • 2025年09月 1
網站資訊
文章數量 :
200
運行時間 :
總字數 :
318.2k
最後更新時間 :
© 2024 - 2026 By kyosora
搜尋
資料載入中