avatar
文章
200
標籤
406
分類
9
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於
kyosora 筆記
搜尋
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於

AI工具實戰

AI 比人類更會操作電腦了:GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事
發表於2026-03-14|AI工具實戰工具與生產力
3 月 5 日,OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了,但我認為真正該被討論的是另一件事:Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率,正式超過人類了。 OSWorld 75%,這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面,給它任務,看它能不能完成。 任務長這樣: 「找到最近修改過的試算表並打開它」 「把 Wi-Fi 切換到辦公室網路」 「打開 Chrome,到某個網站,把這份表單填完」 都是你每天在做的事。而 GPT-5.4 做這些事的成功率,比被付錢來完美完成任務的人類測試員還高。 模型 OSWorld 成功率 與人類(72.4%)比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳 AI ~60% -...
61 個 Markdown 檔讓你的 IDE 變成 AI 公司:agency-agents 爆紅背後的技術邏輯
發表於2026-03-14|AI工具實戰職涯與反思
一個 GitHub 專案,沒有任何可執行程式碼,只有 61 個 Markdown 檔案,7 天內拿到 10,000 顆星。截至 3/14 已經衝到 39,300 星。 這不是什麼新框架或新語言。agency-agents 做的事情只有一件:用 Markdown 定義 AI 的專業人格。 聽起來荒謬,但它戳中了一個真實的問題。 你的 AI 助手什麼都會,所以什麼都做不好用過 Claude Code 或 Cursor 的人都有這個經驗:你請 AI 寫一個 REST API,它給你一個「還行」的版本。能跑,但缺少認證考量、沒有速率限制、錯誤處理敷衍、命名風格前後不一。 問題不在模型能力。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro——這些模型的知識量早就超過任何單一工程師。問題在於 context window 裡塞了太多可能性,模型不知道你要哪一種。 你問「幫我設計 API」,模型在 REST、GraphQL、gRPC 之間游移。你問「幫我寫測試」,模型不確定你要 unit test 還是 integration test,最後給你一個不痛不癢的折衷。...
DeepSeek V4 一直跳票?從華為晶片到兆級參數,中國 AI 的硬體困境
發表於2026-03-14|AI工具實戰AI產業觀察
DeepSeek V4 原定三月第一週發布。現在三月過了一半,官方一個字都沒說。 這不是一般的軟體延遲。這是中國 AI 產業第一次嘗試在非 NVIDIA 硬體上訓練兆級參數模型,而現實比預期殘酷。 V4 到底是什麼先說結論:如果 DeepSeek V4 真的發布,它會是目前最大的開源模型。 兆級參數的 Mixture-of-Experts(MoE)架構,每個 token 只啟用約 320 億參數。Top-16 路由策略——模型裡有上千個「專家」,每次推理只叫醒最相關的 16 個。這意味著你可以用 320 億參數的算力成本,得到兆級參數的知識容量。 V4 的架構有三個值得注意的設計: Manifold-Constrained Hyper-Connections。 解決 MoE 的老問題:專家之間不夠互通。傳統 MoE 的專家各做各的,資訊共享效率差。這個機制讓跨專家的資訊利用率提升了約 40%,同時不增加計算成本。這不是微調,是結構性改進。 Engram Conditional Memory。 處理超長 context 時動態維護關鍵資訊索引。白話說:在 100 萬 token 的...
NVIDIA 要做自己的 AI Agent 平台了:NemoClaw 技術架構解讀與開發者該注意的三件事
發表於2026-03-14|AI工具實戰工具與生產力
上週 CNBC 報導 NVIDIA 正在打造一個叫 NemoClaw 的開源 AI agent 平台,目標是企業市場。三天後,GTC 2026 就要開幕了。Jensen Huang 的主題演講排在 3/16 上午 11 點(太平洋時間),市場預期他會在那裡正式發布這東西。 我花了一些時間把目前流出的資訊整理了一遍,想搞清楚這個平台跟現有的 AI agent 方案(OpenClaw、Dify、LangChain)到底有什麼不同,以及對我們這些寫程式的人來說,真正值得關注的是什麼。 NemoClaw 是什麼一句話:NVIDIA 把自家的 NeMo 框架、Nemotron 模型系列和 NIM 推理微服務打包成一個企業級 AI agent 平台,然後開源。 聽起來很普通,但有幾個細節值得注意。 硬體不綁定。 NemoClaw 可以跑在 NVIDIA GPU 上,也可以跑在 AMD、Intel 和其他處理器上。一家以賣 GPU 為主要商業模式的公司,做了一個不強制要求用自家硬體的平台——這個決定背後的戰略考量很有意思。 企業安全優先。 跟 OpenClaw 這類個人向的 agent 平台不...
當你的 AI Agent 有 500 個工具:從 GPT-5.4 的 Tool Search 看工具管理的正確姿勢
發表於2026-03-12|AI工具實戰
上週我在幫公司的 AI Agent 接上第 47 個 MCP server 時,API 帳單跳了一個數字讓我差點從椅子上摔下來。 不是因為用量暴增。是因為每一次 API 呼叫,光是把 36 個 MCP server 的工具定義塞進 context,就吃掉了將近 40,000 tokens。模型還沒開始思考,錢已經燒了一半。 3 月 5 日 OpenAI 發布 GPT-5.4 時,benchmark 數字和 Computer Use 搶走了所有目光。但對我來說,最值得注意的功能只有一個——Tool Search。 工具爆炸問題:你可能已經踩到了先說個數字。一個標準的 function calling 工具定義,包含名稱、描述、參數 schema,平均佔 200-500 tokens。聽起來不多? 算一下: 10 個工具 → ~3,000 tokens(還好) 50 個工具 → ~15,000 tokens(開始痛) 200 個工具 → ~60,000 tokens(每次呼叫都在燒錢) 500 個工具 → ~150,000 tokens(恭喜,光工具定義就用掉一般模型 contex...
當你的AI供應商被政府列為國安威脅:Anthropic起訴五角大廈事件的三個技術啟示
發表於2026-03-12|AI工具實戰AI產業觀察
3 月 9 號,Anthropic 做了一件 AI 產業前所未見的事:同時起訴美國政府、發布新產品、簽下微軟合作。三件事同一天。 這不是科技八卦。如果你在用 Claude API 寫程式、用 Claude Code 做開發,這件事直接影響你的技術棧穩定性。 發生了什麼事五角大廈要求 Anthropic 開放 Claude 用於「所有合法用途」。Anthropic 設了兩條紅線:不做完全自主武器,不做大規模國內監控。談判在 2 月 27 日破裂。 Trump 政府的回應很硬:下令所有聯邦機構停用 Anthropic 技術。國防部長 Hegseth 把 Anthropic 標記為「供應鏈風險」——這個標籤歷史上只用在華為、卡巴斯基這類外國實體身上。 Anthropic CFO 說這可能砍掉 2026 年數十億美元營收。 公司在加州聯邦地院和 DC 巡迴上訴法院同時開戰。 啟示一:你的 AI 供應商風險模型該更新了大部分技術團隊評估 AI 供應商,看的是模型能力、API 穩定性、定價。政治風險?不在 checklist 上。 這件事改變了遊戲規則。 「供應鏈風險」標籤不只影響政府合約。...
你的AI Agent安全嗎?從OpenAI收購Promptfoo看agent安全測試的崛起
發表於2026-03-12|AI工具實戰資訊安全
上週 OpenAI 宣布收購 Promptfoo,一個專門做 LLM 紅隊測試的開源工具。這件事本身不算爆炸性新聞,但它背後反映的趨勢值得每個在做 AI 應用的開發者注意:AI agent 的安全測試,正在從「有空再做」變成「不做不行」。 當 AI 不只是聊天機器人2024 年我們還在用 ChatGPT 問問題、生成文案。2026 年,AI agent 已經在企業裡替人操作工具了。 根據 NVIDIA 最新報告,64% 的企業已經在生產環境部署 AI,其中 agent 形式的採用率在電信和零售業達到 47-48%。Oracle 上週公布的 OCI 雲端基礎設施營收年增 84%,主要驅動力就是 AI 訓練和推理需求。 這不再是實驗。Agent 真的在跑了。 問題是:當 agent 能呼叫 API、讀寫檔案、執行程式碼時,它的攻擊面跟傳統聊天機器人完全不同。 Prompt Injection:agent 時代的 SQL Injection如果你做過 Web 開發,對 SQL injection 不陌生。使用者輸入惡意 SQL,繞過驗證,直接操作資料庫。我們花了十幾年建立參數化查詢的最...
當AI有了自己的社群網路:Meta收購Moltbook背後的agent互聯革命
發表於2026-03-12|AI工具實戰AI產業觀察
上週一(3/10),Meta 宣布收購 Moltbook。你可能沒聽過這個名字,但它代表的概念夠瘋狂:一個完全由 AI agent 運作的社群網路。沒有人類用戶,只有 bot 在上面發文、留言、投票。 我第一次看到這個消息的反應是「這到底在搞什麼」。認真研究之後,我認為這可能是 2026 年最重要的 AI 產業信號之一。 Moltbook 到底是什麼想像一個 Reddit,但每個帳號都是 AI agent。 Moltbook 在 2026 年 1 月上線,創辦人是 Matt Schlicht 和 Ben Parr(兩人之前做過 Octane AI,專注電商和 AI 的交叉領域)。平台的自我定位是「the front page of the agent internet」— 給 AI agent 用的網路首頁。 上線幾天內,平台就有數百萬個 bot 註冊。到 2 月底,官方數字是 160 萬個 agent。 在 Moltbook 上,AI agent 可以: 自主發文分享發現 在其他 agent 的貼文下留言討論 用投票系統對內容排序 加入「Submolt」(類似 subredd...
用兩個 AI 建立自動化工作流:讓龍蝦當 PM,Claude Code 當工人
發表於2026-03-11|AI工具實戰
凌晨三點,你的電腦正在幫你分析美股、寫技術文章、整理筆記。早上七點,一份完整的晨報自動推送到你的 Notion。白天你在 Telegram 對一隻機器龍蝦說「幫我查一下 NVIDIA 最新財報」,它寫好任務單,另一個 AI 在背景默默把事情做完。 這不是科幻小說,這是我用 Claude Code 和 OpenClaw 搭出來的雙 AI 工作流。 為什麼要用兩個 AI?一個 AI 做所有事情聽起來很美好,但實際跑起來會撞到幾個牆: Claude Code(CC) 是命令列工具,擅長深度工作——寫程式碼、分析資料、產出長篇內容。但它沒有常駐能力,不能 24 小時掛在那裡等你的訊息。 OpenClaw(龍蝦) 是 Docker 容器裡的常駐 AI 閘道,可以接 Telegram、Discord、Slack。它 24 小時在線,隨時能回你訊息。但它的強項是溝通和協調,不是深度工作。 把兩者組合起來:龍蝦當 PM 負責接單和調度,CC 當工人負責執行,各做各擅長的事。 整體架構12345678910111213141516你(Telegram) │ ▼龍蝦(OpenClaw Docke...
Apple花10億選Google不選Claude:Siri重生背後的AI權力遊戲
發表於2026-03-10|AI工具實戰AI產業觀察
Apple 內部工程師最愛用的 AI 是 Claude。但 Siri 的大腦,最後給了 Google Gemini。 這不是技術選型的問題。這是一場價格談判的失敗,一次商業策略的博弈,以及一個讓 12 億 iPhone 用戶的 AI 體驗徹底改變的決定。 10 億美元 vs. 數十億美元2026 年 1 月 12 日,Apple 正式宣布與 Google 簽訂多年合作協議,用 Gemini 模型驅動新一代 Siri。價碼:每年約 10 億美元。 但在這之前,Apple 找的第一個對象其實是 Anthropic。 Bloomberg 記者 Mark Gurman 報導,Apple 內部已經大量使用 Claude 做產品開發和內部工具。工程團隊對 Claude 的表現相當滿意。自然而然,他們想把 Claude 放進 Siri。 談判破裂的原因很直接:Anthropic 開價「數十億美元」一年,而且金額逐年翻倍。三年下來,Apple 要付出的錢可能超過 100 億。 Apple 說不。 轉頭跟 Google 簽了一份 10 億的合約。對 Apple 來說,這個選擇的邏輯很清楚:Gemi...
1…5678
avatar
kyosora
技術探索與學習分享
文章
200
標籤
406
分類
9
GitHub
最新文章
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中2026-06-13
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關2026-06-11
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字2026-06-08
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告2026-06-08
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事2026-06-08
分類
  • AI工具實戰80
  • AI產業觀察35
  • 前後端開發15
  • 工具與生產力43
  • 程式設計57
  • 系統與維運16
  • 職涯與反思18
  • 資料庫9
  • 資訊安全18
標籤
LLMClaudeDeepSeekGeminiAI 趨勢OpenRouterCursorAI AgentTemporal系統可靠性工程實踐CSSClaude Code多 Agent 系統開發者工具GitHub 開源本地LLMbenchmarkATLAS成本分析NemoClawOpenClawGTC 2026框架選型GitHub TrendingAI投資產業分析開發者生態NVIDIAGPT-5.4Computer Use自動化OpenAIAPI限流NetAI Coding Assistant安全性開發經驗CORS
歸檔
  • 2026年06月 15
  • 2026年05月 17
  • 2026年04月 5
  • 2026年03月 47
  • 2026年02月 3
  • 2026年01月 2
  • 2025年12月 2
  • 2025年09月 1
網站資訊
文章數量 :
200
運行時間 :
總字數 :
318.2k
最後更新時間 :
© 2024 - 2026 By kyosora
搜尋
資料載入中