avatar
文章
200
標籤
406
分類
9
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於
kyosora 筆記
搜尋
首頁
頁面
  • 歸檔
  • 標籤
  • 分類
關於

AI工具實戰

睡覺時讓AI跑100個實驗:Karpathy的autoresearch怎麼用630行程式碼改變ML研究
發表於2026-03-10|AI工具實戰
上週五 Andrej Karpathy 丟了一個新的開源專案到 GitHub,叫 autoresearch。三天內拿了 8,700 顆星。 這個專案做的事情很簡單:給 AI agent 一顆 GPU、一個小型 LLM 訓練環境,讓它自己跑實驗。你睡覺,它工作。醒來時桌上放著 100 個完成的實驗結果。 聽起來像科幻片?630 行 Python 就搞定了。 為什麼這件事值得注意ML 研究有一個眾人皆知但很少人解決的問題:改一個超參數、跑一次訓練、看結果、再改、再跑。這個循環佔了研究者大量時間,而且大部分時間你就是在等 GPU 跑完。 Karpathy 的解法是把這個循環自動化。不是用複雜的 AutoML 框架,不是用分散式訓練叢集,而是用一個極簡的 agent loop: 讀取你寫的 Markdown 指令檔(program.md) 修改訓練程式碼(train.py) 跑 5 分鐘訓練 檢查驗證指標有沒有進步 有 → 保留修改。沒有 → 還原 回到步驟 2 每小時 12 個實驗。一晚大約 100 個。 設計哲學:一個檔案、一顆 GPU、一個指標autoresearch 最吸引我...
AI抓漏洞比人快?Claude兩週內在Firefox挖出22個安全漏洞的技術內幕
發表於2026-03-10|AI工具實戰資訊安全
上週 Anthropic 和 Mozilla 聯合發了一篇公告:Claude Opus 4.6 在兩週內掃描了 Firefox 將近 6,000 個 C++ 檔案,提交 112 份報告,其中 22 個被確認為真實漏洞,14 個是高嚴重性。 這個數字什麼概念?2025 一整年 Firefox 修補的高嚴重性漏洞,大約是這次兩週產出的五倍。換句話說,Claude 兩週的產量接近 2025 全年的兩成。 我花了一些時間讀完 Anthropic 的技術報告和 Mozilla 的回應,想整理出幾個工程師會在意的重點。 它是怎麼掃的?Anthropic 的團隊沒有直接丟整個 codebase 給 Claude 然後說「幫我找 bug」。他們分了兩個階段: 第一階段:驗證能力。 先拿 Firefox 舊版本中已知的 CVE,讓 Claude 看能不能重現。這步很關鍵——如果連已知漏洞都找不到,就沒必要往下走了。 第二階段:掃描未知漏洞。 從 JavaScript 引擎開始(這是瀏覽器最複雜、攻擊面最大的部分),逐步擴展到其他元件。兩週內掃了將近 6,000 個 C++ 檔案。 第一個漏洞在探索...
當 OpenAI 搶下五角大廈合約:一場讓 250 萬用戶出走的豪賭
發表於2026-03-09|AI工具實戰AI產業觀察
Anthropic 拒絕五角大廈、被列入黑名單、卻反而衝上 App Store 第一名——這個故事的上半場,我們已經講過了。 但故事還有下半場。 當 Anthropic 離開談判桌的那個週五晚上,OpenAI 的 CEO Sam Altman 宣布簽下了五角大廈的合約。時間差不到 24 小時。 接下來發生的事,大概連 Altman 自己都沒預料到。 搶合約的速度,快到像是早就準備好了2 月 27 日,Trump 簽署行政命令封殺 Anthropic。同一天晚些時候,Altman 在 X 上宣布:OpenAI 已與國防部(在 Trump 政府下已改名為「戰爭部」Department of War)達成協議,將 GPT 系列模型部署到軍方的機密系統中。 這個時間點太巧了。 Anthropic 花了數月跟五角大廈談判紅線,最後因為拒絕開放「所有合法用途」而破裂。OpenAI 幾乎是在 Anthropic 被踢出門的同一天就簽了約。 外界的解讀很直接:OpenAI 願意做 Anthropic 不願意做的事。 不管這個解讀是否完全公平,它點燃了一場風暴。 295% 的憤怒數字不會說謊。 根...
Xcode 終於讓 AI Agent 進場了:兩分鐘做出一個 App 的背後意味著什麼
發表於2026-03-09|AI工具實戰前後端開發
二月底,Apple 悄悄推了 Xcode 26.3。沒有 Keynote,沒有 Craig Federighi 站在台上用動畫炫技。但這次更新可能是 Xcode 近五年來最重要的一個版本。 因為從這個版本開始,你可以在 Xcode 裡直接使用 AI coding agent。不是那種「自動補完下一行」的小聰明,而是整個 agent 接管你的專案:理解架構、搜文件、改多個檔案、跑 build、看 Preview、發現 UI 有問題還會自己修。 有人用它兩分鐘內做出一個完整的 Pomodoro 計時器 App——有設定頁面、提醒功能、能跑的 UI。 兩分鐘。 這不是 Copilot 的升級版先說清楚 agentic coding 跟傳統 AI 輔助寫 code 的差別。 GitHub Copilot 和早期的 AI 工具做的事情是「你寫一行,它猜下一行」。你是主角,AI 是配角。你的游標在哪裡,它就在那裡幫你。 Agentic coding 完全不同。你給 agent 一個目標——「幫我做一個 Pomodoro 計時器」——然後它自己拆解任務、決定要改哪些檔案、寫 code、跑 bu...
當 Siri 終於有了大腦:Apple 與 Google 聯手打造的三層 AI 架構解析
發表於2026-03-09|AI工具實戰前後端開發
等了快十年,Siri 終於要從「智障助理」畢業了。 Apple 在 iOS 26.4 中重新打造了 Siri,背後用的是 Google 的 Gemini 模型。這不是小改版——是整個架構砍掉重練。22 億台 Apple 裝置將在三月底收到更新,這是史上最大規模的 AI 助理部署。 身為開發者,我最關心的不是行銷話術,而是三個問題:架構怎麼設計的?隱私怎麼處理?對我們的 App 有什麼影響? 三層處理架構:該在哪算就在哪算新 Siri 的核心設計是一個三層漸進式架構。不是所有請求都丟給雲端,而是根據任務複雜度,動態決定在哪一層處理。 第一層:裝置端處理(On-Device) 簡單任務直接在手機上跑。設鬧鐘、開 App、查天氣——這些不需要網路請求,回應速度在毫秒等級。Apple 在 A17/M 系列晶片上跑的本地模型處理這些綽綽有餘。 隱私上最安全,因為資料根本不離開裝置。 第二層:Apple Private Cloud Compute 本地模型搞不定的中等複雜度任務,送到 Apple 自己的私有雲。這層用的是 Apple 自研的模型,跑在 Apple Silicon 伺服器上。 ...
當AI公司對五角大廈說不:Anthropic被封殺卻逆襲App Store的荒謬劇
發表於2026-03-09|AI工具實戰AI產業觀察
2 月 27 日晚上,Trump 簽署行政命令,禁止所有聯邦機構使用 Anthropic 的產品。國防部長 Hegseth 把 Anthropic 列為「供應鏈風險」——一個通常保留給中國和俄羅斯企業的標籤。 72 小時後,Claude 衝上美國 App Store 第一名,超越 ChatGPT 和 Gemini。每天有超過一百萬人註冊。 這不是電影劇情,這是 2026 年 3 月正在發生的事。 Anthropic 的兩條紅線整件事的核心,其實就兩句話。 Anthropic 告訴五角大廈:你可以用 Claude 做幾乎所有事情,但有兩個例外——不能用於大規模監控美國公民,不能用於全自主致命武器。 五角大廈的回應是:我們要「所有合法用途」的授權。 談判破裂。 CEO Dario Amodei 事後說:「我們要求的限制只涉及高層級的使用領域,不干涉具體的操作決策。」換句話說,Anthropic 沒有要求審查每一次模型調用,他們只是不想讓自己的技術出現在「用 AI 自動決定要不要開火」或「用 AI 監聽所有美國人通訊」的場景裡。 聽起來合理?五角大廈不這麼認為。 連鎖反應比預期更猛Tr...
你的 CLAUDE.md 寫太多了:7,308 次實驗證明 AI Agent 指令 2-3 條就好
發表於2026-03-08|AI工具實戰工具與生產力
上週我在整理自己的 CLAUDE.md 時,發現它已經膨脹到快 800 行。規則疊規則、範例套範例,像一本員工手冊。直覺告訴我這樣「比較完整」,但實際體感是——Claude Code 有時會忽略我寫在後半段的指令,偶爾還會把兩條規則搞混。 然後我讀到 SkillsBench 這篇論文,它用 7,308 條執行軌跡和 84 個任務做了一件事:測量「給 AI Agent 的操作指引(Skills)」到底給多少、寫多長才有效。 結論讓我重新打開編輯器,把那 800 行砍掉一半。 先講數字研究團隊在 Claude Code、Codex CLI、Gemini CLI 三個平台上,測試了七種模型配置。每個任務跑五次,用程式化斷言判定通過與否——不是讓另一個 LLM 當裁判,是寫死的測試。 整體結論:精心撰寫的 Skills 平均提升 16.2 個百分點。這個數字本身不意外,有指引當然比沒有好。 意外的是拆開來看的時候。 2-3 條指引是甜蜜點,4 條以上開始拖後腿 Skills 數量 有 Skills 無 Skills 差距 1 條 42.2% 24.4% +17.8pp 2-...
三月AI模型大亂鬥:GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 到底誰贏了
發表於2026-03-08|AI工具實戰AI產業觀察
3 月 5 日,OpenAI 丟出 GPT-5.4。兩週前,Google 才發了 Gemini 3.1 Pro。Anthropic 的 Claude Opus 4.6 也在持續迭代。三家模型同時站在擂台上,跑分互有勝負,開發者選擇困難症大爆發。 我花了幾天把三家的 benchmark 數據、定價和實際使用場景整理了一遍。結論先說:沒有全能冠軍,但各有各的殺手鐧。 GPT-5.4:第一個真正會用電腦的 AIOpenAI 這次最大的賣點不是跑分——是 Computer Use。 GPT-5.4 能直接操作桌面應用程式:看螢幕截圖、移動滑鼠、敲鍵盤。在 OSWorld 測試中,它拿到 75% 的成功率,超越人類的 72.4%。這不是小數字的進步,GPT-5.2 在同一個測試只有 47.3%。 另一個重點是「統合模型」架構。OpenAI 把之前分散在不同模型的能力——Codex 的寫程式、推理模型的思考鏈、Agent 的自主操作——塞進同一個模型裡。不用再煩惱「這個任務該叫哪個模型」。 硬指標 項目 GPT-5.4 跟 GPT-5.2 相比 GDPval(知識工作) 83% 7...
Claude Code 每次開新對話都在「失憶」?這個工具讓它記住你說過的每件事
發表於2026-02-25|AI工具實戰工具與生產力
你有沒有過這種經驗: 花了半小時跟 Claude Code 說清楚你的專案架構,解釋為什麼這裡不用 ORM、那裡要用自定義的錯誤格式、這個 naming convention 有歷史原因不要改——然後隔天開新 session,一切歸零。 它不記得。你得再說一遍。 這不是 Claude 的問題,是 LLM 的根本限制:每個 session 都是一個全新的對話,沒有上一次的任何記憶。你在 CLAUDE.md 寫的東西只能覆蓋靜態規範,卻沒辦法保留「上週我們決定把 API 分層重構,目前做到一半」這種動態的工作狀態。 claude-mem 就是為了解決這件事而生的。 它在背後做了什麼安裝之後,claude-mem 會在 Claude Code 的整個生命週期裡掛上 5 個自動化 hook: SessionStart:新 session 開始,自動把過去相關記憶注入進來 UserPromptSubmit:你每次送出訊息,它都在旁邊記錄 PostToolUse:Claude 每次用工具之後,觀察結果被自動捕捉 Stop:Claude 停止回應時,這段互動被整理壓縮 SessionEnd...
你還在每次重新教 Claude Code 你的開發習慣嗎?這個 51k Stars 的配置包幫你省掉這件事
發表於2026-02-25|AI工具實戰工具與生產力
每次開一個新專案,你是不是都得跟 Claude Code 說一遍一樣的事: 「我們用 TypeScript,記得寫型別。」「代碼審查要檢查 SQL Injection。」「commit 訊息要用 conventional commits 格式。」 說完這次,下次還得再說一遍。 everything-claude-code 要解決的就是這件事——讓 Claude Code 一次就記住你的整套開發規範,不用每個專案都重頭來過。 這個 repo 有 51k Stars、6.4k Forks,是一個 Anthropic Hackathon 冠軍用超過 10 個月的實際開發產品經驗打磨出來的配置集合。不是某人週末隨手整理的筆記,是真的拿去建產品跑過的。 這到底是什麼?簡單講:一個完整的 Claude Code 腦袋移植包。 它包含: 13 個專業 subagent,各自負責不同工作(規劃、TDD、代碼審查、安全掃描……) 48 個 workflow skill,從 Django 到 Go 到 React 都有對應的最佳實踐 32 個 slash command,一個指令觸發完整流程 多...
1…678
avatar
kyosora
技術探索與學習分享
文章
200
標籤
406
分類
9
GitHub
最新文章
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中
我的 Claude Code 一夜被降級:鼓吹 AI 管制最力的公司,被自己要的刀砍中2026-06-13
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關
Sitemap 卡「無法擷取」三個月?修了四輪 XML 都沒用,最後把它搬到 Cloudflare Worker 才過關2026-06-11
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字
Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字2026-06-08
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告
Claude Code 跑完那個長 session 到底幹了什麼?Her 把 .jsonl 變成一份審計報告2026-06-08
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事
OpenAI 說「聊天已死」,但死的不是聊天——是靠聊天賺錢這件事2026-06-08
分類
  • AI工具實戰80
  • AI產業觀察35
  • 前後端開發15
  • 工具與生產力43
  • 程式設計57
  • 系統與維運16
  • 職涯與反思18
  • 資料庫9
  • 資訊安全18
標籤
LLMClaudeDeepSeekGeminiAI 趨勢OpenRouterCursorAI AgentTemporal系統可靠性工程實踐CSSClaude Code多 Agent 系統開發者工具GitHub 開源本地LLMbenchmarkATLAS成本分析NemoClawOpenClawGTC 2026框架選型GitHub TrendingAI投資產業分析開發者生態NVIDIAGPT-5.4Computer Use自動化OpenAIAPI限流NetAI Coding Assistant安全性開發經驗CORS
歸檔
  • 2026年06月 15
  • 2026年05月 17
  • 2026年04月 5
  • 2026年03月 47
  • 2026年02月 3
  • 2026年01月 2
  • 2025年12月 2
  • 2025年09月 1
網站資訊
文章數量 :
200
運行時間 :
總字數 :
318.2k
最後更新時間 :
© 2024 - 2026 By kyosora
搜尋
資料載入中