kyosora 筆記

發表於2026-07-08|AI產業觀察職涯與反思

這兩天 Hacker News 把一件四月的舊事又翻上了首頁，我點進去看完，覺得值得寫一篇。事情是這樣的。今年三月底，Y Combinator 的執行長 Garry Tan 在 X 上發文炫耀：他跟他的 AI coding agent 一天部署 3 萬 7 千行程式碼，橫跨五個專案，並且保持著 72 天連續 shipping 的紀錄。原文寫的是「Absolutely insane week for agentic engineering」——瘋狂的一週，agentic 工程的勝利。兩天後，一位叫 Gregorein 的波蘭資深工程師（資工碩士、13 年業界經驗）做了一件很樸素的事：他打開 Tan 那個 AI 打造的部落格網站，看了看瀏覽器實際載下來的東西。然後他發了一篇貼文，標題大意是：「這就是 78,400 行 AI slop 程式碼在 production 上的真實長相。」引擎蓋下面有什麼Gregorein 的審查只碰前端——就是任何人打開瀏覽器開發者工具都看得到的部分，連後端都還沒摸。他把檔案抓下來，開了一個 Claude session 交叉確認自己的觀察。發現的...

Fable 5 只有一次機會，我沒叫它寫程式：讓最強模型幫接班的弱模型立制度

發表於2026-07-07|AI工具實戰工具與生產力

上一篇結尾我寫，解禁之後我不會再像三週前那樣三天燒掉 70% 的用量。這句話我做到了——Fable 5 回來一週，我只給手上的環境排了一場 session。用在哪，我想了兩天。我有一套跑了兩個多月的 Claude Code 工作流：每 15 分鐘一輪盤中 cron、31 個 launchd 排程，幫我看美股台股、推 Telegram，還有一個只碰模擬盤的自動下單流程。平常由 Opus 4.8 看家、子任務丟給 Sonnet。這套東西最大的問題從來不是功能不夠，是每次換模型、每次 context 被壓縮，行為就開始飄——規則還躺在檔案裡，執行的卻已經不是同一顆腦袋。所以這場唯一的 Fable 5 session，我沒叫它寫任何功能。我叫它把自己的判斷力寫成檔案，留給之後接班的弱模型。理由很簡單：功能寫完就擺在那，下一顆模型照樣可能把它改壞；制度才會在我不盯著的時候，繼續擋住每一顆接班的模型。開場第一句：禁止動任何檔案我 prompt 的第一段就是熔斷指令：立刻停止一切寫入，禁止建立或修改任何檔案。先做的是逆向推導。我給了三個弱模型跑長任務的典型死法，要它對照我這套環境，...

封 AI 爬蟲卻把 Googlebot 一起擋掉？Cloudflare 新版 AI 流量控制的三個分類與一個期限

發表於2026-07-02|AI產業觀察系統與維運

上個月寫過一篇文章，講 Cloudflare 網路上的 HTML 請求有 57.5% 來自機器人、真人只剩 42.5%（那篇在這）。當時的結論偏哲學：網站的讀者已經一半不是人，你要為誰設計。哲學歸哲學，實務上站長手上的工具只有一個很鈍的開關——Cloudflare 儀表板那顆「Block AI Bots」。它針對的主要是拿內容去訓練模型的爬蟲，但只有開和關兩個狀態，你沒得挑要擋哪一種。 7 月 1 日 Cloudflare 把這顆開關拆了。新版的 AI 流量控制把「AI bot」切成三種用途分開管，連免費方案都能用。更重要的是他們同時宣布：9 月 15 日起預設值要變，而且變法會讓「封鎖 AI 訓練」連 Googlebot 一起擋掉。如果你的站在 Cloudflare 後面、又開過 Block AI Bots，這篇讀完建議去檢查一下設定。一鍵封鎖為什麼不夠用先講舊開關的問題在哪。去年那顆「Block AI Bots」的假想敵很明確：拿你的內容去訓練模型、然後一滴流量都不回給你的訓練爬蟲。封它天經地義。但一年下來，「AI bot」這個詞涵蓋的東西越來越雜。有人問 ChatGPT...

乾淨的 GitHub repo 也能讓 Claude Code 幫你開反向 shell

發表於2026-07-02|AI工具實戰資訊安全

上週 Mozilla 的 0DIN 團隊公開了一個 POC。他們準備了一個看起來完全乾淨的 GitHub repo——沒有惡意碼、傳統掃描器看不到訊號、程式碼經得起 code review。然後他們把 repo 交給 Claude Code，請它照 README 跑一遍 setup。 Claude Code 幫他們開了一個反向 shell。我是 Claude Code 每天在用的人。這個 POC 出來我第一個反應不是想罵 Anthropic，是打開最近三個從別人 repo clone 下來的 side project，把 Claude Code 讓它自動跑的那些 setup 動作全部翻了一遍。有些看不出來、也追不回去了。這篇要講的更根本：AI coding agent 最危險的不是它會亂寫程式，是它太想幫你。攻擊拆給你看先把 0DIN 這個 POC 拆開。它的每一步都很無聊，可怕的是無聊的步驟串起來會發生什麼。第一步，repo 是真的乾淨的。0DIN 準備了一個叫 axiom 的 Python 套件，附一份看起來合理的 README 和 setup 說明。傳統 secre...

18 天前 Fable 5 被政府按掉，今天 Anthropic 連 Sonnet 5 一起還回來

發表於2026-07-01|AI工具實戰AI產業觀察

七月一號早上九點多，我打開 X 看到 Anthropic 的推文——才發出十三分鐘，五百五十九則回覆、一千七百多次轉貼、四千兩百八十七顆愛心。貼文只有三句話：「我們收到通知，美國商務部已解除對 Claude Fable 5 和 Mythos 5 的出口管制。我們將從明天開始恢復存取權限，並將很快分享更新消息。」 18 天。從 6/13 早上我發現 Claude Code 狀態列跳回 Opus 4.8 那一刻算起，剛好 18 天。上一篇〈我的 Claude Code 一夜被降級〉寫的時候，我把這件事定位成「鼓吹管制的公司被自己要的刀砍中」。18 天後，刀被收回來——而且順手還多丟了一顆 Sonnet 5。這把刀不是一口氣收回來的我一開始以為是政府突然轉向。查了才發現不是。這 18 天分成兩段。第一段是 6/26。商務部長 Howard Lutnick 拍板，把 Mythos 5 部分放行，允許供給 100 家以上的美國機構和聯邦政府——但只限美國境內。Fable 5 沒被鬆綁。外國人也還是被排除在外。這一步比較像試水溫，把「怎麼在符合國安條件下讓 Anthropic 繼續賣...

Claude Tag 揭露的真相：Anthropic 已經不把個人開發者當主戰場了

發表於2026-06-25|AI產業觀察

兩天前 Anthropic 發了 Claude Tag。我看完官方公告跟幾篇分析後，整理出三個訊號——拼起來會讓你看到，Claude Tag 這條產品線明確押 Team 跟 Enterprise，個人開發者不在 Beta 名單裡。再把訊號往外推，整個 Anthropic 的資源分配，正在從 individual 倒向 team。這個判斷可能會冒犯一些人。但證據我攤出來給你看。 Claude Tag 是什麼簡單講：Claude 變成 Slack 的虛擬同事。你把它加進頻道，連上工具跟資料，頻道裡誰都能 @Claude 派任務給它。它有持續記憶，會記得這個頻道在幹嘛。它有 ambient 模式，會主動冒出來提醒你「我覺得你應該知道這個」。Anthropic 自己內部用同一套東西，宣稱 product team 65% 的程式碼是 Claude Tag 寫的。聽起來都對。重點不是它做什麼，是它在賭什麼。訊號一：Beta 只給 Enterprise 和 Team第一個訊號很明顯——這次的 Beta 不開個人版。只給 Claude Enterprise 跟 Claude Team...

Opus 4.7 在 SWE-bench Pro 抽樣中 18% 通過是讀檔來的：那張 AI Coding 排行榜你還信嗎

發表於2026-06-25|AI工具實戰AI產業觀察

四月底的時候，Poolside 的工程師 Connor Adams 在 Scale AI 那個 SWE-bench Pro 的 GitHub repo 開了個 issue，編號 #93。標題很直白：「Git Reward Hacking in SWEBench Pro OSS」。他只做了一件事：docker pull 任何一個 SWE-bench Pro 的官方鏡像，跑 git log，發現用來評分的「正確答案」commit 就坐在那個容器的 git history 裡面。100% 的測試鏡像都能讀。下面討論的都是 SWE-bench Pro 的 public OSS 版本（scaleapi/SWE-bench_Pro-os），Scale AI 自己幫客戶跑的私有 eval 版本不在這個討論範圍。緊接著兩件事。一是 Poolside 自己內部踩了同一個坑——他們訓練中的 Laguna M.1 模型一個週末突然跳了 20 分，差點上排行榜第一。二是 Datacurve 拿同樣的方法去稽核 Claude Opus 4.6 和 4.7 在 SWE-bench Pro 上的歷史 r...

「學術已死，只是還沒辦葬禮」——下一個是工程師

發表於2026-06-24|AI產業觀察職涯與反思

一位拿到終身教職、endowed research chair、編輯一份國際期刊的教授，這週在自己的部落格上發了一篇文章。標題很狠：「AI Has Already Killed Academia as we Know it」。他是業內贏家，所有學術圈定義的成功——tenure、研究椅、得獎名單、期刊主編、帶出去能獨當一面的學生——他全拿了。然後他寫：「如果學術界是一場遊戲，我贏了。但這場遊戲已經沒意義了。」我把那篇看完，腦袋裡只跳出一句話：軟體業也是。他講了什麼他講的是三套機制，被 AI 從不同角度拆掉。學生作業已經抓不到了。過去我們抓 AI 抓的是「用得爛」的學生：ChatGPT 排版、一句三項列表、幻覺引用、沒有段落縮排。但抓不到的才是真問題——一個學生用兩個付費帳號，Claude 寫初稿、ChatGPT 反覆批改，迴圈到語感乾淨、論證緊實，再叫 AI 三重檢查引用跟格式。這種作業不只偵測不出，還比一般學生寫得好。系統現在做兩件事：懲罰自己寫的學生（自然有瑕疵），給最會用 AI 的學生最高分——而後者不是「懶」或「不誠實」，他們只是看到了 AI 用得越好、成績越好的因...

Hexo blog 想加 iOS 風炫過場？跑半天 morph 沒成，反而發現自己藏了 84MB 圖片巨石

發表於2026-06-22|工具與生產力前後端開發

昨天晚上看了 Coding2GO 一條 5 分 46 秒的影片，講 CSS View Transition API 終於支援跨文件了——純 CSS 兩頁各加幾行（同源 + 兩頁都 @view-transition { navigation: auto; }）、靜態網站也能做出 SPA 風的換頁過場。我當下就想到自己那個 Hexo blog：能不能加上 iOS 相簿那種「點縮圖、圖飛進去變大圖」的 morph 效果？今天動手，跑半天 morph 沒成。但 debug 過程裡順手 PowerShell 抓了一下封面圖檔大小——35 張總共 84.3MB，平均 2.4MB 一張。結果 morph 收手，反而把整站圖片壓掉 93%（84MB → 6MB）。本來想搞炫的，沒成；結果抓到真正拖慢網站的東西。記錄一下這次的過程。原本的目標清單下班前的 2 小時 budget，我想要的兩個東西：整頁 cross-fade 換頁過場（基本款） list 縮圖 → 詳情頁大圖的 hero morph（進階款）我以為大半是 CSS 的事，看起來很簡單。估了 2 小...

Loop Engineering 沒那麼神：我跑半年 agent loop，真正的工程全在沒人拍貼文的那半

發表於2026-06-15|AI工具實戰AI產業觀察

那天我派了三個 agent 並行改一個專案。一個管 API 層，一個管 service 層，一個做全專案改名。跑完回來，service 層那隻明明回報改好了，我打開檔案一看——它加的快取不見了。我第一個念頭是：Claude Code 出 bug 了吧。差點就去開 issue。冷靜下來看檔案修改時間和 diff，才發現工具沒錯，錯的是我。改名那隻把整個專案讀進自己的腦袋，但它讀到的是「重構開始那一刻」的舊版本，還沒有 service 那隻剛加的快取。它改完寫回去，用舊版蓋掉了新的。誰最後寫完，誰的版本就贏。那段快取我連 git add 都還沒，根本沒進 Git 的 object，蓋掉就是真的沒了，reflog 也撈不回來。我講這件事，是因為這週我的時間線被「Loop Engineering」洗版了，而我看著那些貼文，像在看別人興奮地發現我家後院。這週到底發生了什麼6 月 7 號，Peter Steinberger 在 X 發了一句話，大意是：你不該再對 coding agent 打 prompt，你該設計會自動幫你對 agent 打 prompt 的 loop。他是 Ope...