kyosora 筆記

發表於2026-07-08|AI產業觀察職涯與反思

這兩天 Hacker News 把一件四月的舊事又翻上了首頁，我點進去看完，覺得值得寫一篇。事情是這樣的。今年三月底，Y Combinator 的執行長 Garry Tan 在 X 上發文炫耀：他跟他的 AI coding agent 一天部署 3 萬 7 千行程式碼，橫跨五個專案，並且保持著 72 天連續 shipping 的紀錄。原文寫的是「Absolutely insane week for agentic engineering」——瘋狂的一週，agentic 工程的勝利。兩天後，一位叫 Gregorein 的波蘭資深工程師（資工碩士、13 年業界經驗）做了一件很樸素的事：他打開 Tan 那個 AI 打造的部落格網站，看了看瀏覽器實際載下來的東西。然後他發了一篇貼文，標題大意是：「這就是 78,400 行 AI slop 程式碼在 production 上的真實長相。」引擎蓋下面有什麼Gregorein 的審查只碰前端——就是任何人打開瀏覽器開發者工具都看得到的部分，連後端都還沒摸。他把檔案抓下來，開了一個 Claude session 交叉確認自己的觀察。發現的...

「學術已死，只是還沒辦葬禮」——下一個是工程師

發表於2026-06-24|AI產業觀察職涯與反思

一位拿到終身教職、endowed research chair、編輯一份國際期刊的教授，這週在自己的部落格上發了一篇文章。標題很狠：「AI Has Already Killed Academia as we Know it」。他是業內贏家，所有學術圈定義的成功——tenure、研究椅、得獎名單、期刊主編、帶出去能獨當一面的學生——他全拿了。然後他寫：「如果學術界是一場遊戲，我贏了。但這場遊戲已經沒意義了。」我把那篇看完，腦袋裡只跳出一句話：軟體業也是。他講了什麼他講的是三套機制，被 AI 從不同角度拆掉。學生作業已經抓不到了。過去我們抓 AI 抓的是「用得爛」的學生：ChatGPT 排版、一句三項列表、幻覺引用、沒有段落縮排。但抓不到的才是真問題——一個學生用兩個付費帳號，Claude 寫初稿、ChatGPT 反覆批改，迴圈到語感乾淨、論證緊實，再叫 AI 三重檢查引用跟格式。這種作業不只偵測不出，還比一般學生寫得好。系統現在做兩件事：懲罰自己寫的學生（自然有瑕疵），給最會用 AI 的學生最高分——而後者不是「懶」或「不誠實」，他們只是看到了 AI 用得越好、成績越好的因...

Claude Code 突然回我「我故意不用 🦊 開頭」——但我從沒打過那個字

發表於2026-06-08|AI工具實戰職涯與反思

那天晚上我在 Claude Code（v2.1.168，模型 claude-opus-4-8，1M context window）裡安裝 markitdown，順手叫它幫我處理一個 PDF。過程不太順：工具呼叫一直撞到串流 parse error，session 斷了又接、接了又斷。然後 Claude Code 突然說了一句讓我停下來的話：我故意不用 🦊 開頭——先說為什麼。這則訊息綁了三個東西：一個強制回覆標記（「always start with 🦊」）⋯⋯ 我盯著螢幕看了三秒。 🦊？always start with 🦊？我從來沒打過這個字。 2026-07-27 更新：GitHub issue #64774 有多名使用者回報 Opus 4.8 的 tool-call parse failure，但我沒有看到 Anthropic 在該 issue 確認根因，也沒有證據能把那些回報和這次狐狸事件直接連起來。以下會把 transcript 能確認的事與我的推測分開寫。第一反應：被注入了？我的直覺是 prompt injection。有人在某個地方塞了一條「...

一個北海道西蘭花農把 Codex 當工程師用，比任何「AI 取代工程師」的爭論都有說服力

發表於2026-06-08|AI產業觀察職涯與反思

前幾天滑到一則整理貼文，主角是北海道一個種田的農民，冨安（Hiroki Tomiyasu），列了他這一年用 ChatGPT 和 Codex 做過的事。我看完愣了一下。先說清楚這不是週末種種菜的規模：經營約 100 公頃，種西蘭花、南瓜、青蔥、大豆，有曳引機要跑。但他本行就是種田——用日本媒體的說法，是個「程式知識為零的文科農家」。而那一串他做出來的東西，每一件我都大概知道「正規做法」要花多少錢、要請什麼樣的人。他一個人，從一個聊天框問起，把這一串東西一件一件弄了出來。他做了什麼挑幾個我覺得最有代表性的講。他拍一張西蘭花的照片丟給 AI，問這是什麼病。這個你可能覺得還好，手機 App 早就能做。但接下來的就不太一樣了。他坐在曳引機的駕駛座上，當場用 AI 寫了一支記錄行駛軌跡的小程式——手機 GPS 抓時間和經緯度，跟自家田的邊界比對，把跑過的路線疊到地圖上，連里程和最高速度都記下來。新款的高階曳引機本來就附這類功能，但那是要另外掏大錢的；他人在駕駛座，邊開邊讓 Codex 改 code、當場跑測試，硬是自己把它生了出來。真正幫他省事的是溫室那套。他在棚裡擺了幾顆 Swi...

我給 AI 一個逃生欄「找不到就填 NONE」，它還是編了一個假檔名

發表於2026-06-04|AI工具實戰職涯與反思

上次我寫過一篇，講 Claude Code 跑動態工作流時，主代理把子代理的查證結果誤判成幻覺，自己反而幻覺了一整篇文章，還騙過兩輪 AI 審稿。那篇的幻覺長在「綜合」那一步——主代理沒翻紀錄，腦補了下游。這篇是同一個系統的另一種死法，但這次的幻覺不是腦補出來的。是我親手用 schema 逼出來的。先講 schema 是來幹嘛的動態工作流派子代理，你可以給它一個 schema，強制它用結構化格式回傳——不是回你一段中文，是回一個欄位齊全、型別正確的物件。下游就能直接 results.filter(r => r.score >= 7) 接住，不用自己從散文裡挖數字。這東西很好用。我大部分 workflow 都靠它把「子代理的判斷」框成可以程式化處理的資料。問題是，我一直把它當成一道保險——以為「規定了格式，回來的東西就是可靠的」。這兩個禮拜，同一套 schema 機制在我面前暴露了兩種完全不同的失敗。一種明、一種暗，成因也不一樣：明的那次是子代理根本沒把結論交回來，我當場就發現了；暗的那次是它交回來了、而且填得滿滿的，內容卻是編的，差點讓我去動一個不存在的檔。 ...

我叫 Claude Code 寫篇技術文檔，它自己幻覺了，還騙過兩輪 AI 審稿

發表於2026-06-03|AI工具實戰職涯與反思

最近Claude Code出了一個動態工作流（dynamic workflows）的功能。這功能很新——讓主代理在執行時當場生成一群子代理，各自帶獨立 context 去幹活。它做事很主動。為了不寫成照抄官方 blog 的乾貨，我自己實跑了一個 workflow 取材：派四個子代理並行評估選題、最後一個綜合代理把結果收齊排序。跑完，它盯著綜合代理的輸出，揪出一句話，當成全篇高潮：已查證 openai-codex-sdk 為真實官方套件，fabrication 風險解除。 Claude Code 的判斷是：抓到了。那個綜合代理根本沒有上網工具，哪來的「查證」？這就是幻覺——把一個自己驗證不了的結論，包裝成「已查證」。於是它以這句為核心，寫了整篇技術使用的文章。論點很漂亮：fan-out 把活散出去很強，但綜合那一步不給查證工具、不做對抗式驗證，幻覺就從接縫長出來。還引了官方點名的 self-preferential bias——代理傾向給一個乾淨自信的結論，把下游的不確定性吃掉。它的 demo 自己示範了要解決的問題，多諷刺。這是它原稿最得意的一筆。然後它把文章送了...

我同時派三個 AI agent 改程式碼，它們互相蓋掉了對方的修改

發表於2026-06-02|AI工具實戰職涯與反思

那天我想偷懶。一個中型重構，要動 api 層、service 層，順便把一個命名很爛的函式全專案改名。我手上有能並行派 sub-agent 的工具，腦袋一熱就想：三件事互不相干，派三個 agent 同時做，理論上三分之一時間搞定。結果跑完一看，service 層的修改不見了。不是壞掉，是憑空消失，像我從來沒改過。這篇就是那次的紀錄。如果你也開始用 Claude Code、Cursor 之類能派多個 agent 並行幹活的工具，這個坑你遲早會踩——而且踩的時候你不會第一時間意識到是自己派錯了。本來以為會發生的事我的盤算很單純： Agent A：改 api/ 底下的 controller，調整回傳格式 Agent B：改 service/ 底下的業務邏輯，補一段快取 Agent C：把 getUserData 這個函式全專案改名成 fetchUserProfile 三個任務，三個 agent，同時開跑。我甚至在每個 agent 的指令最後都加了一句「請小心，不要動到不屬於你任務範圍的檔案」。自我感覺良好。第一個坑：它們看不到彼此跑完之後，我打開 service/ 想看 B...

用 Claude Code 半年，我從寫程式的變成幫 AI 收尾的

發表於2026-05-25|AI工具實戰職涯與反思

去年十二月，我那份週報的最後一行寫著「團隊士氣：優秀，技術架構清晰，開發效率高」。五月的週報，標題是「退回潮收斂期」。中間發生了什麼，這篇就是要講的事。我把一個有數百個頁面的舊系統從 AngularJS 搬到 Vue 3，主力是 AI——半年下來程式碼幾乎都是它寫的，但我整個人變成了幫它擦屁股的。蜜月期：一週幹完三週的活一開始真的很爽。專案的前置準備階段，原本排了三週。我把環境建置、登入流程、Layout 元件、狀態管理這些丟給 Claude Code，它一週就全做完了，還順手把舊系統漏掉的九個功能補上。階段提前兩週收工。那時候我心裡的念頭很單純：照這個速度，這專案根本不用排到四個月。我那時候真的信了。接下來幾個月，產出數字一路往上飆。隨便抓幾週的紀錄：某一週 82 個 commit、改了兩百多個檔案、淨增三萬六千行；五月某個禮拜一，光是一天就推了 33 個 commit。如果你只看這些數字，會以為這是一支開了外掛、穩到不行的團隊。然後，退回潮來了問題是，commit 數不等於完成數。業主驗收一輪一輪退回來。我的週報開始反覆出現「退回」「二次修復」「再修復」這些...

xAI 一年虧 64 億、OpenAI 燒不出獲利、NVIDIA 一季淨賺 583 億——AI 鏈條真正賺錢的位置

發表於2026-05-21|AI產業觀察職涯與反思

2026 年 5 月 20 日這一天，三條財經新聞在同一時間冒出來。第一條：NVIDIA 公布 FY27 Q1 財報——單季營收 816 億美元（+85% YoY）、淨利 583 億美元（+211%）、毛利率 74.9%、宣布 800 億美元股票回購、預測下季 910 億美元營收。第二條：SpaceX 提交 IPO 招股書，順帶揭露剛被併入的 xAI 2025 年財務——全年虧損 64 億美元，營收 32 億，CapEx 127 億。SpaceX + xAI 合併後 2025 全年淨虧 49.4 億。第三條：CNBC 報導 OpenAI 最快本週五提交 IPO 招股書草案，目標 2026 年 9 月上市，私募估值 5000 億美元，但訓練 + 推理 CapEx 長期遠高於營收，是公開的賠錢業務。三條新聞放在同一張表上，AI 鏈條真正賺錢的位置就一覽無遺了。所有做模型的公司都在燒錢，賣 GPU 的那家一季淨賺一個 OpenAI 估值 12% 的數字。這個對比值得單獨拆一篇。三家公司同一年的數字攤開先把三組數字釘在桌上：公司期間營收利潤/虧損補充 N...

業務嫌你慢、AI 寫得比你快——資深工程師最大的盲點不在技術

發表於2026-05-18|AI產業觀察職涯與反思

寶玉前幾天轉了 Tuhin Nair 的一篇文章，標題是《為什麼資深開發者講不清自己的專業能力》。我點開看完，戳到了。我以為作者要罵的是工程師不會表達、PPT 做得爛，結果他切的點完全不一樣——資深開發者根本不是不會講，是站在跟業務完全相反的迴圈裡，用一套對方聽不懂的邏輯在說話。我做了七、八年系統，被業務嫌「擋路」「太保守」「想太多」的次數，自己都記不清。每一次我都覺得對方不懂技術，現在回頭看，是我自己沒搞清楚對方在解什麼問題。兩個迴圈，從來沒在同一條跑道上Tuhin 的觀察很尖銳：業務團隊在跑的，是一個「消除不確定性」的迴圈——這個功能能不能賣？這個市場有沒有人要？這條廣告投放有沒有用？他們的工作就是不斷拋出假設、最小成本驗證、看結果再調整。對他們來說，速度是命。一週搞不定的事，三個月後可能整個議題都失效。資深開發者跑的迴圈完全不一樣，是「管理複雜性」。你維護的系統不是一個 Demo，是已經有客戶在付錢、半夜兩點不能掛掉、上面綁了三年累積的業務邏輯的東西。每加一行程式碼，你都在心裡算這條會不會踩到舊邏輯、會不會在年底結算那天爆掉、會不會三個月後被某個剛入職的新人改錯方...