一家車廠要蓋全世界最大 AI 晶片廠:Tesla Terafab 背後的技術野心與開發者該注意的事
3 月 14 日,Elon Musk 在 X 上發了一條短推:「Terafab Project launches in 7 days」。七天後的 3 月 21 日,Tesla 要正式啟動他們自己的晶片製造計畫。 一家做電動車的公司,要蓋全世界最大的 AI 晶片廠。這不是 PPT 融資,是真的要量產 2 奈米製程晶片。 我花了一些時間整理目前已知的技術細節,試著從開發者和 AI 從業者的角度,分析這件事為什麼值得關注。 數字先擺出來Terafab 的規模用幾個數字就能理解: 製程:2 奈米,目前商用最先進的節點 月產能目標:10 萬片晶圓起步,遠期目標 100 萬片(TSMC 目前美國廠全部產能大約 14 萬片) 年產量:1,000 億到 2,000 億顆 AI 和記憶體晶片 估計成本:250 億美元 第一顆晶片:AI5(Tesla 第五代 AI 晶片),2026 年小量試產,2027 年量產 這些數字背後有一個簡單的邏輯。Musk 在 1 月的法說會上講得很直白:「即使用最樂觀的估計,供應商的產能還是不夠。」 不夠用在哪?FSD 自駕軟體、Cybercab...
你的 AI 應用塞了 50 個工具?GPT-5.4 的 Tool Search 讓你省下一半 token
上個月我在幫一個客服系統接 AI,工具列表長到我自己看了都頭痛——查訂單、退款、修改地址、查庫存、轉人工、寄信、查物流……加起來 47 個 function definition。每次 API 呼叫,光是把這些工具塞進 prompt 就吃掉 8,000 多個 token。使用者問一句「我的包裹到哪了」,模型還得先讀完退款政策和寄信格式才能回答。 GPT-5.4 在三月初發布時帶來的 Tool Search 機制,直接解決了這個問題。 問題的根源:你付錢讓模型讀它用不到的東西傳統的 function calling 很直觀——你把所有工具的 JSON schema 丟進 tools 陣列,模型看完後決定要呼叫哪個。問題是,模型不管用不用,都得讀。 算一筆帳: 123一個工具定義 ≈ 150-300 tokens30 個工具 ≈ 4,500-9,000 tokens每次對話 10 輪 ≈ 45,000-90,000 tokens 花在重複讀工具定義 這些 token 不產生任何價值。它們只是讓模型知道「我有這些能力」,但 90% 的對話只會用到 2-3...
你的 AI 模型不需要永遠在思考:Phi-4-reasoning-vision 的思考開關機制拆解
上週我在測一個圖片分類 pipeline,用的是某個 70B 的多模態模型。每張圖片丟進去,模型都要「深呼吸」想個十幾秒,輸出一大段 chain-of-thought,最後才吐出一個分類標籤。 問題是,八成的圖片根本不需要推理。一張貓的照片,你不需要「讓我仔細分析這張圖片的像素分佈和語義特徵」,你只需要說「貓」。 Microsoft 在 3 月 4 日開源的 Phi-4-reasoning-vision-15B,做了一件我認為比「更大更強」更有價值的事:教模型判斷什麼時候該思考,什麼時候不該。 15B 參數做到了什麼先看數字。Phi-4-reasoning-vision-15B 在十個基準測試上的表現: AI2D(科學圖表):84.8 ChartQA(圖表問答):83.3 MathVista(數學視覺推理):75.2 ScreenSpot v2(UI 元素定位):88.2 MMMU(綜合多模態理解):54.3 這些分數追不上 Qwen3-VL-32B,但跟同量級的 Qwen3-VL-8B 和 Kimi-VL-A3B 比,持平甚至領先。重點是,Qwen...
AI Agent 框架大亂鬥:NemoClaw、OpenClaw 和開發者的真實選擇
老闆走過來說:「我看到競爭對手在用 AI Agent 自動處理客服了,我們也來做一個。」 你心裡的 OS 大概是:用哪個框架?LangChain?AutoGen?還是最近爆紅的 OpenClaw?明天 NVIDIA GTC 又要發布 NemoClaw,這局面到底怎麼選? 我花了一整晚研究目前的 AI Agent 框架生態,把我的觀察整理成這篇。不賣焦慮,只講開發者真正需要思考的問題。 數字先看:這不是 hype,但也不全是真的Gartner 和 Forrester 都把 2026 年標記為「多代理系統的突破年」。幾個關鍵數據: 57% 的企業已經有 AI Agent 在生產環境跑了(G2 調查) 40% 的企業應用預計會嵌入特定任務的 AI Agent 80% 的受訪者表示 AI Agent 已經產生可衡量的經濟影響 全球 Agentic AI 市場規模從 2026 年的 91.4 億美元,預計 2034 年達到 1,390 億美元 但 Gartner 同時預測:超過 40% 的 Agent 專案會在 2027...
GTC 2026 前夕:Vera Rubin 架構與 NemoClaw 將如何改變 AI 開發者的日常
明天(3/16)Jensen Huang 會站上 SAP Center 的舞台,開始一場兩小時的主題演講。GTC 2026 不只是 NVIDIA 的年度大拜拜——今年的發布內容,可能會直接改變我們未來兩年寫程式的方式。 我花了幾天研究公開資料,整理出三個對開發者最有感的方向。 Vera Rubin:不只是「更快的 GPU」先說數字。Vera Rubin 架構的 GPU 擁有 3,360 億個電晶體,用台積電 3nm 製程,搭配 HBM4 記憶體。推理效能 50 PFLOPS(NVFP4),訓練 35 PFLOPS——分別是 Blackwell 的 5 倍和 3.5 倍。 但真正讓我注意的不是單顆 GPU 的數字,而是 NVL72 機架的規格:72 顆 Rubin GPU + 36 顆 Vera CPU,透過 NVLink 6 連接,每顆 GPU 有 3.6 TB/s 的雙向頻寬,整個機架的 scale-up 頻寬達到 260 TB/s。 這意味著什麼? 以前跑大型模型需要跨節點通訊,頻寬瓶頸讓 pipeline parallelism 變成必修課。260 TB/s 的...
Anthropic 拒絕讓 AI 做武器,被美國政府列入黑名單:技術紅線背後的架構抉擇
3 月 9 日,Anthropic 同時在加州北區聯邦法院和華盛頓特區上訴法院提起訴訟,控告美國國防部違法將其列為「供應鏈風險」。原因很單純:CEO Dario Amodei 拒絕讓 Claude 被用於大規模監控美國公民,也拒絕讓它操控自主武器。 這不是一般的商業糾紛。這是一家估值數百億美元的 AI 公司,因為堅持技術紅線而被自己國家的軍方封殺。 兩條紅線Anthropic 和五角大廈的談判卡在兩個條款上: 禁止大規模監控:Claude 不能被用來對美國公民進行未經授權的大規模數據蒐集和分析 禁止自主武器:Claude 不能作為完全自主殺傷性武器的決策核心 Amodei 的立場很明確——這兩條不談。五角大廈的回應也很明確——那你就別做政府生意了。 2 月底,國防部正式將 Anthropic 列入「供應鏈風險」名單。這個標籤的殺傷力不只是失去國防合約,而是所有聯邦政府承包商在六個月內都必須停止使用 Claude。根據 Anthropic 的法庭文件,超過 100...
AI 比人類更會操作電腦了:GPT-5.4 Computer Use 技術拆解與開發者該注意的三件事
3 月 5 日,OpenAI 發布 GPT-5.4。大多數人的注意力被 1M token context window 和 Tool Search 搶走了,但我認為真正該被討論的是另一件事:Computer Use。 GPT-5.4 在 OSWorld 基準測試拿到 75.0% 的成功率。人類專家是 72.4%。 AI 操作電腦的成功率,正式超過人類了。 OSWorld 75%,這個數字為什麼重要先說清楚 OSWorld 在測什麼。它不是問 AI「怎麼操作試算表」然後看回答正不正確。它是真的把 AI 丟到一台有作業系統的電腦前面,給它任務,看它能不能完成。 任務長這樣: 「找到最近修改過的試算表並打開它」 「把 Wi-Fi 切換到辦公室網路」 「打開 Chrome,到某個網站,把這份表單填完」 都是你每天在做的事。而 GPT-5.4 做這些事的成功率,比被付錢來完美完成任務的人類測試員還高。 模型 OSWorld 成功率 與人類(72.4%)比較 GPT-5.4 75.0% +2.6% GPT-5.2 47.3% -25.1% 之前最佳...
61 個 Markdown 檔讓你的 IDE 變成 AI 公司:agency-agents 爆紅背後的技術邏輯
一個 GitHub 專案,沒有任何可執行程式碼,只有 61 個 Markdown 檔案,7 天內拿到 10,000 顆星。截至 3/14 已經衝到 39,300 星。 這不是什麼新框架或新語言。agency-agents 做的事情只有一件:用 Markdown 定義 AI 的專業人格。 聽起來荒謬,但它戳中了一個真實的問題。 你的 AI 助手什麼都會,所以什麼都做不好用過 Claude Code 或 Cursor 的人都有這個經驗:你請 AI 寫一個 REST API,它給你一個「還行」的版本。能跑,但缺少認證考量、沒有速率限制、錯誤處理敷衍、命名風格前後不一。 問題不在模型能力。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro——這些模型的知識量早就超過任何單一工程師。問題在於 context window 裡塞了太多可能性,模型不知道你要哪一種。 你問「幫我設計 API」,模型在 REST、GraphQL、gRPC 之間游移。你問「幫我寫測試」,模型不確定你要 unit test 還是 integration...
DeepSeek V4 一直跳票?從華為晶片到兆級參數,中國 AI 的硬體困境
DeepSeek V4 原定三月第一週發布。現在三月過了一半,官方一個字都沒說。 這不是一般的軟體延遲。這是中國 AI 產業第一次嘗試在非 NVIDIA 硬體上訓練兆級參數模型,而現實比預期殘酷。 V4 到底是什麼先說結論:如果 DeepSeek V4 真的發布,它會是目前最大的開源模型。 兆級參數的 Mixture-of-Experts(MoE)架構,每個 token 只啟用約 320 億參數。Top-16 路由策略——模型裡有上千個「專家」,每次推理只叫醒最相關的 16 個。這意味著你可以用 320 億參數的算力成本,得到兆級參數的知識容量。 V4 的架構有三個值得注意的設計: Manifold-Constrained Hyper-Connections。 解決 MoE 的老問題:專家之間不夠互通。傳統 MoE 的專家各做各的,資訊共享效率差。這個機制讓跨專家的資訊利用率提升了約 40%,同時不增加計算成本。這不是微調,是結構性改進。 Engram Conditional Memory。 處理超長 context 時動態維護關鍵資訊索引。白話說:在 100 萬 token...
NVIDIA 要做自己的 AI Agent 平台了:NemoClaw 技術架構解讀與開發者該注意的三件事
上週 CNBC 報導 NVIDIA 正在打造一個叫 NemoClaw 的開源 AI agent 平台,目標是企業市場。三天後,GTC 2026 就要開幕了。Jensen Huang 的主題演講排在 3/16 上午 11 點(太平洋時間),市場預期他會在那裡正式發布這東西。 我花了一些時間把目前流出的資訊整理了一遍,想搞清楚這個平台跟現有的 AI agent 方案(OpenClaw、Dify、LangChain)到底有什麼不同,以及對我們這些寫程式的人來說,真正值得關注的是什麼。 NemoClaw 是什麼一句話:NVIDIA 把自家的 NeMo 框架、Nemotron 模型系列和 NIM 推理微服務打包成一個企業級 AI agent 平台,然後開源。 聽起來很普通,但有幾個細節值得注意。 硬體不綁定。 NemoClaw 可以跑在 NVIDIA GPU 上,也可以跑在 AMD、Intel 和其他處理器上。一家以賣 GPU 為主要商業模式的公司,做了一個不強制要求用自家硬體的平台——這個決定背後的戰略考量很有意思。 企業安全優先。 跟 OpenClaw 這類個人向的 agent...
