對於英偉達來說,那個曾經最大的客戶,現在變成了最懂的對手。當OpenAI可以用「威脅購買TPU」來換取30%的折扣,當Anthropic可以用TPU訓練出超越GPT-4的模型,當谷歌願意開放軟件生態並提供金融槓桿時,英偉達高達75%的毛利率神話便不再牢不可破。
2025年的AI芯片市場,正處於一個微妙的轉折點。
一方面,英偉達依然憑藉Blackwell維持着技術和市場份額的絕對領先;但另一方面,谷歌TPU的全面商業化,讓英偉達看似牢不可破的定價權,正在發生鬆動。
據半導體行業研究機構SemiAnalysis測算,OpenAI僅憑「威脅購買TPU」這一籌碼,就迫使英偉達生態鏈做出了實質性讓步,使其計算集群的總擁有成本(TCO)下降了約30%。
隨着Anthropic高達1GW的TPU採購細節曝光,谷歌正式撕下了「雲服務商」的面具,轉型爲一家直接向外部出售高性能芯片與系統的「商用芯片供應商」。
當OpenAI可以用「威脅購買TPU」來換取30%的折扣,當Anthropic可以用TPU訓練出超越GPT-4的模型,當谷歌願意開放軟件生態並提供金融槓桿時,英偉達高達75%的毛利率神話便不再牢不可破。
對於英偉達來說,那個曾經最大的客戶,現在變成了最懂的對手。
谷歌「主動出擊」
長期以來,谷歌的TPU就像其搜索算法一樣,是深藏不露的內部核武器。但SemiAnalysis獲取的供應鏈情報顯示,這一策略已發生根本性逆轉。
最直接的案例來自Anthropic。作爲能在前沿模型上媲美OpenAI抗衡的大模型公司,Anthropic已確認將部署超過100萬顆TPU。這筆交易的結構極具破壞力,它揭示了谷歌「混合銷售」的新模式:
在這100萬顆芯片中,首批約40萬顆最新的TPUv7 "Ironwood"將不再通過雲租賃,而是由博通直接出售給Anthropic,價值約100億美元。博通作爲TPU的長期聯合設計方,在此次交易中從幕後走向臺前,成爲了這場算力轉移的隱形贏家。
而剩餘的60萬顆TPUv7,則通過谷歌雲進行租賃。據估算,這部分交易涉及高達420億美元的剩餘履約義務(RPO),直接支撐了谷歌雲近期積壓訂單的暴漲。
這一動作的信號極爲明確:谷歌不再吝嗇於將最先進的算力外售。除了Anthropic,Meta、SSI、xAI等頂級AI實驗室也出現在了潛在客戶名單中。
面對這一突如其來的攻勢,英偉達罕見地展現出防禦姿態,其財務團隊近期不得不針對「循環經濟」(即投資初創公司購買自家芯片)的質疑發佈長文辯解。這種對市場情緒的敏感反應,恰恰說明谷歌的攻勢已經觸及了英偉達的神經。
成本是硬道理
客戶倒戈的理由很純粹:在AI軍備競賽中,性能是入場券,但TCO(總擁有成本)決定生死。
SemiAnalysis的模型數據顯示,谷歌TPUv7在成本效率上對英偉達構成了碾壓優勢。
從谷歌內部視角看,TPUv7服務器的TCO比英偉達GB200服務器低約44%。即便加上谷歌和博通的利潤,Anthropic通過GCP使用TPU的TCO,仍比購買GB200低約30%。
這種成本優勢並非僅靠壓低芯片價格實現,而是源於谷歌獨特的金融工程創新——“超級雲廠商兜底”。
在AI基礎設施建設中,存在一個巨大的期限錯配:GPU集群的經濟壽命僅爲4-5年,而數據中心場地的租賃合約通常長達15年以上。這種錯配讓Fluidstack、TeraWulf等新興算力服務商難以獲得融資。
谷歌通過一種「資產負債表外」的信貸支持(IOU)解決了這一難題:谷歌承諾,如果中間商無法支付租金,谷歌將介入兜底。
這一金融工具直接打通了加密貨幣礦工(擁有電力和場地)與AI算力需求之間的堵點,構建了一個獨立於英偉達體系之外的低成本基礎設施生態。
不僅是芯片,還有系統
如果說價格戰是戰術層面的對壘,那麼系統工程則是谷歌戰略層面的護城河。
之前,業界素有「系統重於微架構」的觀點。如今,這一論斷在TPUv7上得到了驗證。雖然單顆TPUv7在理論峰值算力(FLOPs)上略遜於英偉達的Blackwell,但谷歌通過極致的系統設計抹平了差距。
現在,TPUv7 "Ironwood"在內存帶寬和容量上已大幅縮小與英偉達旗艦芯片的差距。更重要的是,它採用了更務實的設計哲學——不追求不可持續的峰值頻率,而是通過更高的模型算力利用率(MFU)來提升實際產出。
而谷歌真正的殺手鐧,是其獨步天下的光互連(ICI)技術。不同於英偉達依賴昂貴的NVLink和InfiniBand/Ethernet交換機,谷歌利用自研的光路交換機(OCS)和3D Torus拓撲結構,構建了名爲ICI的片間互連網絡。
這一架構允許單個TPUv7集群(Pod)擴展至驚人的9,216顆芯片,遠超英偉達常見的64或72卡集群。OCS允許通過軟件定義網絡,動態重構拓撲結構。
這意味着如果某部分芯片故障,網絡可以毫秒級繞過故障點,重新「切片」成完整的3D環面,極大地提升了集群的可用性。且光信號在OCS中無需進行光電轉換,直接物理反射,大幅降低了功耗和延遲。
Gemini 3和Claude 4.5 Opus這兩大全球最強模型均完全在TPU上完成預訓練,這本身就是對TPU系統處理「前沿模型預訓練」這一最高難度任務能力的終極背書
拆除最後的圍牆:軟件生態的改變
長期以來,阻礙外部客戶採用TPU的最大障礙是軟件——谷歌固守JAX語言,而全球AI開發者都在使用PyTorch和CUDA。
但在巨大的商業利益面前,谷歌終於放下了傲慢。
SemiAnalysis報告指出,谷歌軟件團隊的KPI已發生重大調整,從「服務內部」轉向「擁抱開源」。
此前,谷歌「超級隊長」 Robert Hundt已明確宣佈,將全力支持PyTorch Native在TPU上的運行。
谷歌不再依賴低效的Lazy Tensor轉換,而是通過XLA編譯器直接對接PyTorch的Eager Execution模式。這意味着Meta等習慣使用PyTorch的客戶,可以幾乎無縫地將代碼遷移到TPU上。
同時,谷歌開始向vLLM和SGLang等開源推理框架大量貢獻代碼,打通了TPU在開源推理生態中的任督二脈。
這一轉變意味着英偉達最堅固的「CUDA護城河」,正在被谷歌用「兼容性」填平。
而這場「硅谷王座」的爭奪戰,才剛剛開始。
No comments:
Post a Comment