Here is the article.
以下是SemiAnalysis本次報告的全文翻譯部分(由AI翻譯):
TPUv7:谷歌向王者揮拳
CUDA 護城河的終結?Anthropic 簽下 1GW+ TPU 採購大單;Meta/SSI/xAI/OAI/Anthro 購買的 TPU 越多,節省的 GPU 資本支出(Capex)就越多;下一代 TPUv8AX 和 TPUv8X 將正面對決 Vera Rubin。
當今世界最頂尖的兩個模型——Anthropic 的 Claude 4.5 Opus 和谷歌的 Gemini 3,其絕大部分訓練和推理基礎設施都運行在谷歌的 TPU 和亞馬遜的 Trainium 上。如今,谷歌正打破常規,開始向多家企業直接出售物理 TPU 硬件。這是 Nvidia 統治終結的序章嗎?
AI 時代的黎明已至,至關重要的是要理解,AI 驅動的軟件其成本結構與傳統軟件截然不同。芯片微架構和系統架構在這些創新型軟件的開發和擴展中扮演着決定性角色。與早期軟件時代開發人員成本佔比較高的情況相比,AI 軟件運行的硬件基礎設施對資本支出(Capex)和運營支出(Opex)——進而對毛利率——有着顯著更大的影響。因此,爲了能夠部署 AI 軟件,投入大量精力優化 AI 基礎設施變得前所未有的關鍵。在基礎設施方面擁有優勢的公司,在部署和擴展 AI 應用的能力上也必將佔據高地。
早在 2006 年,谷歌就曾兜售過構建 AI 專用基礎設施的理念,但這個問題在 2013 年達到了沸點。他們意識到,如果想要以任何規模部署 AI,就需要將現有的數據中心數量翻倍。因此,他們開始爲 TPU 芯片奠定基礎,並於 2016 年投入生產。有趣的是,亞馬遜在同一年也意識到需要構建定製芯片。2013 年,亞馬遜啓動了 Nitro 項目,專注於開發芯片以優化通用 CPU 計算和存儲。兩家截然不同的公司針對不同的計算時代和軟件範式,優化了各自的基礎設施路徑。
我們長期以來一直認爲,TPU 是世界上用於 AI 訓練和推理的最佳系統之一,與「叢林之王」 Nvidia 並駕齊驅。2.5 年前,我們寫過關於「TPU 霸權」的文章,這一論點已被時間證明是非常正確的。
TPU 的成績不言自明:Gemini 3 是世界上最好的模型之一,且完全在 TPU 上訓練。在本報告中,我們將深入探討谷歌戰略的巨大轉變——即適當地將 TPU 商業化以供外部客戶使用,使其成爲 Nvidia 最新且最具威脅的商用芯片(Merchant Silicon)挑戰者。
本報告計劃:
- (重新)告訴我們的客戶和新讀者,讓他們了解外部 TPU 客戶的商業成功正在迅速增長,從 Anthropic 開始,延伸到 Meta、SSI、xAI 甚至潛在的 OpenAI……
- 展示核心邏輯: 你購買的 TPU 越多,你節省的 Nvidia GPU 資本支出就越多!OpenAI 甚至還沒有部署 TPU,就已經通過競爭威脅獲得了約 30% 的計算集群折扣,從而提高了每 TCO(總擁有成本)的性能。
- 解釋 AI 基礎設施的「循環經濟」交易。
- 重訪我們原本的 TPU 深度分析,從芯片到軟件層對 TPU 硬件堆棧進行全面更新。
- 涵蓋開放軟件生態系統方面的積極進展,以及谷歌使 TPU 生態系統成爲 CUDA 護城河的可行挑戰者所缺失的關鍵要素:開源他們的 XLA:TPU 編譯器、運行時(runtime)和多 Pod「MegaScaler」代碼。
- 在付費牆內容中,我們將討論這對 Nvidia 護城河的影響,並將 Vera Rubin 與下一代 TPUv8AX/8X(又名 Sunfish/Zebrafish)進行比較。
- 還將涵蓋對 Nvidia 的長期威脅。
首先,讓我們談談這則新聞對生態系統的影響。TPU 的性能顯然引起了競爭對手的注意。Sam Altman 承認,由於 Gemini 搶了 OpenAI 的風頭,OpenAI 正面臨「倍感壓力(rough vibes)」的局面。Nvidia 甚至發佈了一份令人寬慰的公關稿,告訴大家保持冷靜並繼續前進——聲稱自己仍遙遙領先於競爭對手。
我們理解其中的原因。過去幾個月對於 Google Deepmind、GCP(谷歌雲平台)和 TPU 綜合體來說是一個接一個的勝利。TPU 產量的大幅上調、Anthropic 超過 1GW 的 TPU 擴建、在 TPU 上訓練的 SOTA(最先進)模型 Gemini 3 和 Opus 4.5,以及現在正在擴大的目標客戶名單(Meta、SSI、xAI、OAI)排隊等待 TPU。這推動了谷歌和 TPU 供應鏈的巨大價值重估,而代價是 Nvidia GPU 供應鏈的損失。雖然谷歌和 TPU 供應鏈的「突然」崛起讓許多人感到驚訝,但 SemiAnalysis 的機構產品訂閱者在過去一年中早已預料到了這一點。
Nvidia 處於守勢的另一個原因是,越來越多的懷疑論者認爲該公司正在通過資助燒錢的 AI 初創公司來支撐一種「循環經濟」,本質上是用額外的步驟將錢從一個口袋轉移到另一個口袋。我們認爲這種觀點是有失偏頗的,但這顯然觸動了 Nvidia 內部的神經。財務團隊發佈了一份詳細的回應,轉載如下。
循環融資是一種不可持續的商業行爲
指控: NVIDIA 參與了一個價值 610 億美元的循環融資計劃,即 NVIDIA 投資 AI 初創公司,初創公司承諾雲支出,雲服務商(CSPs)和初創公司購買 NVIDIA 硬件,NVIDIA 確認收入,但現金從未完成循環,因爲基礎經濟活動——產生利潤的 AI 應用——仍然不足。
回應: 首先,NVIDIA 的戰略投資僅佔 NVIDIA 收入的一小部分,在全球私募資本市場每年籌集的約 1 萬億美元中佔比更小。在第三季度和年初至今,NVIDIA 對私營公司的投資分別爲 37 億美元和 47 億美元,分別佔收入的 7% 和 3%。NVIDIA 戰略投資組合中的公司主要從第三方融資提供商籌集資金,而不是從 NVIDIA。
其次,NVIDIA 對戰略投資完全透明,這些投資在資產負債表中作爲長期資產和有價證券報告,在損益表中作爲其它收入和支出(OI&E)報告,在現金流量表中作爲投資活動的現金流報告。
第三,NVIDIA 戰略投資組合中的公司正在迅速增加自己的收入,表明其盈利之路和對 AI 應用的強勁潛在客戶需求。NVIDIA 戰略投資組合中的公司主要從第三方客戶產生收入,而不是從 NVIDIA。
我們認爲更現實的解釋是,Nvidia 旨在通過提供股權投資而不是降價來保護其在**基礎實驗室(Foundation Labs)**的主導地位,因爲降價會降低毛利率並引起廣泛的投資者恐慌。下面,我們概述了 OpenAI 和 Anthropic 的安排,以展示前沿實驗室如何通過購買或威脅購買 TPU 來降低 GPU TCO。
OpenAI 甚至還沒有部署 TPU,他們就已經在整個實驗室範圍內的 NVIDIA 艦隊上節省了約 30%。這證明了 TPU 的每 TCO 性能優勢是如此強大,以至於你甚至在開啓一臺 TPU 之前就已經獲得了採用 TPU 的收益。
我們的加速器行業模型、數據中心行業模型和核心研究訂閱者在這一消息宣佈併成爲市場共識之前很久就看到了行業影響。8 月初,我們與加速器模型客戶分享了我們看到供應鏈中 Broadcom / Google TPU 訂單在 2026 年的大規模上調。我們還透露,這些訂單增加的原因是谷歌將開始向多個客戶外部銷售系統。9 月初,我們透露其中一個大的外部客戶將是 Anthropic,需求至少爲 100 萬個 TPU。這在 10 月份得到了 Anthropic 和谷歌的正式確認。我們還在 11 月 7 日指出 Meta 是一個大的 TPU 客戶,比其他人早了幾周。此外,我們也討論了其他客戶。
結果,我們的機構客戶對 AI 交易中迄今爲止最大的**性能分化(Performance Dispersion)**有了充分的預期。SemiAnalysis 是第一個披露所有這些見解的公司,因爲沒有其他研究公司能夠將從晶圓廠到供應鏈,再通過數據中心到實驗室的點連接起來。
言歸正傳。
谷歌的大規模 TPU 外部化推進與 Anthropic 交易
TPU 堆棧長期以來一直與 Nvidia 的 AI 硬件相媲美,但它主要支持谷歌的內部工作負載。按照谷歌的一貫作風,即使在 2018 年向 GCP 客戶提供 TPU 後,它也從未將其完全商業化。這種情況正在開始改變。在過去的幾個月裏,谷歌動員了整個堆棧的力量,通過 GCP 將 TPU 帶給外部客戶,或者作爲商業供應商銷售完整的 TPU 系統。這家搜索巨頭正在利用其強大的內部芯片設計能力,成爲一家真正差異化的雲提供商。此外,這與旗艦客戶(Marquis Customer) Anthropic 繼續推動擺脫對 NVDA 依賴的戰略相一致。
Anthropic 的交易標誌着這一推進的一個重要里程碑。我們了解到 GCP CEO Thomas Kurian 在談判中發揮了核心作用。谷歌很早就承諾積極投資 Anthropic 的融資輪次,甚至同意放棄投票權並將所有權上限設定爲 15%,以將 TPU 的使用擴展到谷歌內部之外。前 DeepMind TPU 人才在基礎實驗室的存在促進了這一戰略的實施,導致 Anthropic 在包括 TPU 在內的多種硬件上訓練 Sonnet 和 Opus 4.5。谷歌已經爲 Anthropic 建立了一個實質性的設施,如下所示,這是我們「逐個建築追蹤 AI 實驗室」項目的一部分。
除了通過 GCP 租用谷歌數據中心的容量外,Anthropic 還將在其自己的設施中部署 TPU,這使谷歌能夠作爲真正的商用硬件供應商直接與 Nvidia 競爭。
關於 100 萬個 TPU 的拆分:
- 交易的第一階段涵蓋 40 萬個 TPUv7 Ironwood,價值約 100 億美元的成品機架,Broadcom 將直接銷售給 Anthropic。Anthropic 是 Broadcom 最近一次業績電話會議中提到的第四個客戶。Fluidstack,一家金牌 ClusterMax Neocloud 提供商,將處理現場設置、佈線、老化測試(burn-in)、驗收測試和遠程協助工作,因爲 Anthropic 將管理物理服務器的工作外包。數據中心基礎設施將由 TeraWulf (WULF) 和 Cipher Mining (CIFR) 提供。
- 剩餘的 60 萬個 TPUv7 單元將通過 GCP 租賃,我們估計這筆交易的**剩餘履約義務(RPO)**爲 420 億美元,佔 GCP 第三季度報告的 490 億美元積壓訂單增加額的大部分。
- 我們相信,未來幾個季度與 Meta、OAI、SSI 和 xAI 的額外交易可能會爲 GCP 提供額外的 RPO + 直接硬件銷售。
儘管內部和外部需求巨大,但谷歌未能按其希望的速度部署 TPU。儘管與仍需「討好」 Jensen(黃仁勳)的其他超大規模廠商相比,谷歌對其硬件供應有更多的控制權,但谷歌的主要瓶頸是電力。
當其他超大規模廠商擴大自己的站點並獲得大量託管容量時,谷歌的行動較爲緩慢。我們認爲核心問題是合同和行政方面的。每個新的數據中心供應商都需要一份主服務協議(MSA),這些是數十億美元、多年的承諾,自然涉及一些官僚主義。然而,谷歌的流程特別慢,從最初的討論到簽署 MSA 通常需要長達三年的時間。
谷歌的變通方案對尋求轉向 AI 數據中心基礎設施的 Neocloud 提供商和加密貨幣礦工具有重大影響。谷歌不直接租賃,而是提供信用兜底(credit backstop),即如果 Fluidstack 無法支付其數據中心租金,谷歌將介入支付,這是一張資產負債表外的「借條(IOU)」。
像 Fluidstack 這樣的 Neocloud 靈活敏捷,使他們更容易與像「轉型後的加密礦工」這樣的新數據中心供應商打交道。這種機制一直是我們看好加密採礦行業的關鍵——值得注意的是,我們在今年年初股價大幅降低時就點名了包括 IREN 和 Applied Digital 在內的衆多公司。
礦工的機會在於一個簡單的動態:數據中心行業面臨嚴重的電力限制,而加密礦工通過其購電協議(PPA)和現有的電力基礎設施已經控制了容量。我們預計未來幾周和幾個季度將有更多協議達成。
谷歌如何重塑 Neocloud 市場
在 Google/Fluidstack/TeraWulf 交易之前,我們在 Neocloud 市場從未見過任何僅憑資產負債表外「借條」達成的交易。交易之後,我們認爲它已成爲新的事實上的標準融資模板。這解決了 Neocloud 尋求確保數據中心容量並發展業務的一個關鍵難題:
- GPU 集群的有用和經濟壽命爲 4-5 年。
- 大型數據中心租賃通常爲 15 年以上,典型的投資回收期約爲 8 年。
這種期限錯配使得 Neocloud 和數據中心供應商爲項目融資變得非常複雜。但隨着「超大規模廠商兜底」的興起,我們相信融資問題已得到解決。我們預計 Neocloud 行業將迎來新一波增長。查看我們的加速器和數據中心模型以了解主要的受益者。這些是 Anthropic 交易背後的方式和原因,現在讓我們進入硬件部分。
此外,擁有 Jensen 作爲投資者的 Neocloud,如 CoreWeave、NEBIUS、Crusoe、Together、Lambda、Firmus 和 Nscale,都有明顯的動機不採用其數據中心內的任何競爭技術:TPU、AMD GPU 甚至 Arista 交換機都是禁區!這在 TPU 託管市場留下了一個巨大的缺口,目前由加密礦工 + Fluidstack 填補。在接下來的幾個月裏,我們預計會看到更多的 Neocloud 在追求不斷增長的 TPU 託管機會和確保最新最棒的 Nvidia Rubin 系統分配之間做出艱難的決定。
TPUv7 Ironwood – 爲什麼 Anthropic 和其他客戶想要 TPU?
答案很簡單。這是一個優秀的系統中的強大芯片,這種組合爲 Anthropic 提供了令人信服的性能和 TCO。2.5 年前,我們寫過關於谷歌計算基礎設施優勢的文章。即使芯片在紙面上落後於 Nvidia,谷歌的系統級工程也允許 TPU 堆棧在性能和成本效率上與 Nvidia 匹敵。
我們當時認爲「系統比微架構更重要」,過去兩年的情況加強了這一觀點。Anthropic 的大規模 TPU 訂單是對該平台技術實力的直接驗證。GPU 生態系統也向前邁進了一步。Nvidia 的 GB200 代表了一個巨大的飛躍,推動 Nvidia 成爲一家真正的系統公司,設計完整的服務器而不僅僅是內部的芯片封裝。
當我們談論 GB200 在機架級互連方面的巨大創新時,一個被低估的點是,自 2017 年 TPU v2 以來,谷歌一直在機架內和跨機架縱向擴展(Scaling up) TPU!在報告的後面,我們將對谷歌的 ICI 擴展網絡進行深入分析,這是 Nvidia NVLink 的唯一真正競爭對手。
谷歌最近的 Gemini 3 模型現在被視爲最先進的前沿 LLM。像所有早期版本的 Gemini 一樣,它完全在 TPU 上訓練。這一結果爲 TPU 能力和谷歌更廣泛的基礎設施優勢提供了具體證明。
今天的注意力通常集中在推理和後訓練的硬件上,但預訓練前沿模型仍然是 AI 硬件中最困難和資源最密集的挑戰。TPU 平台已經果斷地通過了這一測試。這與競爭對手形成鮮明對比:OpenAI 的領先研究人員自 2024 年 5 月的 GPT-4o 以來尚未完成廣泛用於新前沿模型的成功全規模預訓練運行,突顯了谷歌 TPU 艦隊已成功克服的重大技術障礙。
新模型的一個關鍵亮點包括在工具調用和代理能力方面的顯著提升,特別是在具有經濟價值的長期任務上。Vending Bench 是一項旨在衡量模型在長期內經營業務的能力的評估,通過將它們置於模擬自動售貨機業務的所有者位置,Gemini 3 摧毀了競爭對手。
這次發佈不僅帶來了能力的提升,還帶來了新產品。Antigravity,一個源於收購前 Windsurf CEO Varun Mohan 及其團隊的產品,是谷歌對 OpenAI Codex 的回應,正式讓 Gemini 進入了「直覺式編程(vibe coding)」的代幣消耗戰。
對於谷歌來說,悄悄地介入並在最具挑戰性的硬件問題之一上建立性能領先地位,對於一家核心業務不是——或者我們應該說,曾經不是——硬件業務的公司來說,確實是一個令人印象深刻的壯舉。
微架構仍然很重要:Ironwood 接近 Blackwell
「系統比微架構更重要」的推論是,雖然谷歌一直在推動系統和網絡設計的邊界,但 TPU 芯片本身並不是太具突破性。從那時起,TPU 芯片在最新幾代中取得了巨大進步。
從一開始,谷歌的設計理念相對於 Nvidia 在芯片上就更爲保守。歷史上,TPU 的峰值理論 FLOPs 明顯較少,內存規格也低於相應的 Nvidia GPU。
這有 3 個原因。首先,谷歌對其基礎設施的「RAS」(可靠性、可用性和可維護性)給予了很高的內部重視。谷歌寧願犧牲絕對性能來換取更高的硬件正常運行時間。將設備運行到極限意味着更高的硬件死亡率,這對系統停機時間和熱備件方面的 TCO 有實際影響。畢竟,你無法使用的硬件相對於性能來說具有無限的 TCO。
第二個原因是,直到 2023 年,谷歌的主要 AI 工作負載是爲其核心搜索和廣告資產提供動力的推薦系統模型。與 LLM 工作負載相比,RecSys 工作負載的**算術強度(arithmetic intensity)**要低得多,這意味着相對於傳輸的每一位數據,所需的 FLOPs 更少。
第三點歸結爲被營銷的「峰值理論 FLOPs」數字的效用以及它們如何被操縱。像 Nvidia 和 AMD 這樣的商用 GPU 提供商希望爲其芯片營銷最佳的性能規格。這激勵他們將營銷的 FLOPs 拉伸到儘可能高的數字。實際上,這些數字是無法維持的。另一方面,TPU 主要面向內部,在外部誇大這些規格的壓力要小得多。這具有我們將進一步討論的重要含義。客氣的看法是 Nvidia 更擅長 DVFS(動態電壓頻率調整),因此樂於僅報告峰值規格。
在我們進入 LLM 時代後,谷歌的 TPU 設計理念發生了明顯的轉變。我們可以看到,在 LLM 之後設計的最新兩代 TPU:TPUv6 Trillium (Ghostlite) 和 TPUv7 Ironwood (Ghostfish) 反映了這種變化。我們可以在下面的圖表中看到,對於 TPUv4 和 v5,計算吞吐量遠低於當時的 Nvidia 旗艦產品。TPUv6 在 FLOPs 上非常接近 H100/H200,但它比 H100 晚了 2 年。隨着 TPU v7 的推出,差距進一步縮小,服務器僅晚幾個季度可用,同時提供幾乎相同水平的峰值理論 FLOPs。
Trillium 也是最後一個「E」(lite)SKU,這意味着它僅配備了 2 個 HBM3 站點。雖然 Trillium 在計算上縮小了與 Hopper 的差距,但在內存容量和帶寬上遠低於 H100/H200,僅有 2 堆棧 HBM3,而後者分別爲 5 和 6 堆棧 HBM3 和 HBM3E。這使得新手使用起來很痛苦,但如果你正確地對模型進行**分片(shard)**並利用所有那些廉價的 FLOPS,Trillium 實現的性能 TCO 是無與倫比的。
TPU v7 Ironwood 是下一次迭代,谷歌在 FLOPs、內存和帶寬方面幾乎完全縮小了與相應 Nvidia 旗艦 GPU 的差距,儘管全面上市時間比 Blackwell 晚 1 年。與 GB200 相比,FLOPs 和內存帶寬僅有輕微的短缺,容量與 8-Hi HBM3E 相同,當然這與擁有 288GB 12-Hi HBM3E 的 GB300 相比有顯著差距。
理論絕對性能是一回事,但真正重要的是每總擁有成本 (TCO) 的真實世界性能。
雖然谷歌通過 Broadcom 採購 TPU 並支付高額利潤,但這遠低於 Nvidia 不僅在銷售 GPU 上,而且在包括 CPU、交換機、NIC、系統內存、佈線和連接器在內的整個系統上賺取的利潤。從谷歌的角度來看,這導致全 3D 環面(3D Torus)配置的每 Ironwood 芯片的全包 TCO 比 GB200 服務器的 TCO 低約 44%。
這足以彌補峰值 FLOPs 和峰值內存帶寬約 10% 的短缺。這是從谷歌的角度以及他們採購 TPU 服務器的價格來看的。
那麼當谷歌加上他們的利潤後,對於外部客戶來說呢?我們假設在谷歌向外部客戶租賃 TPU 7 賺取利潤的情況下,每小時 TCO 仍然可以比 GB200 的成本低約 30%,比 GB300 的成本低約 41%。我們認爲這反映了 Anthropic 通過 GCP 的定價。
爲什麼 Anthropic 押注 TPU
比較理論 FLOPs 只能說明部分情況。重要的是有效 FLOPs,因爲峰值數字在實際工作負載中幾乎從未達到。
實際上,一旦考慮到通信開銷、內存停頓、功率限制和其他系統效應,Nvidia GPU 通常只能達到其理論峰值的一小部分。訓練的一個經驗法則是 30%,但利用率也因工作負載而異。差距的很大一部分歸結爲軟件和編譯器效率。Nvidia 在這方面的優勢源於 CUDA 護城河和開箱即用的廣泛開源庫,幫助工作負載高效運行,實現高 FLOPs 和內存帶寬利用率。
TPU 軟件堆棧並不那麼容易使用,儘管這正在開始改變。在谷歌內部,TPU 受益於優秀的內部工具,這些工具不對外部客戶開放,這使得開箱即用的性能較弱。然而,這隻適用於小型和/或懶惰的用戶,而 Anthropic 兩者都不是。
Anthropic 擁有強大的工程資源和前谷歌編譯器專家,他們既了解 TPU 堆棧,也深入了解自己的模型架構。他們可以投資定製內核以推動高 TPU 效率。結果,他們可以達到大幅更高的 MFU 和更好的每 PFLOP 性能價格比。
我們相信,儘管營銷的峰值 FLOPs 較低,TPU 可以達到比 Blackwell 更高的已實現模型 FLOP 利用率 (MFU),這意味着 Ironwood 的有效 FLOPs 更高。一個主要原因是 Nvidia 和 AMD 營銷的 GPU FLOPs 明顯被誇大了。即使在旨在通過 GEMM 最大化吞吐量的測試中(形狀遠非實際工作負載),Hopper 僅達到峰值的約 80%,Blackwell 落在 70% 左右,而 AMD 的 MI300 系列在 50%-60% 之間。
限制因素是電力傳輸。這些芯片無法維持峰值數學運算中使用的時鐘速度。Nvidia 和 AMD 實施動態電壓和頻率縮放 (DVFS),這意味着芯片的時鐘頻率根據功耗和熱量動態調整,而不是可以實際維持的穩定時鐘頻率。Nvidia 和 AMD 然後選擇可能交付的最高時鐘頻率(即使是非常間歇性的)用於計算峰值理論 FLOPs(每個週期的操作數/ALU x ALU 數量 x 每秒週期數,即時鐘頻率)。
還有其他技巧被使用,比如在零填充張量(zero-filled tensors)上運行 GEMM,因爲 0x0=0,晶體管不需要從 0 切換到 1,從而降低了每次操作的功耗。當然,在現實世界中,零填充張量不會相乘。
當我們結合低得多的 TCO 和更高的有效 FLOPs 利用率時,從谷歌的角度來看,每有效 FLOP 的美元成本變得便宜得多,約 15% 的 MFU 是與 30% MFU 的 GB300 的盈虧平衡點。這意味着如果谷歌(或 Anthropic)設法達到 GB300 FLOPs 利用率的一半,他們仍然能打平。當然,憑藉谷歌的精英編譯器工程師團隊和對自己模型的深刻理解,他們在 TPU 上實現的 MFU 可能達到 40%。那將是每有效訓練 FLOP 成本驚人的約 62% 的降低!
然而,當觀察 60 萬個租賃的 TPU 時,當我們將 Anthropic 支付的較高 TCO(即包括谷歌的利潤疊加)納入此分析時,我們估計 Anthropic 從 GCP 獲得的成本爲每 TPU 小時 1.60 美元,縮小了 TCO 優勢。我們相信 Anthropic 可以在 TPU 上實現 40% 的 MFU,這歸功於他們對性能優化的關注以及 TPU 營銷的 FLOPs 本質上更現實。這爲 Anthropic 提供了比 GB300 NVL72 低驚人的約 52% 的每有效 PFLOP TCO。與 GB300 基準相比,每有效 FLOP TCO 相同的平衡點在於 Anthropic 提取的 MFU 低至 19%。這意味着 Anthropic 可以承受相對於基準 GB300 相當大的性能短缺,而訓練 FLOPs 的性能/TCO 最終仍與基準 Nvidia 系統相同。

No comments:
Post a Comment