
- AI 代理邁向新里程碑:AI代幣(或譯為詞,AI 處理文字的基本單位)的價值急升,導致AI的商業價值大多被 AI 模型實驗室捕獲。
- 英偉達沒有盲目加價,而是擴大版圖:英偉達斥資約 200 億美元「類收購」Groq,即時取得 IP 與人才,大舉進攻AI推理市場。
- 由 GPU、LPU、CPU 到儲存與網絡,英偉達幾乎在在每個板塊都有最好的技術儲備。隨著AI硬件的競爭門檻已由單一晶片升級為完整的推理系統;英偉達正建造恐怖的統治力。
我們在<英偉達|AI 浪潮下,英偉達仍是核心受惠者>中強調,英偉達早已不只是一間 GPU 公司,而是正在出售一整套 AI 生態系統,英偉達正嘗試把 AI 機櫃內更多關鍵價值,逐步納入自身版圖,從而提升每個機櫃的收入捕捉能力與客戶黏性。
本文將延續這一核心論點,從 Vera Rubin 的技術升級、定價策略及產品布局出發,拆解英偉達為何仍未完全反映其系統級定價能力,以及市場尚未充分發掘的投資機會。
圖一:全球首個出貨的英偉達Vera Rubin NVL72 服務器

資料來源:麥可·戴爾
英偉達|從產品性能看定價
要衡量一套 AI 系統的價值,不能只看晶片有多快,還要看它能否在有限電力及營運成本下,生產出更多、更便宜的算力。主要可分為三個層面進行分析:性能、單位算力成本,以及電力約束下的資本開支。
性能
衡量 AI 晶片運算能力的常用指標是 FLOPS(每秒浮點運算次數)。1 PFLOP 等於每秒一千萬億次運算。AI 模型的本質,是在極短時間內處理大量矩陣運算,因此 FLOPS 越高,代表晶片每秒可完成的運算越多,性能亦越強。
單位算力成本
但對數據中心而言,性能只是第一步。真正重要的是,為了取得這些算力,客戶要付出多少總成本。因此,市場通常會同時參考 TCO(Total Cost of Ownership,總持有成本),即把設備購置、電力、冷卻、維護及營運等全部成本合併計算。若將 TCO 再除以實際算力,便可得出每單位算力成本。
電力約束下的資本開支
對大型數據中心而言,可用電力是稀缺資源,往往電力是固定不變的,不能隨意增加。因此,客戶不只關心「一張卡多少錢」,更關心在固定電力預算下,花多少資本開支可以換到多少算力。每瓦資本開支(capex per watt)正正反映客戶每使用一瓦電,需要投入多少設備成本。數值越低,代表在同樣電力限制下,能用較少資本買到更多算力。
換言之,要衡量英偉達產品的性能,應圍繞三件事展開:
1. 算力是否明顯增加?
2. 每單位算力成本是否下降?
3. 在電力受限的情況下,英偉達有否大幅提高每瓦價格?
下表比較上一代 GB300 NVL72 與新一代 VR NVL72 的關鍵指標:
表一:GB300 NVL72 與新一代 VR NVL72 的關鍵指標:
|
項目 |
GB300 NVL72 |
VR NVL72 |
變幅 |
|
FP8 算力(TFLOPS,dense) |
5,000 |
17,500 |
+250% |
|
FP4 算力(TFLOPS,dense) |
15,000 |
35,000 |
+133% |
|
BF16 算力(TFLOPS,dense) |
2,500 |
4,000 |
+60% |
|
記憶體頻寬(TB/s,每邏輯 GPU) |
8 |
22 |
+175% |
|
晶片功耗 TDP(W) |
1,400 |
2,300 |
+64% |
|
TCO(美元/GPU/小時) |
2.69 |
4.18 |
+55% |
|
TCO per PFLOP — FP8(美元/小時) |
0.54 |
0.24 |
-56% |
|
TCO per PFLOP — FP4(美元/小時) |
0.18 |
0.12 |
-33% |
|
Capex per Watt(美元/W) |
37.4 |
38.1 |
+2% |
|
資料來源: SemiAnalysis及奕豐金融編纂 |
|||
綜合以上指標,我們可以從中提煉出三個核心重點:
- 性能增益主要集中在 FP8 及 FP4,即「低精度」運算:用較少位元表示數字,犧牲少量精確度,換取大幅提速。這是 AI 推理,最常用的運算模式。相比之下,訓練常用的 BF16 雖然亦有提升,但升幅明顯不及 FP8 及 FP4。反映英偉達把產品重點大舉轉向推理。
- 客戶每單位算力成本大幅下降:雖然 VR NVL72系統每小時 TCO 較 GB300 上升 55%,但性能升幅遠高於成本升幅。以 FP8 計,TCO per PFLOP 由 0.54 美元降至 0.24 美元,跌幅達 56%。換言之,客戶使用VR NVL72 的系統生產 AI 代幣,成本接近腰斬。
- 每瓦資本開支幾乎持平:由 GB300 到 VR NVL72,每瓦資本開支僅由每瓦 37.4 美元微升至 38.1 美元,升幅只有 2%,幾乎持平。
這三項數據合起來,可以證明Rubin系列是為推理而生,且性能大幅提升,客戶每單位算力成本明顯下降。但英偉達並沒有趁機大幅提高每瓦價格。換句話說,英偉達的加價幅度,遠遠跟不上產品性能的改善速度。
過往每一代產品性能/瓦提升,晶片商通常會順勢提高每瓦售價,把技術進步所產生的一部分經濟價值收歸己有。但從每瓦資本開支幾乎持平可見,英偉達今次並沒有把性能躍升完全轉化為更高售價。
英偉達|從GPU租金看英偉達產品定價
除了每瓦資本開支幾乎持平外,另一個判斷英偉達定價是否克制的方法,是從 GPU 租金入手。
這裡需要先分清兩組價格與兩個主體。英偉達將整套 VR NVL72 系統出售給雲服務商(Neocloud),收取系統售價。雲服務商再按「每 GPU 每小時」向 AI 實驗室等客戶出租算力,收取GPU 租金。
由於系統售價是雲服務商最主要的成本,GPU 租金便成為觀察英偉達定價的一個方式。簡單而言,只要分析雲服務商為維持合理回報所需收取的最低租金,以及客戶願意支付的最高租金,便可反推出英偉達現時系統定價究竟是偏高還是偏低。這亦有助判斷 Rubin系列的性能提升,究竟有多少已被英偉達轉化為售價,又有多少仍留在客戶或雲服務商手中。
· 按成本計算的租金地板
雲服務商要願意購買並部署最新產品,前提是至少能賺到與上一代相若的回報。根據 SemiAnalysis,英偉達上一代產品的項目內部回報率(IRR)約為 15.6%(假設設備使用壽命 5 年、客戶提供 15% 預付)。按此計算,VR NVL72 的租金下限為每 GPU 每小時 4.92 美元。低於這個水平,雲服務商的內部回報率將低於15.6%,便缺乏動力購買及部署英偉達最新系統。成本地板價會隨英偉達系統售價浮動,英偉達把產品賣得愈貴,雲服務商成本愈高,所需租金地板也會愈高。
· 租金天花板
天花板由客戶的替代選擇決定。客戶真正購買的不是硬件,而是算力;因此,他們最關心的指標是每單位算力成本。由於 Vera Rubin 每小時產出的算力遠高於 GB300,即使每小時租金更高,攤到每個 PFLOP 上仍可能比 GB300 便宜。根據 SemiAnalysis 的計算,Vera Rubin租金天花板約為每 GPU 每小時 12.25 美元;若再往上調,客戶每單位算力成本便會高於英偉達的上一代產品GB300。因此租金不可能高於此價格。
英偉達提高整套系統售價,雲服務商的採購成本自然會上升。為維持約 15.6% 的目標 IRR,雲服務商需要將部分成本轉嫁予終端客戶,從而提高每 GPU 每小時的租金。
但對雲服務商的客戶,即 AI 實驗室而言,關鍵並不是租金本身是否上升,而是同樣價格所買到的算力,不能比上一代產品更少。換言之,只要 Rubin 的單位算力成本仍低於 GB300,AI 實驗室便仍有誘因接受較高租金。
因此,英偉達的產品定價,其實落在兩個邊界之間:
- 下限是雲服務商需要維持合理回報的成本地板
- 上限則是 AI 實驗室願意接受、但單位算力成本不高於上一代產品的價值天花板
由於雲服務商本身定價能力相對有限,這場定價博弈的核心,基本上是英偉達與 AI 實驗室之間的價值分配。
若租金愈接近成本地板,代表AI實驗室享用了大部分性能提升帶來的經濟價值;相反,若租金愈接近價值天花板,則代表英偉達與雲服務商能夠收回更多 Rubin 升級所創造的價值。
換言之,Rubin 並非沒有加價空間,而是英偉達暫時未有完全行使這項定價權。以 Vera Rubin 目前系統售價推算,如果雲服務商維持約 15.6%的IRR,其對應租金更接近每 GPU 每小時 4.92 美元的成本地板,而非 12.25 美元的價值天花板。意味着 Rubin 性能躍升所創造的經濟價值,目前大部分仍由模型端客戶享用,英偉達仍有顯著的加價空間。
表二:VR NVL72 租金定價區間(每 GPU 每小時;5 年合約、15% 預付)
|
情境 |
GPU 租金(美元) |
客戶每單位算力成本(每 PFLOP,美元) |
較 GB300 |
雲服務商回報(IRR) |
|
GB300(基準) |
- |
0.70 |
— |
— |
|
VR 現價(≈成本地板) |
4.92 |
0.28 |
便宜 60% |
15.6% |
|
VR 價值天花板 |
12.25 |
0.70 |
打平 |
— |
|
資料來源: SemiAnalysis及奕豐金融編纂。 |
||||
掌握絕對壟斷的英偉達,為何定價如此克制?
租金明明可以向12.25美元的價值天花板推進,但現時定價卻更接近4.92美元的成本地板。這種反常的現象背後,主要源於以下四個深層考量:
• 生態系長期鎖定優先於短期獲益
英偉達的真正護城河是完整的軟硬體生態。若在產品初期就大幅提價,可能減慢客戶採用速度、促使超大型雲廠商加速投資及採用自研晶片(ASIC),或讓雲服務商更積極導入 AMD 等其他替代方案,長期侵蝕市佔與定價權。
· 需求彈性與採用速度的權衡
Vera Rubin 剛剛才開始出貨。英偉達更傾向透過高出貨量與市佔擴張來提升總利潤,而非在單一平台上最大化單價。這與過去 Blackwell 初期策略相似。
· 英偉達的定價或過於保守
英偉達的定價邏輯,似乎仍停留在過去「算力會愈來愈便宜」的傳統晶片周期框架,未有完全反映 AI 代理令AI代幣的商業價值大幅上升。換言之,公司或低估了模型實驗室對高效算力的支付意願與投資回報,令 Rubin 世代的定價仍然偏向克制。
• 避免觸發下游反制與監管風險
過度激進的價格上調,可能引發大型客戶集體議價、延後採購,或引發反壟斷調查。因此,英偉達並未選擇直接在 GPU 或整套 NVL72 系統上大幅加價。正如我們在<記憶體超級週期|代幣經濟如何塑造新一輪投資機會?>所提及,英偉達希望透過 SOCAMM 記憶體賺取更高的利潤。SOCAMM 作為可插拔式記憶體,英偉達可以將其單獨定價,在不大幅改變 GPU 基礎售價的情況下,仍能有效提升整體系統的售價與利潤率。
Vera Rubin|收編 Groq,大舉進軍推理市場
定價維持克制,並不代表英偉達甘於把市場增長拱手讓人。相反,英偉達正在積極布局推理市場。由 GPU 延伸至 LPU、CPU、記憶體、儲存及網絡互聯,把更多原本由其他供應商捕捉的收入,逐步收回自己的系統版圖之內,提升客戶黏性與轉換成本。
其中最矚目的第一步,就是以約 200 億美元取得 AI 晶片初創公司 Groq 的技術授權,並吸納其大部分團隊,切入英偉達過去相對缺席的高速推理市場。
Groq 的核心產品是 LPU
LPU是一款以「極低延遲」為核心賣點的推理晶片。LPU 把 500MB SRAM,即速度最快、但容量較小且成本較高的記憶體,直接放在晶片上,以換取極快的反應速度;代價是記憶體容量有限,並不適合處理需要大規模上下文或高吞吐量的任務。
英偉達的設計思路,是讓 GPU 與 LPU 各自負責最擅長的部分。GPU 記憶體容量較大,適合處理大量上下文、較複雜或大批量的預填(Prefill)任務;LPU 則主攻需要即時反應、對延遲要求極高的推理環節,例如模型逐字生成答案時的解碼(Decode)任務。
簡單而言,英偉達不是用同一款晶片處理所有推理工作,而是把推理流程拆開,交由最適合的晶片負責。這種架構稱為 Attention-FFN 分離(AFD)。再配合 英偉達 Dynamo 軟件層作統一調度,GPU 與 LPU 可在生成每個 token 時交換中間運算結果,令系統同時兼顧高吞吐量及低延遲,特別適合 AI 代理及即時互動式推理場景。
這筆交易對英偉達有三個好處:
1. 英偉達可以即時取得 Groq 的 LPU 技術及工程團隊,縮短自行研發低延遲推理晶片所需的時間。
2. 市場過去一直擔心,英偉達雖然在AI 訓練市場佔據絕對優勢,但在推理工作負載上或會面對其他專用晶片挑戰。收編 Groq 後,英偉達可以把原本可能流向 Groq 或其他推理晶片商的高速推理需求,納入自己的產品版圖。
3. LP30 採用 三星4納米製程,屬單一晶片設計,毋須先進封裝,也不用 HBM。因此可避開台積電先進製程與 HBM 兩大瓶頸。在當前先進製造產能供不應求。多造一顆 LPU 並不會犧牲GPU 的產能;而它服務的,亦是英偉達原本較難覆蓋、甚至可能流向TPU 或其他推理晶片的需求。因此,這部分收入更接近純增量。
表三:英偉達 LPU 產品路線圖
|
LP30 |
LP35 |
LP40 |
|
|
製程 |
Samsung 4nm(SF4) |
Samsung 4nm(SF4) |
TSMC N3P(3nm 級) |
|
SRAM容量 |
500MB |
500MB |
未公佈 |
|
FP8 算力 |
1.2 PFLOPS |
新增支援 NVFP4 格式 |
未公佈 |
|
HBM/先進封裝 |
均不需要 |
均不需要 |
改用 CoWoS-R;以 SK Hynix 3D 堆疊 DRAM 擴充記憶體 |
|
互連協議 |
Groq 自家 C2C |
Groq 自家 C2C |
轉用 NVLink |
|
定位 |
首款量產整合 |
小改款 |
與下代 Feynman 平台深度協同設計 |
資料來源: SemiAnalysis 及奕豐金融編纂。
Vera Rubin|NVLink Fusion:擁抱自研 ASIC
面對 Google TPU、Amazon Trainium 等超大規模雲端客戶自研 ASIC 的興起,英偉達並未選擇正面硬撼,而是採取「擁抱並延伸」的策略。2026 年 3 月,英偉達宣布向 Marvell 投資約 20 億美元,透過 NVLink Fusion 將 Marvell 納入自身機櫃級生態系統。
Marvell 負責提供客製化鏡片,以及相容 NVLink Fusion 的機櫃內擴展互聯網絡;英偉達則提供 Vera CPU、ConnectX 網卡、BlueField DPU、NVLink 互聯、Spectrum-X 交換器,以及整體機櫃架構與軟件堆疊,雙方亦會在矽光子技術上進一步合作。
這項交易的核心,不是「收購」競爭者,而是重新定義機櫃內擴展互聯標準。即使超大規模雲端客戶堅持採用自研晶片,只要新一代設計希望取得頂級互聯效能、與英偉達成熟 AI 軟件進行無縫整合,採用 NVLink Fusion 便會成為具有吸引力的選項。
Vera Rubin|完整的英偉達版圖
Groq 和 Marvell只是版圖擴張的一環。在 AI 代理時代客戶的需求已由單純「快」,轉向整個機櫃要穩定、易擴充、長期可用。英偉達在設計機櫃時把各個部件一併納入考量,使其互相配合得更好,業界稱之為「極致共同設計」(extreme co-design)。目前只有英偉達能在 GPU、CPU、網絡交換器與網卡等主要晶片上,同時提供頂級或接近頂級的產品,競爭對手難以一次過完整取代。具體可見於以下幾個層面:
· CPU :英偉達正在在進攻CPU市場。過往 CPU 在 AI 伺服器中只屬配角,主要負責資料調度等管理工作;AI 代理與強化學習工作負載需要 CPU 即時進行大量決策與協調,令 CPU 由配角變成新瓶頸。全新 Vera ETL256 機櫃把 256 顆 CPU 塞入一櫃,單櫃 CPU 密度大幅提升。
相關文章:<CPU強勢回歸|從GPU到CPU,誰是下一個贏家?>
· 儲存層:當 AI 處理超長對話或大型文件時,系統需要暫存大量中間資料(即KV cache)。英偉達在記憶體管理方面業界領先,其 CMX 與 STX 參考架構,正是把「KV cache 分層存放」由技術概念變成可部署的解決方案:常用資料放在速度較快的記憶體,較少使用的冷資料則轉移至成本較低的儲存層。這套架構已獲 VAST、WEKA、DDN 等主流儲存軟件商支持,令客戶的儲存層進一步被納入英偉達的整體 AI 基建生態。(記憶體分層邏輯可見<記憶體超級週期|代幣經濟如何塑造新一輪投資機會>)
· 網絡層:CPO(共封裝光學):隨着 AI 系統由單機櫃擴展至多機櫃,機櫃內 GPU 之間、以至機櫃之間的數據傳輸,正逐步逼近銅互連的物理極限。英偉達因而加快導入 CPO,把光學元件直接整合至封裝內,以突破頻寬、延遲及功耗瓶頸。據市場預期,Rubin Ultra NVL576 將首次在機櫃之間採用 CPO,而下一代 Feynman NVL1152 則有望進一步放量,令 AI 系統互聯更緊密,也更依賴英偉達的網絡技術。
圖2: 英偉達在 GPU、CPU、網絡交換器與網卡等主要晶片上都提供頂級或接近頂級的產品

競爭格局
雖然英偉達正大舉進攻 AI 推理市場,但市場仍然擔心,其市佔率會被 谷歌 TPU、亞馬遜 Trainium 及其他 ASIC 方案逐步蠶食。問題是:這些自研晶片會否成為英偉達的定價天花板?
先不討論不同晶片之間的性能差異,單從供應鏈和部署速度來看,英偉達的優勢仍然相當明顯。目前,台積電先進製程產能與 HBM 供應仍追不上 AI 需求,市場真正短缺的,不只是某一款晶片,而是可即時部署的大規模算力。
因此,英偉達的護城河不只在於 GPU 性能,更在於其對上游供應鏈、先進製程、HBM、封裝及系統交付的整體掌握能力。換言之,在產能緊張的環境下,誰能更早提供可部署的算力,誰就能創造更高經濟價值。按 SemiAnalysis 估算,若 200MW 算力能提前六個月投入使用,其 NPV 可達約 4 億至 5 億美元。這說明「提前部署」本身已是一項可量化的商業價值。
即使各家雲端巨頭及晶片廠商都在推進自研晶片,它們仍然難以穩定取得足夠的台積電先進製程及 HBM 產能。即使是多年自研 TPU 的谷歌,仍希望向 SpaceX 租用英偉達 GPU,正正反映市場上根本沒有足夠晶片供應。換言之,擁有自家晶片,並不代表可以完全脫離英偉達生態。
這亦是英偉達短期定價能力仍然存在。其對上游產能,尤其是台積電晶圓產能的優先取權,使公司能把「提前部署」優勢轉化為實際商業價值。因此,「去英偉達化」不是即時威脅。
總結|英偉達仍是 AI 基建的長期贏家
正如我們在〈英偉達|AI 浪潮下,英偉達仍是核心受惠者〉中提及,我們對英偉達維持正面看法,並認為投資者可考慮買入。最新季度業績再次反映,其基本面仍然十分強勁;但更重要的是,英偉達的投資邏輯已不再只是 GPU 增長的增長故事,而是逐步升級為涵蓋晶片、CPU、記憶體、網絡、儲存及系統方案的完整 AI 基建平台。
Vera Rubin 世代正好展示這一轉變。英偉達在產品定價上仍相對克制,令客戶每單位算力成本大幅下降,亦保留了尚未完全行使的加價空間;同時,公司透過 Groq 切入低延遲推理市場,透過 NVLink Fusion 把自研 ASIC 納入自身互聯標準,並把更多 AI 機櫃內的價值納入自身生態。換言之,即使未來部分雲端客戶加快自研晶片,英偉達仍有能力在推理、互聯、系統設計及供應鏈部署等層面繼續收益。
從目前發展看,英偉達仍然掌握 AI 算力擴張中最稀缺的資源——可即時部署的大規模算力、完整系統能力,以及對上游產能與客戶生態的控制力。這些優勢仍將支持英偉達成為 AI 基建周期中的長期核心贏家。








