今夜無顯卡! 老黃引爆Rubin時代,6顆芯狂飆5倍算力
2026年1月12日
在CES 2026上,老黃帶著Vera Rubin超算架構向全世界走來!
Rubin的推理性能比Blackwell提升了5倍,訓練性能提升3.5倍,成本降低10倍,已經大規模投產,將於2026下半年面世。 沒有新顯卡的昨夜,老黃表示all in AI!

在本次CES演講中最為激動人心的瞬間,就是英偉達全新一代晶元架構——Vera Rubin正式登場!
全球AI算力告急? 老黃霸氣回應:Vera Rubin已全面投產。
這是新一代的算力怪獸,也是對上一代霸主Blackwell的降維打擊
推理Token成本直接暴降10倍,算力性能狂飆5倍。
就連訓練MoE模型所需的GPU數量,也直接減少了4倍。
曾經,Blackwell終結了Hopper; 如今,Rubin親手埋葬了Blackwell。

全程近兩小時演講,老黃提及重點包括
下一代Rubin平臺亮相:六顆晶元,推理狂飆十倍
自動駕駛端到端模型:AlphaMayo會思考、自主推理,全程0接管上路
物理AI全家桶開源:基礎模型、框架
▎玩家徹夜難眠 :CES 2026,沒有顯卡
至於遊戲玩家?
對不起,這次真的沒有新顯卡。

英偉達在X上的一紙公告,徹底擊碎了「攢機黨」最後的幻想:CES 2026將沒有任何新GPU發佈。
這意味著,英偉達自2021年以來連續五年在CES發佈新硬體的傳統,就此終結。
傳聞已久的RTX 50 Super系列,受困於GDDR7顯存的「產能地獄」,大概率已經胎死腹中。
▎Rubin炸裂登場
6顆晶元,10倍推理,AI超算變工廠
去年10月,老黃曾預計 :未來五年,將有3到4萬億美元砸向AI 基礎設施。
Vera Rubin的大規模投產,可謂生逢其時。
如果說Blackwell打破了單卡性能的極限,那麼Rubin解決的則是系統規模化的難題。
從此,算力將像電力一樣廉價,AI的大爆發已近在咫尺!

2024年,Vera Rubin架構首次亮相。等了兩年,現在它終於正式投產了!
Blackwell架構,從此將退出歷史舞臺。
演講現場,老黃告訴大家 :AI所需的計算量急劇飆升,怎麼辦? 不用怕,Vera Rubin,將解決我們面臨的根本性挑戰!
這套為萬億參數模型的海量推理而生的平臺,會徹底讓算力低成本、規模化、工業化生產。
Rubin架構,以天文學家Vera Florence Cooper Rubin而命名。

可以說,Rubin是英偉達第一次把CPU、GPU、網路、存儲、安全,當成一個整體來設計。
核心思路就是 :不再「堆卡」,而是把整個數據中心變成一台AI超算。
整個Rubin平臺,由這6個關鍵元件構成。


其中,Rubin GPU是整個平臺的核心。 它搭載第三代Transformer引擎,為AI推理提供50 PFLOPS的NVFP4算力。
之所以能達到Blackwell GPU性能的5倍,是因為它的NVFP4張量核心,後者能分析Transformer各層的計算特性,動態調整數據精度與計算路徑。

另外,該架構還引入一顆全新的Vera CPU,專為智慧體推理而設計。
它採用88個英偉達自研Olympus核心,完全相容Armv9.2,並具備超快的NVLink-C2C 連接,能實現176個線程的全性能執行,I/O頻寬和能效比直接翻倍。

當我們在Agentic AI或長期任務中啟用全新的工作流時,會對KV cache造成很大壓力。
為了解決存儲和互聯的瓶頸,Rubin架構特別改進了Bluefield和NVLink系統。 它通過外部方式和計算設備相連,這樣就能更高效地擴展整體存儲池的規模。
BlueField-4 DPU是一個數據處理單元,它能卸載網路、存儲和安全任務,還能管理AI的上下文記憶系統。

NVLink 6中,單晶元就能提供每秒400Gb的交換能力。 每塊GPU提供3.6TB/s 的頻寬,而Rubin NVL72機架提供260TB/s,頻寬超過整個互聯網。
通過3.6 TB/s的頻寬和網路內計算能力,它能讓Rubin中的72個GPU像一個超級GPU一樣協同工作,直接把推理成本打至1/7。

現場,老黃給我們展示了Vera Rubin的托盤。 小小的托盤上集成了2顆Vera CPU、4顆Rubin GPU、1顆BlueField-4 DPU和8顆ConnectX-9網卡,整個計算單元算力達到100 PetaFLOPS。


Rubin的目標,是解決MoE和萬億參數模型的訓練成本,它做到了嗎? 顯然,成果是顯著的。
訓練、推理效率暴增
測試結果顯示,Rubin架構訓練模型時的運行速度,直接達到上一代Blackwell架構的3.5倍(35 petaflops),推理任務的速度則高達5倍,最高可達50 petaflops!
同時,它的HBM4記憶體頻寬提升至22 TB/s,達到2.8倍,單GPU的NVLink互連頻寬則翻倍到3.6 TB/s。

在超 大規模MoE訓練中,Rubin所需的GPU數量相比Blackwell可減少至1/4,同時整體能耗顯著下降。
這背後,就有三大功臣。
NVLink 6,讓GPU間互聯頻寬再次大幅提升,多卡訓練不再被通信拖慢; Vera CPU與Rubin GPU的協同調度,可以減少「GPU等數據」的空轉時間; 而ConnectX-9與Spectrum-6的深度協同,也讓大模型訓練不會再被集群規模限制。


從此,訓練萬億模型,不再是「堆錢」,只會是工程問題。
訓練解決了,那推理呢?
結果顯示,在推理側,Rubin平臺單位token的推理效率提升最高可達10倍! 同樣的模型和回應延遲,算力成本可以直接下降到原來的1/10。
所以,模型可以跑得起百萬token的長下文,企業級AI應用也可以部署了。

存儲瓶頸解決
如上文所言,讓AI模型多跑一會的關鍵挑戰,就在於上下文數據。

大量KV Cache該如何處理? 英偉達推出了由BlueField-4驅動的推理上下文記憶體存儲平臺。
這個平臺在GPU記憶體和傳統存儲之間創建了「第三層」,直接讓每秒處理的 token數提升高達5倍。
DGX Super POD
本次CES上,英偉達還推出了新一代DGX SuperPOD。
它把多個裝有72個GPU的Rubin NVL72連接起來,形成了更大的AI計算集群。
在這次的DGX SuperPOD中,共有8個Rubin NVL72機架, 相當於有576個GPU。

NVIDIA Vera Rubin NVL72 提供統一、安全的系統,集成了72 塊Rubin GPU、36塊Vera CPU、NVLink 6、ConnectX-9 SuperNICs和BlueField-4 DPUs
這樣,SuperPOD就可以處理數千個Agentic AI智慧體,以及數百萬token上下文。
可以說,英偉達一次性解決了數百個GPU相連、管理存儲的問題,直接給我們提供了開箱即用的AI基礎設施。

第三代機密計算平臺
更為重要的是,Rubin是首個支援第三代機密計算(Confidential Computing)的AI超算平臺。
模型參數、推理數據、使用者請求都會被全鏈路加密,即使的雲廠商,也無法直接訪問明文數據。
這就解決了「敢不敢把核心AI放到雲上」的問題,對於金融、醫療、政府、企業私有模型都非常重要。
這些大廠,第一批用上Rubin
老黃介紹說,Rubin會由AWS、Microsoft Azure、Google Cloud、Meta、OpenAI這些頭部廠商先部署。
而到2026年下半年,Rubin平臺就會進入大規模商用階段。
所以,下一代GPT、Gemini、Claude模型,大概率都會運行在Rubin架構上。

▎全程0接管,自動駕駛AI「會思考」
如何教會AI物理學的基礎事實?
英偉達給出的答案是,把算力變成高質量的數據(Compute is Data)。
在這一體系中,「世界基礎模型」Cosmos扮演著重要的角色。
交通模擬器輸出的信號,被送入Cosmos再生成合理、運動上連貫的環繞視頻,讓AI學習其中真實世界的行為模式。

如今,Cosmos已被全球下載數百萬次,成為物理AI時代的重要基礎設施。 在英偉達,內部也在用其做自動駕駛研究。
在此基礎上,今天,英偉達正式發佈了「端到端」自動駕駛AI——AlphaMayo。
它是一個會思考、會推理的自動駕駛AI。 從攝像頭輸入到車輛執行動作,全流程由模型完成。

AlphaMayo獨特之處,在於它具備了顯式推理能力。
系統不僅執行轉向、制動、加速動作,還會給出即將採取行動的理由,以及對應的形式軌跡。

自動駕駛最大挑戰,來自於「長尾場景」,幾乎不可能覆蓋所有國家、所有道路的數據。
AlphaMayo的策略是將複雜場景,拆解為多個熟悉的物理與交通子問題,通過推理將罕見情況分解為常見組合,完成應對。
在演示中,車輛可以在全程0接管狀態下,完成路徑規劃與行駛,順利抵達目的地。

在自動駕駛領域,英偉達投入持續了八年,如今第一次把AI「五層架構」完整跑通。
由下到上:實體本身、晶元體系、模型層、基礎設施層、應用層,構成了一套完全貫通的AI系統棧。
AlphaMayo構成模型層,梅賽德斯-賓士汽車構成應用層。
這一次,老黃還官宣了,NVIDIA DRIVE AV軟體首次搭載全新梅賽德斯-賓士 CLA,提供L2級端到端駕駛。

更重磅的是,Alpamayo家族全部開源。 這一整套方法論,並不只適用於汽車,同樣適用於機器人、機械臂等各類系統。
▎全家桶開源,機器人ChatGPT時刻
下一階段,機器人將以各種形態進入現實世界,前提是,它們首先在Omniverse中學會如何行動。
現場,老黃又召喚來了機器人瓦力登臺配合演出,這裡他講了一句意味深長的話:
未來的系統,都誕生在計算機裡。

英偉達正把自身能力嵌入到,計算密度最高、最複雜的工業體系統,就像此前與Palantir、ServiceNow的集成一樣。
如今,這一模式正被複製到了工業模擬與設計領域。
在具身智慧領域,老黃直接扔下了一套針對物理AI(Physical AI)的「開源全家桶」——模型、框架及基礎設施,應有盡有。
機器人的ChatGPT時刻已經到來!

目前,所有新模型均已上線Hugging Face,拿來即用:
NVIDIA Cosmos Transfer/Predict 2.5,這是完全可定製的世界模型,專門在虛擬世界里生成符合物理規律的數據,訓練機器人的大腦。
NVIDIA Cosmos Reason 2,讓機器像人 一樣「看懂」世界並進行邏輯推理。
NVIDIA Isaac GR00T N1.6,專為人形機器人打造,解鎖全身控制,讓機器人不再四肢僵硬。
為了解決機器人開發中「各自為戰」的痛點,英偉達發佈了兩大神器:
Isaac Lab-Arena:這是GitHub上的開源框架,連接了主流基準測試,確保機器人在進廠打工前,已經在虛擬世界里經過了千錘百煉。
NVIDIA OSMO:無論是在工作站還是混合雲,它都能統一調度數據生成、模型訓練和測試,大幅縮短開發週期。
機器人技術已是Hugging Face上增長最快的領域。 英偉達這次不僅是提供模型,更是深度集成:
LeRobot集成:Isaac和GR00T技術直接通過LeRobot框架即可調用。
硬體互通:Hugging Face的開源機器人Reachy 2和Reachy Mini現已完美適配英偉達的Jetson平臺,語音、視覺、大模型能力瞬間拉滿。
軟體強還不夠,硬體必須硬。 如今,全新的Jetson T4000模組,直接將Blackwell架構帶到了邊緣端:
算力高達1200 FP4 TFLOPS,是上一代的4倍。
1000台起訂單價僅1999美元。
70瓦功耗,簡直是為能源受限的自主設備量身定做。

▎老黃震撼預言
未來所有應用,建在AI之上
每隔10-15年,計算產業就會重來一次。
演講一開始,老黃還回顧了計算產業過去數十年的演進路徑——
從大型機到CP,到互聯網、雲計算,再到移動計算,每一次平臺級躍遷,都會催生一整套全新的應用生態,軟體開發方式也隨之重構。
而這一次,變化來得更加猛烈。
他提到,當前產業正同時經歷兩次平台級轉變 :一是從傳統計算走向AI,另一個是整個軟體、硬體棧的底層重塑。
AI正成為全新的「底座」,應用開始建立在AI之上。 同時,軟體開發與運行方式、應用生成方式發生了根本性變化。
這一切,共同推 動了「加速計算+AI」對整個計算體系的重塑,五個層級正在同時被重新發明。

2022年ChatGPT爆發後,AI才真正走進大眾視野。 一年之後,推理模型首次登場,引入了「測試時Scaling」這一概念。
模型不僅在訓練階段學習,還在推理階段實時計算和推演。 預訓練、RL、推理這些階段,都需要機器龐大的計算資源,也同時推動模型能力持續提升。
2024年,另一項突破開始顯現,直到2025年,智慧體系統(Agentic AI)才迅速擴散開來。
老黃再次提及,在英偉達內部,像Cursor這樣的Agentic工具已深刻改變了軟體的開發方式。
智慧體AI之後,下一個前沿便是物理AI(Physical AI),理解自然規律和物理法則,為AI打開了全新疆域。
除此之外,過去一年,另一個具有決定性意義的變化來自「開源模型」。
DeepSeek R1的出現,作為首批開源推理模型之一,給行業帶起來巨大震動。
但不可否認的是,其仍比前沿模型落後六個月。 每隔半年,就有新模型湧現,而且越來越智慧。


英偉達,正引領著開源模型的生態,遍佈多個領域。 而且,在多個榜單上取得了亮眼的成績。
最具代表性的包括多模態Nemotron 3、世界模型Cosmos、機器人模型GR00T、蛋白預測模型OpenFold 3......


老黃現場表示,以上一切成果,都為構建AI智慧體服務,這是真正突破性的發展領域。
當前AI模型已變得極其強大,智慧體的推理能力為各類應用開啟了大門。
令老黃深感震驚的是,首次在Perplexity見證了其同時調用多個模型——AI在推理任何環節,直接調用最頂尖的模型。
這背後本質上是「多雲協同」,同時還具備了混合雲特性。
老黃明確地表示,這就是未來AI應用的基本形態。 或者說,因為未來應用都構建在AI之上,這就是未來應用的基礎框架。
一方面,AI可以被深度定製。 另一方面,系統始終保持最前沿。 「定製+前沿」能力在同一架構中同時存在。

在軟體世界之外,更大挑戰來自於現實世界。 為此,物理AI需要三台計算機——
第一台計算機:用於訓練模型
第二台計算機:用於推理,運行咋i汽車、機器人 、工廠等邊緣環境
第三台計算機:專門用於模擬、類比
老黃提到,仿真是整個體系的核心,只有在可控的數字環境中,AI才能反覆嘗試、評估行為後果,並逐步建立對世界的理解。

▎彩蛋
演講最後還有一個幕後花絮,DGX Station臺式AI超算將在2026年春季上線。
屆時,英偉達還將同步推出更多針對GB300系統的實戰手冊(Playbooks)。
如果說DGX Spark是開發者的入門首選,那麼DGX Station就是一台放在你辦公桌上的微型數據中心:
搭載GB300 Grace Blackwell Ultra超級晶片。
配備高達775GB的FP4精度一致性記憶體(Coherent Memory)。
擁有Petaflop級AI算力,支援在本地運行高達1萬億(1T)參數的超大規模模型。
得益於強大的硬體基礎,DGX Station實測威力驚人:
LLM預訓練速度高達250,000 Token/秒。
支援對數百萬數據點進行聚類和大型可視化。
從DeepSeek R1的開源震動,到Agentic AI的全面爆發,計算產業正在經歷一場前所未有的重塑。
在這個只有玩家落淚的早上,一個由物理AI驅動的全新世界,正在Vera Rubin的轟鳴聲中,加速向我們走來。
· END ·
