從「雙卡交火」到「萬卡互聯」:GPU的軍團作戰史,藏著AI算力的終極答案。GPU之間是如何進行互聯的?
October 27, 2025
GPU從誕生之初就是單打獨鬥的 「選手」,可隨著遊戲畫質狂飆、AI和大模型這類「算力吞金獸」登場,大家漸漸發現一張卡不夠用了啊!
於是,怎麼把多個GPU“組團幹活”就成了技術進化的關鍵賽道。
最早琢磨這事的是3DFx公司,他們搞出了個叫SLI的技術,可以把兩張顯卡並在一起用。
可惜生不逢時,公司沒撐下去在2000年破產了。

不過NVIDIA接手了這項技術,在2004年正式推出SLI,讓兩張GeForce 6800 Ultra聯手打遊戲,效果拔群,一下子就在玩家圈火了。
但SLI也挺挑搭檔:必須同型號GPU還得配大功率電源,通信延遲不低,數據共用也不夠靈活。
老對手AMD見狀,立馬推出CrossFire來打擂臺。
它有個優點挺討喜:不強制同型號A卡,省錢! 可惜軟體體驗經常被吐槽不如NVIDIA穩定,配置也略複雜。

除了這種“多卡協作”,還有一條邪典路線:雙芯顯卡,把兩顆GPU焊在同一張卡上。
省空間、免橋接,聽著很美是不是?
可惜發熱感人,堪稱「桌面小太陽」,必須上強力散熱,電費也跟著漲。
最後因為成本高、技術難,漸漸被視作「雞肋」產品。

儘管這些技術思路各異,目標卻一致:讓圖形和遊戲體驗更炸裂。
而它們的局限,也正好為後來更強大的NVLink鋪了路。
那麼,為什麼要有NVLink?
根源是馮·諾依曼體系裡經典的“記憶體牆”問題:CPU算得飛快,但訪問記憶體的速度卻拖後腿。
尤其當GPU性能在8年內飆升上千倍之後,傳統以CPU為中心的互聯方式徹底跟不上了。

AI訓練需要海量算力,單卡根本扛不住,必須讓成百上千張GPU協同作戰。
於是,苦於頻寬瓶頸的NVIDIA,找上當時在CPU頻寬上有優勢的IBM,聯手開發出第一代NVLink。

NVLink不是SLI的簡單升級,而是對“GPU如何通信”的徹底重構。
相比傳統PCIe,它有三大絕活:
一是支援網狀連接,GPU之間可以多點直連,更適合數據中心里複雜的數據流向;
二是統一記憶體管理,多個GPU可以共用記憶體池,不用來回倒騰數據,對大模型訓練特別友好;
三是超低延遲,GPU可以直接讀寫彼此的記憶體,不用經過CPU“傳話”同步效率暴增。

從2014年首次亮相至今,NVLink已反覆運算到第五代。
帶寬從最初的160GB/s飆升至1.8TB/s,連結的GPU數量也從4個擴展到18個。
更貼心的是,雖然頻寬碾壓PCIe,NVLink還更省電~

光有高速互聯還不夠,怎麼把多GPU高效組織起來也是問題。
於是NVIDIA在2018年推出NVSwitch芯片,像“GPU社交中心”一樣,讓16個GPU在伺服器內全互聯,每個都能直連對話。
後來還推出獨立NVLink交換機,把多台伺服器GPU連成一張高速網路。

有了硬實力,老黃(黃仁勳)也開始賣「整機套餐」。
2016年,NVIDIA給OpenAI送了第一台DGX-1超級計算機,內含8張通過NVLink互聯的GPU,直接加速了早期大模型的研發。

DGX是「拎包入住」式方案,適合不想折騰的大客戶
而HGX則像“顯卡樂高”,允許廠商自定義配置,是大型雲廠商的心頭好。
如今,最生猛的GPU系統莫過於NVIDIA GB300 NVL72:集結72個Blackwell GPU和36個Grace CPU,推理性能比前代提升10倍,還用上液冷散熱。 內部通過第五代NVLink互聯,總頻寬高達130TB/s,堪稱AI計算的“超級發動機”。

回過頭看,GPU互聯的進化史,就是一段從“打遊戲不卡”到“支撐萬億參數大模型”的硬核升級。
而NVLink的故事也告訴我們:有時候,單兵能力再強,也不如團隊接得好、聊得快。
· END·
