SWIT Co., Ltd. | 時唯科技股份有限公司

從「雙卡交火」到「萬卡互聯」：GPU的軍團作戰史，藏著AI算力的終極答案。GPU之間是如何進行互聯的？

2025年10月27日

GPU從誕生之初就是單打獨鬥的「選手」，可隨著遊戲畫質狂飆、AI和大模型這類「算力吞金獸」登場，大家漸漸發現一張卡不夠用了啊！

於是，怎麼把多個GPU“組團幹活”就成了技術進化的關鍵賽道。

最早琢磨這事的是3DFx公司，他們搞出了個叫SLI的技術，可以把兩張顯卡並在一起用。

可惜生不逢時，公司沒撐下去在2000年破產了。

不過NVIDIA接手了這項技術，在2004年正式推出SLI，讓兩張GeForce 6800 Ultra聯手打遊戲，效果拔群，一下子就在玩家圈火了。

但SLI也挺挑搭檔：必須同型號GPU還得配大功率電源，通信延遲不低，數據共用也不夠靈活。

老對手AMD見狀，立馬推出CrossFire來打擂臺。

它有個優點挺討喜：不強制同型號A卡，省錢! 可惜軟體體驗經常被吐槽不如NVIDIA穩定，配置也略複雜。

除了這種“多卡協作”，還有一條邪典路線：雙芯顯卡，把兩顆GPU焊在同一張卡上。

省空間、免橋接，聽著很美是不是？

可惜發熱感人，堪稱「桌面小太陽」，必須上強力散熱，電費也跟著漲。

最後因為成本高、技術難，漸漸被視作「雞肋」產品。

儘管這些技術思路各異，目標卻一致：讓圖形和遊戲體驗更炸裂。

而它們的局限，也正好為後來更強大的NVLink鋪了路。

那麼，為什麼要有NVLink？

根源是馮·諾依曼體系裡經典的“記憶體牆”問題：CPU算得飛快，但訪問記憶體的速度卻拖後腿。

尤其當GPU性能在8年內飆升上千倍之後，傳統以CPU為中心的互聯方式徹底跟不上了。

AI訓練需要海量算力，單卡根本扛不住，必須讓成百上千張GPU協同作戰。

於是，苦於頻寬瓶頸的NVIDIA，找上當時在CPU頻寬上有優勢的IBM，聯手開發出第一代NVLink。

NVLink不是SLI的簡單升級，而是對“GPU如何通信”的徹底重構。

相比傳統PCIe，它有三大絕活：

一是支援網狀連接，GPU之間可以多點直連，更適合數據中心里複雜的數據流向;

二是統一記憶體管理，多個GPU可以共用記憶體池，不用來回倒騰數據，對大模型訓練特別友好;

三是超低延遲，GPU可以直接讀寫彼此的記憶體，不用經過CPU“傳話”同步效率暴增。

從2014年首次亮相至今，NVLink已反覆運算到第五代。

帶寬從最初的160GB/s飆升至1.8TB/s，連結的GPU數量也從4個擴展到18個。

更貼心的是，雖然頻寬碾壓PCIe，NVLink還更省電~

光有高速互聯還不夠，怎麼把多GPU高效組織起來也是問題。

於是NVIDIA在2018年推出NVSwitch芯片，像“GPU社交中心”一樣，讓16個GPU在伺服器內全互聯，每個都能直連對話。

後來還推出獨立NVLink交換機，把多台伺服器GPU連成一張高速網路。

有了硬實力，老黃（黃仁勳）也開始賣「整機套餐」。

2016年，NVIDIA給OpenAI送了第一台DGX-1超級計算機，內含8張通過NVLink互聯的GPU，直接加速了早期大模型的研發。

DGX是「拎包入住」式方案，適合不想折騰的大客戶

而HGX則像“顯卡樂高”，允許廠商自定義配置，是大型雲廠商的心頭好。

如今，最生猛的GPU系統莫過於NVIDIA GB300 NVL72：集結72個Blackwell GPU和36個Grace CPU，推理性能比前代提升10倍，還用上液冷散熱。內部通過第五代NVLink互聯，總頻寬高達130TB/s，堪稱AI計算的“超級發動機”。

回過頭看，GPU互聯的進化史，就是一段從“打遊戲不卡”到“支撐萬億參數大模型”的硬核升級。

而NVLink的故事也告訴我們：有時候，單兵能力再強，也不如團隊接得好、聊得快。

· END·