DoNews12月3日消息,據(jù)微軟方面公布,微軟正式發(fā)布位于美國喬治亞州亞特蘭大的 Azure AI 數(shù)據(jù)中心 Fairwater 站點。

全新的數(shù)據(jù)中心將與威斯康星州的首個 Fairwater 站點、前幾代 AI 超級計算機以及全球 Azure 數(shù)據(jù)中心深度互聯(lián),共同構(gòu)建首個全球規(guī)模的 AI 超級工廠 Fairwater 。
重新定義 AI 數(shù)據(jù)中心架構(gòu)
為了滿足激增的 AI 計算需求,微軟重新定義了 AI 數(shù)據(jù)中心的架構(gòu)設(shè)計和系統(tǒng)運行方式。Fairwater 打破傳統(tǒng)云數(shù)據(jù)中心模式,采用單一扁平網(wǎng)絡(luò)架構(gòu),可以將數(shù)十萬顆最新的 NVIDIA GB200、GB300 GPU 組建成一臺真正意義上的超級計算機。
這些創(chuàng)新源于微軟在數(shù)據(jù)中心與網(wǎng)絡(luò)設(shè)計上的數(shù)十年積累,以及支撐全球最大規(guī)模 AI 技術(shù)訓(xùn)練任務(wù)的深厚經(jīng)驗。
靈活應(yīng)對多樣化 AI 技術(shù)工作負載Fairwater 不僅適用于下一代前沿模型訓(xùn)練,還在設(shè)計之初就考慮到了多場景彈性調(diào)度。模型訓(xùn)練包含預(yù)訓(xùn)練、微調(diào)、強化學(xué)習(xí)、合成數(shù)據(jù)生成等多種不同類型的工作負載。
微軟還為此部署了專用的 AI WAN 廣域網(wǎng)骨干,把每個 Fairwater 站點連成一個高度彈性的整體,實現(xiàn)跨站點的動態(tài)算力調(diào)度,讓不同任務(wù)都能高效運行,最大化整個系統(tǒng)的 GPU 利用率。
極致算力密度:突破物理極限的 Azure AI 架構(gòu)
現(xiàn)代 AI 技術(shù)基礎(chǔ)設(shè)施的性能正面臨物理定律的挑戰(zhàn),光速延遲正在成為限制加速器、計算與存儲深度整合的關(guān)鍵因素。Fairwater 的設(shè)計核心,就是把算力密度做到極致,在機架內(nèi)部、機架之間盡可能縮短延遲,從而將整體系統(tǒng)性能推到新的高度。
想要實現(xiàn)這種算力密度,冷卻技術(shù)是關(guān)鍵。Fairwater 數(shù)據(jù)中心采用全場液冷系統(tǒng),并通過閉環(huán)循環(huán)設(shè)計 —— 冷卻液在初次注入后會被持續(xù)循環(huán)使用,不會蒸發(fā)流失,實現(xiàn)高效與可持續(xù)。初始注水量僅相當于 20 戶家庭一年的用水量,且可持續(xù)使用 6 年以上,僅在水質(zhì)監(jiān)測異常時更換。
液冷不僅提升散熱效率,還讓機架功率達到約 140kW/機架,1,360kW/排。先進冷卻技術(shù)確保在高負載下保持穩(wěn)定性能,讓超大規(guī)模訓(xùn)練任務(wù)高效運行。

圖為:機架級直液冷
為了進一步提升算力密度,F(xiàn)airwater 還采用了雙層數(shù)據(jù)中心建筑設(shè)計。原因很簡單:因為 AI 技術(shù)工作負載對延遲極度敏感,哪怕是線纜長度的微小差異,都可能影響集群性能。
在 Fairwater 中,每一塊 GPU 都需要與其他 GPU 互聯(lián)。通過三維空間布局,雙層設(shè)計讓機架分布更緊湊,顯著縮短線纜長度,從而帶來更低延遲、更高帶寬、更強可靠性以及更優(yōu)成本控制。

圖為:雙層網(wǎng)絡(luò)架構(gòu)
高可用,低成本供電
為了支撐前所未有的算力需求,F(xiàn)airwater 不僅在網(wǎng)絡(luò)架構(gòu)上創(chuàng)新,還在供電模式上突破傳統(tǒng)。亞特蘭大站點選址基于電網(wǎng)韌性,能以 3×9 成本實現(xiàn) 4×9 可用性,無需傳統(tǒng)冗余方案(如現(xiàn)場發(fā)電、UPS、雙路配電),降低客戶成本并加快交付。
同時,微軟與行業(yè)伙伴聯(lián)合開發(fā)電力管理解決方案,應(yīng)對大規(guī)模 AI 技術(shù)任務(wù)帶來的電網(wǎng)波動:
軟件層面:在低負載時段自動引入補充性任務(wù),平滑電力波動
硬件層面:讓 GPU 自主控制功率閾值,抑制瞬時沖擊
現(xiàn)場儲能系統(tǒng):通過本地儲能吸收波動,而無需額外消耗電力
這些方案讓 Fairwater 能在 AI 技術(shù)需求持續(xù)攀升的情況下保持平穩(wěn)運行。
尖端加速器與網(wǎng)絡(luò)系統(tǒng)
Fairwater 的強大性能,來自于專為 AI 技術(shù)打造的服務(wù)器架構(gòu)、先進加速器和全新的網(wǎng)絡(luò)系統(tǒng)。
單一扁平網(wǎng)絡(luò):突破傳統(tǒng) Clos 網(wǎng)絡(luò)限制,支持數(shù)十萬 GPU 互聯(lián)
機架級互聯(lián):每機架最多容納 72 塊 Blackwell GPU,通過 NVLink 實現(xiàn)超低延遲通信
極致算力密度:支持 FP4 等低精度格式,提升 FLOPS 與內(nèi)存效率
帶寬與內(nèi)存:每機架提供 1.8TB GPU 間帶寬,每塊 GPU 可訪問 14TB 共享內(nèi)存

圖為:采用應(yīng)用驅(qū)動網(wǎng)絡(luò)技術(shù)的密集型 GPU 機架
為了讓數(shù)十萬塊 GPU 像一臺超級計算機一樣高效運作,F(xiàn)airwater 采用橫向擴展網(wǎng)絡(luò)架構(gòu),將機架擴展為 Pod 和集群,實現(xiàn)最少跳數(shù)、最低延遲的互聯(lián)。
核心技術(shù)亮點
雙層以太網(wǎng)后端架構(gòu):支持超大規(guī)模集群,GPU 間互聯(lián)速率高達 800Gbps
SONiC 網(wǎng)絡(luò)操作系統(tǒng):微軟自研,避免單一供應(yīng)商鎖定,降低成本,支持通用硬件
網(wǎng)絡(luò)優(yōu)化技術(shù):多層面重構(gòu)性能,實現(xiàn)擁塞控制、快速重傳和智能負載均衡,保障超低延遲與高可靠性
行星級規(guī)模
即便有這么多創(chuàng)新,面對動輒萬億參數(shù)的大模型訓(xùn)練,單個數(shù)據(jù)中心的電力和空間仍難以承載不斷上升的算力需求。為此,微軟打造了一個專用的 AI WAN 光網(wǎng)絡(luò),將 Fairwater 的縱向擴展與橫向擴展網(wǎng)絡(luò)進一步向外延伸。
依托多年的超大規(guī)?;A(chǔ)設(shè)施經(jīng)驗,微軟僅在過去一年內(nèi)就在全美鋪設(shè)了 12 萬英里的新光纖,全面增強 AI 技術(shù)網(wǎng)絡(luò)的覆蓋與穩(wěn)定性。
憑借這條高性能、高可用的骨干網(wǎng)絡(luò),我們可以把不同世代的超級計算機跨地域聯(lián)成一個整體——打造真正意義上的 AI 超級工廠(AI Superfactory)。
開發(fā)者可以根據(jù)任務(wù)需求,在單站點內(nèi)部的 scale-up / scale-out 網(wǎng)絡(luò)之間靈活切換,也可以跨站點通過 AI WAN 調(diào)度算力資源。
這與過去所有流量都必須走同一個橫向擴展網(wǎng)絡(luò)的模式截然不同。
如今,任務(wù)可以基于需求選擇最適合的網(wǎng)絡(luò)路徑,不僅提升效率,也讓整個基礎(chǔ)設(shè)施更靈活、更高利用率。
下一代 Azure AI 基礎(chǔ)設(shè)施的躍遷
全新的亞特蘭大 Fairwater 站點,是 Azure AI 基礎(chǔ)設(shè)施邁出的又一大步,也是微軟多年支撐全球最大規(guī)模 AI 技術(shù)訓(xùn)練經(jīng)驗的成果總結(jié)。
它融合了突破性的算力密度設(shè)計、高效可持續(xù)的能源體系以及世界領(lǐng)先的網(wǎng)絡(luò)架構(gòu),并與全球各地的 Azure AI 數(shù)據(jù)中心深度互聯(lián),共同構(gòu)成首個全球規(guī)模的 AI 超級工廠。
對企業(yè)與開發(fā)者而言,這意味著更容易將 AI 技術(shù)融入現(xiàn)有工作流、更快把想法變成現(xiàn)實、更輕松構(gòu)建出曾經(jīng)難以實現(xiàn)的創(chuàng)新型 AI 技術(shù)應(yīng)用。