MLPerf揭榜:拆解“黃金標準”背后的AI存儲新姿勢互聯網+

萬億參數時代前夜,我們究竟需要什么樣的AI存儲?
文 | 智能相對論(aixdlun)
作者 | 葉遠風
大模型正在進入普遍萬億參數時代。
一方面,算力的重要性近一步提升;另一方面,萬億參數的壓力同樣給到了存儲——如果說過去AI計算對存儲性能的需求似乎還不那么急迫,那么現在存儲性能能否跟上,正在很大程度上決定AI創新的成敗。
企業如何選擇最能契合需要的存儲產品方案?
不久前,全球權威AI性能評測組織公布最新MLPerf? Storage v2.0基準測試結果,這份權威榜單,除了直接給出企業如何選擇供應商的參考,更給出了一份存儲面向萬億參數時代如何演進的答案。
與真實場景需求共舞,MLPerf“黃金標準”再進化
2018年,早在大模型還沒起勢時,谷歌、英偉達、英特爾、哈佛大學等 70余家頂尖科技企業和學術機構就聯合推動發起了MLPerf,要通過統一框架避免廠商自測的片面性,覆蓋訓練、推理、存儲、HPC等全場景測試,為用戶提供客觀采購依據。
到目前為止,MLPerf已經被公認為AI硬件性能的“黃金標準”,全球頭部企業(英偉達、谷歌、AMD、華為等)均定期提交測試結果。
可以看到,無論發起者還是參與者都是當下最前沿的科技企業,有著對AI計算發展最深度的理解,這使得MLPerf并非AI時代很多榜單那樣的“奧數競賽”(只為了刷分數而與現實需要脫節),而是一直來源于現實,并且指導現實技術進化。
因此,看待MLPerf榜單,絕不能僅僅從參數排行來看,而更應該關注它背后的規則邏輯,這些規則邏輯代表著AI計算實踐過程中最符合企業實際需要的現實。
典型如,MLPerf存儲基準測試在規則上的變化過程,去年該測試進行了一次適應性升級到了V1.0版本(這次是2.0版本,規則沿用),最大的不同是核心指標發生變化,即在給定的訓練模型和GPU型號下,存儲系統能支持的GPU數量,而非每GPU帶寬值或每計算節點帶寬值——這次的MLPerf存儲基準測試,其目標就是滿足一定加速器利用率的前提下,測試出存儲系統能夠支持的最大加速器數量以及能夠提供的最大帶寬。
規則變更的背景,是萬億參數時代到來,訓練數據集的規模正從TB級別上升至PB級,存儲系統必須具備強大的擴展能力和對大規模AI集群的支持能力,畢竟,支持更多的GPU數量將會決定系統性能的“上限”(固定資產投資方面也更能攤薄邊際成本),只糾結單個GPU性能數據的參考意義并不大。
華為OceanStor A系列存儲聯合濟南超級計算技術研究院(JNIST)的合作解決方案,在此次MLPerf測試中獲得單存儲設備、每U存儲設備及單客戶端性能等榜單上的全球第一,原因就在于此。
從直接的參數性能來看,在Training場景中,單臺8U雙節點架構的OceanStor A800獲得單存儲設備性能第一,持續提供698 GiB/s的穩定帶寬:
單臺2U雙節點架構的OceanStor A600獲得每U設備及單客戶端性能第一,其中每U帶寬穩定達108 GiB/s,單客戶端帶寬達104 GiB/s:
同樣的命題,顯著的領先,離不開華為OceanStor A800以單臺8U雙節點架構可支撐255張H100 GPU訓練數據吞吐需求,而OceanStor A600以單臺2U雙節點架構的可支撐76張H100 GPU訓練場景的吞吐需求。
不是有人“打榜”到了第一,而是一貫來源于實際需求的MLPerf在告訴業界什么才是最符合需要的,這才是“黃金標準”的內涵。
如此,MLPerf也才能反過來引導和推進技術創新,帶來英偉達Blackwell的FP4精度、TensorRT-LLM框架優化、Untether AI芯片能效提升等“榜單測試反哺技術創新”的經典案例。
值得一提的是,多加速器支持并不是所有場景的AI存儲需求都十分迫切,那些足夠有實力的廠商要想充分體現自己在新需求下的能力,必須選擇更能壓榨性能的用例。因此可以看到華為存儲在MLPerf Storage Traning場景下3D U-Net、Resnet50、cosmoflow三個用例中,選擇了(在H100算力卡下)3D U-Net這個對存儲帶寬壓力最大的訓練用例,這樣才能將其多加速器支持進行最極致的展現,充分表達存儲產品的性能。
“強化協同下的資源池化”——AI計算、存儲發展趨勢殊途同歸
不久前的世界人工智能大會上,384塊昇騰910C組合在一起昇騰384超節點成為全場焦點:
以更多的芯片數量進行AI計算,資源“池化”集群獲得高算力(昇騰384超節點總算力高達300 PFLOPS),類似的還有英偉達的NVIDIA GB200 NVL72集群系統,72個GPU實現180 PFLOPS算力。
MLPerf在存儲方面評測規則及勝出廠商的玩法,其實與這種AI計算性能的發展邏輯同向而行。當多芯片資源的池化整合大大拉升AI計算的能力上限,對應地,存儲去支持更多的GPU數量、實現總帶寬突破而不糾結對單個GPU支撐能力數據,也是大勢所趨。
在這個過程中,協同能力是關鍵——不能“無腦堆砌”,“強化協同下的資源池化”才有意義。英偉達用于卡間互聯的NVLink技術以及傳統銅纜傳遞數據支撐不起更龐大的集群,其集群算力比不過有光通信支持的昇騰超節點。
在AI存儲對多GPU的支持這里,也存在類似的現象。
由于多GPU計算存在“木桶效應”,在一個計算Step中,某一個GPU數據延遲會造成其他加速器“等待”,最終拖慢整個Step使得利用率降低、無法獲得預期的帶寬,存儲必須做到在高帶寬壓力下(意味著更多GPU),也能夠給訓練系統提供穩定的低時延(提升利用效率),華為OceanStor A系列存儲正是與合作伙伴JNIST一起解決了這一“既要又要”難題才最終登頂榜首。
換句話說,在AI存儲這里,不是你想要支撐更多GPU就能支撐起來的,做好協同才能不斷提升帶寬上限,否則“加法”的效率會越來越低。
“屏蔽復雜性”,存儲創新回歸IT服務本質
“強化協同下的資源池化”對企業而言究竟意味著什么?
答案是IT供應商的本質任務——屏蔽復雜性,無論是AI計算還是AI存儲,企業只需要索求一個最終的結果,有限預算下更強大的算力或者更高的帶寬,各種復雜技術協同都由供應商來解決。
這個底層邏輯推動著那些優質存儲廠商的發展,登頂MLPerf的華為OceanStor A系列產品,在更體系化的層面是華為AI存儲解決方案的一部分,后者在更整體上幫助企業全面屏蔽復雜性,才有了前者的“出街”。
具體來看,數據在當下已經成為企業的重要資產,但過去普遍的基礎設施分開建設的做法,讓企業們形成了“煙囪式”數據孤島,這是數字化時代留給智能化時代的負面遺產,它很“復雜”,嚴重影響到企業的AI創新。
而華為存儲站了出來,基于過去長期服務企業的經驗,幫助企業“屏蔽復雜性”,構建起了統一的AI數據湖解決方案。不管企業數據再亂、再復雜,需要支撐AI計算的時候,華為的方案創新都能幫助企業“抹平”數據到計算的鴻溝,智能分級流動,打破數據孤島,保證AI數據高效供給,大幅提升AI集群算力利用率,節省大模型訓練時間。
這是一種“瞌睡遇枕頭”式的創新,在這個創新體系中,除了OceanStor A系列,華為存儲還提供大容量存儲池,滿足企業多模態、萬億參數大模型容量訴求,以及數據保護全面保障數據安全。
順著這個思路往下看,很多存儲創新都更能夠被理解,例如當企業需要不同類型的數據范式時,華為存儲構建PB級KV Cache全局共享資源池,不僅10倍提升推理吞吐,還內置RAG知識庫,各種“雜七雜八”的數據形式都被支持,企業不需要直面這些“復雜性”,只需要放手發展自己的AI能力即可。
總而言之,MLPerf榜單的“登頂”者,向業界展現的是一系列圍繞市場最真實需要的存儲創新進化過程,這不是一次簡單的“打榜”,而是創新風向的指南針。
*本文圖片均來源于網絡
此內容為【智能相對論】原創,
僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。
部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯系。
?AI產業新媒體;
?澎湃新聞科技榜單月度top5;
?文章長期“霸占”鈦媒體熱門文章排行榜TOP10;
?著有《人工智能 十萬個為什么》
?【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發者以及背后的芯片、算法等。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。