2020 年 GPT-3 模型的參數量首次突破千億大關,達到了 1750 億,堪稱“大力出奇跡”。今日凌晨,萬眾矚目的大型多模態模型 GPT-4 正式發布!GPT-4 是多模態的,同時支持文本和圖像輸入功能。該版本“更強大”,模型精度隨著模型尺寸及訓練數據的增加而顯著提升。
訓練巨量模型需要巨大的算力,但隨著數據集和模型規模不斷增加,應用程序載入數據所花費的時間變得越長,進而影響了應用程序的性能,緩慢的 I/O 嚴重拖累GPU 的強大算力。如何大幅提升GPU載入大型數據集的速度將是計算和存儲系統共同面臨的最大挑戰。為更加完美地滿足大規模計算集群對于存儲系統的數據訪問需求,進一步發揮強大的 GPU 計算能力,將性能發揮到極致,焱融技術團隊歷時6個月的時間完成對NVIDIA GPUDirect Storage(GDS)的適配開發,實現以直接內存的存取方式,將數據傳輸至GPU內存上,顯著降低I/O延遲,提升數據帶寬。
(資料圖片)
GDS簡述
現代 AI 和數據科學工作是由大量數據驅動的,隨著人工智能以及高性能運算的數據集規模不斷增加,GPU 計算和數據中心存儲系統之間的快速通信變得至關重要。數據從 NVMe 磁盤傳輸到 GPU 內存的標準路徑,傳統的方式是由 CPU 控制的,使用系統內存中的回彈緩存(Bounce Buffer)做數據的中轉。這種操作過程會產生額外的數據拷貝工作,造成很大的系統開銷。當數據集的規模不斷增加,應用程序載入數據花費的時間會變得越來越長,進而影響了應用運行的性能。
NVIDIA GPUDirect Storage(GDS) 技術通過 DMA 引擎將硬盤數據直接寫入 GPU 顯存,這種以直接內存的存取方式,避免了內存 bounce buffers 所帶來的額外數據拷貝,從而實現 CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系統總線的帶寬壓力。近來,由于高速 RDMA 網絡的普及,GPUDirect storage 可以高效地直接訪問遠端存儲設備,諸如一些 NVMe的 target 方案和一些企業級分布式存儲產品,它能有效減輕 CPU I/O 瓶頸,提升數據傳輸的 I/O 帶寬的同時,降低I/O延遲。
支持GPUDirect技術的性能收益
英偉達開發的 GPUDirect Storage 技術,大幅提升 GPU 載入大型數據集的速度。GDS 通過更快、更直接的數據路徑提高了存儲和 GPU 之間數據移動的效率。數據直接從主機上的網卡(NIC)傳輸到 GPU,而不需要經過系統內存和 CPU。這種方式消除了系統架構中 IO 路徑瓶頸,減少了不必要的數據復制,降低了延遲,同時,釋放出來的計算資源還可用于深度學習中諸如圖形處理等其他業務。NVIDIA 表示通過支持 GPUDirect 技術能夠帶來多方面的性能收益:
? GDS 在存儲和 GPU 之間提升 2~8 倍的數據傳輸帶寬。
? 避免了 CPU 在內存中的 bounce buffers 拷貝,在某些場景下端到端傳輸的延遲能夠實現 3.8x 的降低。
? 當 GPU 并發度增加時,GDS 仍然保持穩定的低延遲輸出。
? GPU 不僅作為實現最高帶寬的計算引擎,同時也作為實現最高 IOPS 的計算引擎。
? 在某些場景的實測數據表明,如果單純使用 CPU,吞吐率僅能達到 50GB/s;而在使用 GPU 之后,吞吐率可達到 215 GB/s。因此,能支持GDS的存儲系統更能充分匹配前端的異構計算能力。
GPUDirect Storage 架構圖
焱融分布式文件存儲系統 YRCloudFile 支持 GDS 的大體流程:
YRCloudFile 客戶端向 nvidia-fs 注冊后,cuFile 打開一個 YRCloudFile 集群文件,會將 nvidia-fs 和 YRCloudFile 的特定接口進行綁定,當 io 下發到 client 中,client 檢測該 IO 是否是 GDS 的請求,如果是,則回調 nvidia-fs 的 map 接口,獲得 sglist 請求的 dma 地址,借助底層驅動能力,實現數據的RMDA 傳輸。
NVIDIA?Magnum IO GPUDirect? 技術,能夠顯著降低 GPU 服務器內的 CPU 占用率,增加存儲帶寬并減少延遲。焱融科技是國內支持 GPUDirect? 功能的首家分布式文件存儲廠商,能夠更好地管理數據路徑。焱融文件存儲系統與 GDS 的組合使得數據在應用程序和存儲之間通過更短、更有效的路徑傳輸,實現 1+1>2 的功能效果。從而使支持 GDS 的應用程序能夠充分釋放 GPU 計算能力,為人工智能和機器學習(AI/ML)以及數據分析等業務加速。
2022 年,焱融追光全閃文件一體機單存儲節點達到 40GB/s+ 帶寬和 200萬+ IOPS 性能,并應用于人工智能、智能汽車、智能制造、教育等行業生產環境中,為企業用戶成功構建高性能存儲平臺。在服務全球 500 強制造業的客戶中,完成國內首個雙 200Gb 網絡聚合分布式文件存儲集群部署,實現 AI 計算平臺破千萬 IOPS 性能實踐。
關鍵詞:
關于我們 廣告服務 手機版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 m.ymshequn.com 愛好者日報網 版權所有 聯系網站:435 226 40@qq.com