隨著人工智能技術(shù)的快速發(fā)展,大模型訓(xùn)練已成為推動(dòng)技術(shù)進(jìn)步的關(guān)鍵因素。然而,大模型訓(xùn)練對(duì)算力的需求巨大,如何構(gòu)建高效、穩(wěn)定的計(jì)算集群成為業(yè)界面臨的挑戰(zhàn)。近日,vivo AI架構(gòu)工程師劉東陽(yáng)分享了vivo在大模型計(jì)算集群建設(shè)方面的實(shí)踐經(jīng)驗(yàn)和創(chuàng)新技術(shù),為我們提供了寶貴的參考。
一、算力對(duì)大模型訓(xùn)練的重要性
大模型訓(xùn)練需要消耗巨大的算力,算力不足將直接影響大模型的迭代升級(jí)效率,成為制約其發(fā)展的瓶頸。根據(jù)OpenAI團(tuán)隊(duì)在2020年提出的Scaling Laws,要想提高模型效果,需要擴(kuò)大模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)集以及算力規(guī)模。例如,Meta的OPT-175B大模型單卡A100算力需要訓(xùn)練近100年,而要在30天內(nèi)完成訓(xùn)練,則需要超過1000張卡。因此,構(gòu)建高性能、高穩(wěn)定的計(jì)算集群至關(guān)重要。
二、大模型訓(xùn)練對(duì)計(jì)算集群的核心訴求
大模型訓(xùn)練對(duì)計(jì)算集群的核心訴求包括高性能、高穩(wěn)定的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和調(diào)度。在計(jì)算方面,GPU性能的要求越來越高,低精度訓(xùn)練和高速互聯(lián)是趨勢(shì)。在網(wǎng)絡(luò)方面,高帶寬、低延遲、長(zhǎng)穩(wěn)定的網(wǎng)絡(luò)是大規(guī)模分布式訓(xùn)練性能的關(guān)鍵。在存儲(chǔ)方面,大模型訓(xùn)練需要高吞吐、高iops、低時(shí)延的分布式存儲(chǔ)。在調(diào)度方面,基于云原生的調(diào)度系統(tǒng),提供面向AI訓(xùn)練的高效調(diào)度和資源管理。
三、vivo大模型計(jì)算集群的整體架構(gòu)
vivo大模型計(jì)算集群采用了公有云集群和IDC自建集群相結(jié)合的方式,實(shí)現(xiàn)了高性能GPU卡、高性能RDMA網(wǎng)絡(luò)、高性能分布式存儲(chǔ)等關(guān)鍵技術(shù)的應(yīng)用。此外,vivo還基于VTraining訓(xùn)練平臺(tái),實(shí)現(xiàn)了任務(wù)生命周期管理、異常監(jiān)控識(shí)別、故障自動(dòng)隔離、任務(wù)自動(dòng)重啟等功能,確保了大模型訓(xùn)練的穩(wěn)定性和高效性。
四、vivo自研藍(lán)心大模型訓(xùn)練的實(shí)踐心得
vivo在自研藍(lán)心大模型訓(xùn)練過程中,積累了豐富的實(shí)踐經(jīng)驗(yàn)。首先,大規(guī)模分布式訓(xùn)練是一個(gè)軟硬一體系統(tǒng)工程,需要基礎(chǔ)設(shè)施、訓(xùn)練加速、平臺(tái)等團(tuán)隊(duì)的通力協(xié)作、軟硬件協(xié)同優(yōu)化。其次,通信鏈路及流量監(jiān)控、基礎(chǔ)設(shè)施保障、訓(xùn)練、通信框架、調(diào)度管理、服務(wù)器、網(wǎng)絡(luò)、存儲(chǔ)等方面的優(yōu)化至關(guān)重要。最后,混合云異構(gòu)算力管理、大規(guī)模調(diào)度性能優(yōu)化、軟硬協(xié)同保障大模型訓(xùn)練等技術(shù)的應(yīng)用,為vivo大模型訓(xùn)練的高效性和穩(wěn)定性提供了有力保障。
總之,vivo在大模型計(jì)算集群建設(shè)方面的實(shí)踐經(jīng)驗(yàn)和創(chuàng)新技術(shù),為業(yè)界提供了寶貴的參考。隨著人工智能技術(shù)的不斷發(fā)展,大模型訓(xùn)練對(duì)算力的需求將越來越高,如何構(gòu)建高效、穩(wěn)定的計(jì)算集群將成為業(yè)界面臨的重要挑戰(zhàn)。我們期待更多像vivo這樣的企業(yè),能夠分享更多關(guān)于大模型計(jì)算集群建設(shè)的經(jīng)驗(yàn)和創(chuàng)新技術(shù),共同推動(dòng)人工智能技術(shù)的進(jìn)步。