(資料圖片)
據(jù)騰訊官微,騰訊集團高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群CEO湯道生表示,在大模型的訓(xùn)練和使用過程中,需要大量異構(gòu)算力的支持,對網(wǎng)絡(luò)速度與穩(wěn)定性要求也很高,加上GPU服務(wù)器比一般服務(wù)器穩(wěn)定性更低一些,服務(wù)器的運維、問題的排查更頻繁,整體運維的難度與工作量會高很多。在訓(xùn)練集群中,一旦網(wǎng)絡(luò)有波動,訓(xùn)練的速度就會受到很大的影響;只要一臺服務(wù)器過熱宕機,整個集群都可能要停下來,然后訓(xùn)練任務(wù)要重啟,這些問題會使得訓(xùn)練時間大大增加,投入在大模型的成本也會飆升。
關(guān)鍵詞:
責(zé)任編輯:QL0009