1. <menuitem id="k76ut"></menuitem>

    <output id="k76ut"><track id="k76ut"></track></output>

    <menuitem id="k76ut"><video id="k76ut"></video></menuitem>

    <menuitem id="k76ut"><video id="k76ut"></video></menuitem><ins id="k76ut"><option id="k76ut"></option></ins>

    Meta 訓練 Llama 3 遭遇頻繁故障 英偉達GPU真的在拖后腿嗎?

    近日,Meta發布了一份詳細的研究報告,揭示了在訓練Llama 3 405B參數模型過程中面臨的重大挑戰。該系統在包含16384個Nvidia H100 GPU的集群上運行,在54天的訓練期間,經歷了419次意外故障,平均每三個小時發生一次。這些故障中的一半以上歸因于GPU及其高帶寬內存(HBM3)。

    Meta 訓練 Llama 3 遭遇頻繁故障   英偉達GPU真的在拖后腿嗎?

    什么是Llama 3.1?深度解析Llama 3.1研發思路

    Meta剛剛發布開源Llama 3.1雖然自帶論文,但依舊激起了廣大網友強烈的好奇心和求知欲。Llama 3.1都使用了哪些數據?其中有多少合成數據?為什么不使用MoE架構?后訓練與RLHF流程是如何進行的?模型評估是如何進行的?我們什么時候可以見到Llama 4?Meta是否會發展agent?

    LLM的參數規模選擇需要考慮多種因素,包括scaling law、訓練時間、GPU和硬件的約束等等。不僅要考慮Meta所用的硬件,還要考慮整個AI社區的不同GPU型號和顯存大小。此外,目前廣泛應用于推理階段的量化技術也會影響推理和訓練/微調成本的比重。

    在Scaling Law和訓練token總量的限制內,進行了一些權衡,找到了一個有合適推理效率的平衡點。之所以做到405B這么大規模,一個真正與GPT-4比肩的開源模型。雖然目前還沒有完全達到目標,但差距正在逐漸縮小。下一代模型將繼續擴展。

    Scaling Law主要關注模型權重和訓練量。Chinchilla論文強調了訓練數據token總量的重要性,認為在有限算力前提下,存在一個模型參數量和訓練token數的最佳比率。

    但是,Meta希望發布的旗艦模型需要更高的推理效率,因此選擇增加訓練的token數和訓練時長,讓模型達到“過度訓練”的狀態。我們希望模型有更好的推理表現,從而更多地應用于開源社區,因此需要做出一些超越Chinchilla定律的選擇。

    相比Llama 2,Llama 3的架構沒有太多變化,但在擴展數據的規模和質量方面作出了很多努力,數據集從2T token增加到15T token。

    目前的模型研發有一個趨勢,即針對基準分數進行模型的后訓練改進。模型評估是一個開放的研究問題,目前還沒有很好的答案。當試圖提升模型在某個基準上的分數時,可能會存在過擬合,分數提升未必能遷移成為相似的能力。Meta已經在6月開始訓練Llama 4模型,重點可能圍繞agent技術,并且已經在Toolformer等agent工具上進行了一些工作。

    Llama 3訓練任務為什么會多次遭遇故障?

    由于Llama 3訓練任務的規模龐大且高度同步,單個GPU的故障會導致整個訓練過程中斷,必須重新啟動。在419次意外故障中,58.7%的故障與GPU相關,具體包括NVLink等各種GPU故障和HBM3內存故障。這種情況并不意外,因為Nvidia的H100 GPU消耗約700W并承受大量熱應力。盡管出現了大量的故障,但只有三起事件需要顯著的人工干預,其余的問題均能由自動化處理。

    盡管存在這些問題,Llama 3團隊通過支持自動化集群維護,實現了超過90%的有效訓練時間(有效訓練時間是指實際用于有用訓練的時間與經過時間的比例)。Meta開發了多種工具和優化策略,包括減少任務啟動和檢查點時間、廣泛使用PyTorch內置的NCCL飛行記錄器,以及識別滯后的GPU。其中,NCCLX在故障檢測和定位方面發揮了至關重要的作用,尤其是對于NVLink和RoCE相關問題。

    PyTorch的NCCL飛行記錄器能夠將集體元數據和堆棧跟蹤記錄到環形緩沖區中,從而在大規模情況下快速診斷和解決掛起和性能問題。NCCLX通過與PyTorch的緊密協同設計,提高了故障檢測和定位的速度和準確性,允許PyTorch訪問NCCLX的內部狀態并跟蹤相關信息。

    訓練過程中,成千上萬的GPU可能同時增加或減少功耗,例如等待檢查點完成或集體通信結束,或整個訓練任務的啟動或關閉。這會導致數據中心的功耗瞬時波動達到幾十兆瓦的數量級,可能使電網不堪重負。Meta必須確保其數據中心有足夠的電力,以維持Llama 3 405B模型及未來更大規模模型的正常運轉。

    Meta還注意到,環境因素會影響大規模訓練性能。Llama 3 405B訓練期間,每天中午因溫度較高影響了GPU的動態電壓和頻率調整,導致吞吐量波動1-2%。盡管這不是大問題,但它揭示了溫度變化對GPU性能的潛在影響。

    考慮到16384個H100 GPU的集群在54天內經歷了419次意外故障,平均每24小時7.76次,xAI的孟菲斯超級計算機集群(配備10萬個H100 GPU)可能會面臨更高的故障率。埃隆·馬斯克(Elon Musk)最近在社交平臺上宣布啟動了“世界上最強大的人工智能訓練集群”,預計在今年12月前創建“世界上所有指標最強大的人工智能”。根據GPU規模比例,xAI的孟菲斯超級計算機集群可能會面臨更多的故障和挑戰。

    隨著人工智能模型參數量的不斷增加,所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例,故障率可能會成倍增長,給未來的 AI 訓練帶來更大的挑戰。盡管挑戰重重,Meta通過開發和應用多種技術和優化策略,展示了在大規模人工智能訓練中克服故障、提升效率的能力。未來,隨著人工智能模型參數量的不斷增加,計算資源需求也將持續增長。Meta的經驗為業界提供了寶貴的參考,也為未來更大規模模型的訓練奠定了基礎。

    原創文章,作者:科技探索者,如若轉載,請注明出處:http://www.doinggoodmedia.com/article/670512.html

    科技探索者的頭像科技探索者管理團隊

    相關推薦

    發表回復

    登錄后才能評論
    在线天堂а√8,噜噜狠狠色综合久色a站网址,自w到高c的26种方法图,日本丰满大乳人妻无码苍井空

    1. <menuitem id="k76ut"></menuitem>

      <output id="k76ut"><track id="k76ut"></track></output>

      <menuitem id="k76ut"><video id="k76ut"></video></menuitem>

      <menuitem id="k76ut"><video id="k76ut"></video></menuitem><ins id="k76ut"><option id="k76ut"></option></ins>