<menuitem id="k76ut"></menuitem>

<output id="k76ut"><track id="k76ut"></track></output>

<menuitem id="k76ut"><video id="k76ut"></video></menuitem><ins id="k76ut"><option id="k76ut"></option></ins>

Meta 訓練 Llama 3 遭遇頻繁故障：16384 塊 H100 GPU 訓練集群每 3 小時“罷工”一次

科技探索者 ? 2024年7月29日 15:24:00 ? AI

近日消息，Meta 發布的一份研究報告顯示，其用于訓練 4050 億參數模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內出現了 419 次意外故障，平均每三小時就有一次。其中，一半以上的故障是由顯卡或其搭載的高帶寬內存（HBM3）引起的。

近日消息，Meta 發布的一份研究報告顯示，其用于訓練 4050 億參數模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內出現了 419 次意外故障，平均每三小時就有一次。其中，一半以上的故障是由顯卡或其搭載的高帶寬內存（HBM3）引起的。

Meta 訓練 Llama 3 遭遇頻繁故障：16384 塊 H100 GPU 訓練集群每 3 小時“罷工”一次

由于系統規模巨大且任務高度同步，單個顯卡故障可能導致整個訓練任務中斷，需要重新開始。盡管如此，Meta 團隊還是保持了 90% 以上的有效訓練時間。

在為期 54 天的預訓練中，共出現了 466 次工作中斷，其中 47 次是計劃中斷，419 次是意外中斷。計劃內的中斷是由于自動化維護造成的，而意外的中斷則主要源于硬件問題。 GPU 問題是導致故障的主要原因，占意外中斷的 58.7%。其中只有三起事件需要大量人工干預，其余的由自動化管理。

在 419 個意外中斷中，148 個（30.1%）是由各種 GPU 故障（包括 NVLink 故障）引起的，而 72 個（17.2%）是由 GPU 的 HBM3 內存故障引起的。有趣的是，54 天內只有兩個 CPU 發生故障。41.3% 的意外中斷是由多種因素造成的，包括軟件錯誤、網絡電纜和網絡適配器。

為提高效率，Meta 團隊開發了一系列工具和優化策略，包括縮短任務啟動和檢查點時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外，Meta 還關注到了環境因素的影響，如午間溫度波動對 GPU 性能的輕微影響，以及巨量 GPU 同時運行對數據中心電網的巨大壓力。

然而，隨著人工智能模型參數量的不斷增加，所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例，故障率可能會成倍增長，給未來的 AI 訓練帶來更大的挑戰。

原創文章，作者：科技探索者，如若轉載，請注明出處：http://www.doinggoodmedia.com/article/670210.html

419 次意外故障 H100 顯卡集群 Llama 3 Meta 英偉達

科技探索者管理團隊

產品

索尼PlayStation VR2 vs Meta Quest 3：沉浸式體驗與性價比的終極較量

在虛擬現實（VR）技術日新月異的今天，索尼PlayStation VR2（簡稱PSVR 2）與Meta Quest 3作為兩大巨頭的新品，各自以其獨特的魅力和技術優勢吸引了全球玩家…

泡沫大盜
11小時前
新聞

Meta承認收集澳大利亞成年人公共數據訓練AI，但無退出選項

當地時間11日，全球社交媒體巨頭Meta公司因其在澳大利亞的數據收集和使用行為再次引發關注。據澳大利亞廣播公司（ABC）報道，Meta公司公開承認，其平臺上已收集了所有澳大利亞成年…

小科同學
2天前
產品

Meta Quest系列VR頭顯迎來v69系統更新：增強用戶體驗，新增多項實用功能

近日，Meta（前身為Facebook Reality Labs）宣布為其旗下的Quest 2、Quest 3及Quest Pro虛擬現實（VR）頭顯推送了v69系統軟件更新。此次…

泡沫大盜
2天前
新聞

全球VR頭顯出貨量：二季度同比下降4%，Meta獨領風騷

市場調查權威機構Counterpoint Research于9月13日發布最新報告，揭示了2024年第二季度全球虛擬現實（VR）頭顯市場的最新動態。數據顯示，該季度全球VR頭顯出貨…

聆聽
2天前
產品

英偉達發布561.09版Game Ready驅動，優化多款新游體驗

全球領先的圖形處理器（GPU）制造商英偉達（Nvidia）于昨日（9月11日）正式推出了其最新的GeForce WHQL Game Ready驅動程序，版本號為561.09。此次更…

好奇寶寶
4天前
新聞

英偉達CEO黃仁勛：臺積電領先但訂單可轉移，Blackwell芯片將如期出貨

英偉達公司首席執行官黃仁勛在近日舉行的高盛科技會議上，對當前的芯片代工市場及英偉達的產品線進行了詳細闡述，并傳遞出積極的市場信號。他強調，盡管臺積電在芯片代工領域保持著領先地位，但…

小科同學
4天前
商業

英偉達市值一夜大增1.54萬億，引領美股科技股強勁反彈

美東時間周三，美股市場迎來了一場振奮人心的強勁反彈，科技板塊尤為搶眼，其中英偉達（NVDA）更是大放異彩，股價飆升，英偉達市值一夜之間大增1.54萬億元人民幣，成為市場關注的焦點?！?/p>

商業頭條
4天前
AI

AMD戰略調整：聚焦中端市場，逐步擴大顯卡份額

近日，AMD高級副總裁及計算與圖形事業部總經理Jack Huynh在接受知名科技媒體Tom’s Hardware采訪時，透露了AMD在客戶端顯卡市場的最新戰略方向。 J…

NEWS
2024年9月9日
新聞

黃仁勛再度拋售英偉達股票，今年6月至今已套現約6億美元

當地時間 9 月 4 日提交的文件顯示，英偉達 CEO 黃仁勛在 8 月 30 日至 9 月 3 日期間，共出售了 24 萬股英偉達普通股，售價在 107.30 美元至 120.99 美元之間，總價值約為 2760 萬美元（IT之家備注：當前約 1.96 億元人民幣）。

蘋果派
2024年9月6日
新聞

Xockets指控英偉達與微軟侵犯DPU專利并就授權費建立壟斷同盟

網絡基礎設施企業 Xockets 美國當地時間 5 日指控英偉達與微軟侵犯其 DPU 專利并就授權費建立壟斷同盟，要求法院競爭英偉達發布基于 Blackwell GPU 的 AI 系統并尋求損害賠償。

科技探索者
2024年9月6日
新聞

消息稱英偉達將于明年1月針對中國市場推出RTX 5090D顯卡

首先，RTX 4090D的芯片供應預計將于11月截止，這一舉措顯然是為了給即將到來的中國特供版RTX 5090D讓路。RTX 4090D作為當前高端顯卡市場的明星產品，其供應量的減少可能會對市場產生一定的影響。

科技探索者
2024年9月5日
新聞

英偉達跌落神壇？Tiger 21富豪俱樂部過半成員選擇規避

自人工智能（AI）技術的迅猛發展以來，英偉達（NVIDIA）憑借其在AI芯片領域的卓越表現，成為了投資界的寵兒，股價飆升，市值一度突破天際。然而，最新的一份來自Tiger 21超級…

秋秋
2024年9月5日
新聞

英偉達發言人稱未收到美國司法部傳票，此前被指面臨反壟斷調查

英偉達公司發言人通過聲明表示，公司沒有收到美國司法部的傳票?！拔覀円呀浵蛎绹痉ú窟M行了詢問，并沒有收到傳票。不過，我們很樂意回答監管機構可能提出的有關我們業務的任何問題?！?/p>

科技探索者
2024年9月5日
產品

Apple Vision Pro vs Meta Quest 3：高端MR與親民VR的巔峰對決

在虛擬現實（VR）領域，Apple的Vision Pro和Meta的Quest 3是兩款備受矚目的新產品。它們不僅代表了各自公司的技術實力，也預示著未來虛擬現實體驗的發展方向。本文…

校草
2024年9月5日
新聞

英偉達否認收到美國司法部反壟斷調查傳票：愿意積極配合

近日，全球領先的圖形處理器（GPU）制造商英偉達公司就美國司法部可能發起的反壟斷調查一事發表聲明，否認已收到相關傳票。這一聲明迅速回應了彭博社周二關于司法部已向多家科技公司發出傳票…

校草
2024年9月5日
新聞

英偉達CEO黃仁勛凈資產暴跌100億美元至949億美元，創有史以來最大減損

當地時間周二，黃仁勛的財富創下有史以來最大的減損，其凈資產周二暴跌約 100 億美元至 949 億美元（約 6756.58 億元人民幣），縮減的規模創下自彭博億萬富豪指數 2016 年開始追蹤他財富以來的單日最大。

科技探索者
2024年9月4日
新聞

英偉達RTX 50系顯卡功耗曝光：5090比上代激增33%、性能比4090高70%

按照消息人士的說法， RTX 5090顯卡的功耗為600W，而RTX 5080的功耗為400W，均配備了1個16-Pin供電接口。

蘋果派
2024年9月4日
AI

Meta 公布 Llama AI 模型家族下載量數據：全球超 3.5 億

Meta 公司發布新聞稿披露了旗下 Llama 開源AI模型家族在 Hugging Face 的下載量情況，僅在上個月（8 月 1 日- 8 月 31 日），相關模型的下載次數就超過了 2000 萬次，截至9月1日，Llama模型家族全球下載量已突破3.5億次。

科技探索者
2024年9月4日
新聞

英偉達市值一夜少了2萬億：創4月下旬以來最大單日跌幅

在9月3日的交易日中，美國股市遭遇重挫，三大主要股指均出現了顯著下跌，創下自8月6日以來的最大單日跌幅。在這場股市動蕩中，英偉達公司的股票也遭受了顯著的打擊。

科技探索者
2024年9月4日
商業

英偉達市值一夜少了2萬億，反壟斷調查陰霾籠罩

美東時間周二，全球科技股市場遭遇重挫，其中芯片巨頭英偉達市值一夜少了2萬億。當日，美股三大指數全線下滑，道指、納指及標普500指數均錄得顯著跌幅，而英偉達股價更是暴跌9.53%，導…

商業頭條
2024年9月4日

發表回復

登錄后才能評論

在线天堂а√8,噜噜狠狠色综合久色a站网址,自w到高c的26种方法图,日本丰满大乳人妻无码苍井空

<menuitem id="k76ut"></menuitem>

<output id="k76ut"><track id="k76ut"></track></output>

<menuitem id="k76ut"><video id="k76ut"></video></menuitem><ins id="k76ut"><option id="k76ut"></option></ins>