五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

4090在深度學習訓練上的性能表現(xiàn)數(shù)據(jù)分享

2023-06-29 18:05 作者:云客數(shù)字服務器工廠  | 我要投稿

我們對訓練?Transformer 模型在各種 GPU(包括單 GPU、多 GPU 和多機器)上可以實現(xiàn)的真實Tera FLOPS進行了基準測試。它可以幫助您估計訓練大型 Transformer 模型需要多少機器時間。

實際性能取決于多種因素,包括硬件、冷卻、CUDA版本、變壓器模型、超參數(shù)(例如批量大?。┖蛯崿F(xiàn)。我們在我們自己的服務器平臺上面運行了并整理了相應的數(shù)據(jù)。

測試平臺:

平臺:超微SYS-420GP-TNR(3代Xeon平臺)

顯卡:單渦輪?4090

cpu:Intel Xeon Gold 6348

測量各種微基準測試的TFLOPS。測試方法:李沐老師micro-benchmarkings

測試結(jié)果:

測試說明:

1.矩陣計算速度

transformer的核心操作是矩陣乘法,通過測試矩陣計算的tflops可以得到硬件的計算上限。

可以看出單精度提升明顯,因為Tensor Cores的緣故,半精度性能相比單精度有很大的提升,半精度下為161 TFLPOPS是3090Ti的。

2.向量乘法速度、帶寬

深度學習訓練中,帶寬會限制你的訓練速度。因為網(wǎng)絡訓練過程中的激活函數(shù)會做的事情計算步驟類似向量乘法,這種操作會很慢,從而減慢訓練速度。

可以看出4090向量乘法操作大約是3090ti的四倍,吞吐量提升很多,盡管位寬一樣。

3.Bert Layer Forward/Forward+Backward速度

從上面的測試數(shù)據(jù)可以看出,越簡單的代碼,提高越接近2倍的理論值,對于一些復雜的代碼,因為有一些不同的附加操作,提高的值會有所差異。

GPT的提高就比BERT相對來說小一些,因為它包括了一個掩碼的計算,所以這個使得產(chǎn)生了非常強的性能損失,相比bert。

總結(jié):

從矩陣計算硬件的計算上限來說,4090在單精度上提升明顯,因為Tensor Cores的緣故,半精度提升2倍, 4090bertForward操作的性能是 3090ti的1.77倍,F(xiàn)orward+Backward是3090ti的1.68倍。

想了解RTX4090整機的更多測試報告,歡迎私信我們~


4090在深度學習訓練上的性能表現(xiàn)數(shù)據(jù)分享的評論 (共 條)

分享到微博請遵守國家法律
元朗区| 右玉县| 郧西县| 新宁县| 辽中县| 荆州市| 寿光市| 张家川| 汉沽区| 突泉县| 长宁区| 全椒县| 五莲县| 文昌市| 永兴县| 衡东县| 曲周县| 巫溪县| 神农架林区| 洛阳市| 江华| 宜丰县| 黄骅市| 都匀市| 武定县| 渝北区| 汕头市| 清水县| 曲麻莱县| 宜川县| 孝昌县| 峨边| 卓资县| 临朐县| 永泰县| 太保市| 红桥区| 扎鲁特旗| 罗江县| 筠连县| 平山县|