青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

DeepSeek致謝騰訊技術(shù)團(tuán)隊(duì),DeepEP開源通信框架性能顯著提升

IT之家5月7日消息,騰訊技術(shù)團(tuán)隊(duì)針對DeepSeek開源的DeepEP通信框架進(jìn)行深度優(yōu)化,使其在多種網(wǎng)絡(luò)環(huán)境下均實(shí)現(xiàn)顯著性能提升。

經(jīng)測試,優(yōu)化后的通信框架性能在 RoCE網(wǎng)絡(luò)環(huán)境提升100%,IB 網(wǎng)絡(luò)環(huán)境提升 30%,為企業(yè)開展AI大模型訓(xùn)練提供更高效的解決方案。

該技術(shù)方案獲得了DeepSeek公開致謝,稱這是一次“huge speedup”代碼貢獻(xiàn)。

IT之家注:DeepEP是一個為專家混合(MoE)和專家并行(EP)量身定制的通信庫。它提供高吞吐量和低延遲的全對全GPU內(nèi)核,這些內(nèi)核也被稱為MoE派發(fā)和組合。該庫還支持低精度運(yùn)算,包括FP8。

據(jù)悉,騰訊星脈網(wǎng)絡(luò)團(tuán)隊(duì)在DeepEP開源后便展開技術(shù)攻關(guān),發(fā)現(xiàn)兩大關(guān)鍵瓶頸:一是對于雙端口網(wǎng)卡帶寬利用率不足,二是CPU控制面交互存在時延。

在騰訊的技術(shù)優(yōu)化下,DeepEP不僅在RoCE 網(wǎng)絡(luò)實(shí)現(xiàn)性能翻倍,反哺到IB(InfiniBand)網(wǎng)絡(luò)時更使原有通信效率再提升30%。

目前,該技術(shù)已全面開源,并成功應(yīng)用于騰訊混元大模型等項(xiàng)目的訓(xùn)練推理,在騰訊星脈與H20服務(wù)器構(gòu)建的環(huán)境中,這套方案展現(xiàn)出出色的通用性。


相關(guān)內(nèi)容