发布时间:2025-05-15 点此:952次
IT之家 5 月 7 日音讯,腾讯技能团队针对 DeepSeek 开源的 DeepEP 通讯结构进行深度优化,使其在多种网络环境下均完成明显功能提高。
经测验,优化后的通讯结构功能在 RoCE 网络环境提高 100%,IB 网络环境提高 30%,为企业打开 AI 大模型练习供给更高效的解决计划。
该技能计划获得了 DeepSeek 揭露称谢,称这是一次“huge speedup”代码奉献。
IT之家注:DeepEP 是一个为专家混合(MoE)和专家并行(EP)量身定制的通讯库。它供给高吞吐量和低推迟的全对全 GPU 内核,这些内核也被称为 MoE 派发和组合。该库还支撑低精度运算,包含 FP8。
据悉,腾讯星脉网络团队在 DeepEP 开源后便打开技能攻关,发现两大要害瓶颈:一是关于双端口网卡带宽利用率缺乏,二是 CPU 操控面交互存在时延。
在腾讯的技能优化下,DeepEP 不仅在 RoCE 网络完成功能翻倍,反哺到 IB(InfiniBand)网络时更使原有通讯功率再提高 30%。
现在,该技能已全面开源,并成功应用于腾讯混元大模型等项目的练习推理,在腾讯星脉与 H20 服务器构建的环境中,这套计划展现出超卓的通用性。
相关推荐