央广网北京5月8日音讯 5月7日,腾讯技能团队针对DeepSeek开源的DeepEP通讯结构进行深度优化,使其在多种网络环境下均完结明显功能提高。经测验,优化后的通讯结构功能在RoCE网络环境提高100%,IB网络环境提高30%,为企业打开AI大模型练习供给更高效的处理计划。相关技能计划获得了DeepSeek揭露称谢,称这是一次“huge speedup”代码奉献。
自本年2月DeepSeek开源包含DeepEP在内的五大代码库以来,该团队便向业界展现了怎么运用有限的硬件资源完结挨近万卡集群的功能。在这些技能中,DeepEP凭仗打破性的办法提高了300%的通讯功率,成功处理了MoE架构大模型对英伟达NCCL的依靠问题。
但该技能在本钱较低、适用面更广的RoCE网络环境中体现欠安,约束了其在更广泛场景的运用。这一痛点引发了开源社区的继续评论。
腾讯星脉网络团队根据在RoCE网络范畴的深沉堆集,在DeepEP开源后便打开技能攻关,发现两大要害瓶颈:一是关于双端口网卡带宽运用率缺乏,二是CPU操控面交互存在时延。
腾讯在RoCE网络优化方面的打破,首要体现在带宽分配的智能化,经过拓扑感知的多QP建链技能,智能分配数据流,优化了双端口网卡的带宽运用率,保证每条数据通道都能得到充沛运用。此举有用避免了带宽糟蹋,为RoCE网络的功能提高供给了有力支撑。
其次,腾讯还着力处理了GPU通讯中的CPU操控瓶颈问题。经过根据IBGDA技能的优化,腾讯使得“操控面”场景的操作也不能自制绕过CPU的“中转”,进一步降低了推迟和能耗,提高了全体通讯功率。
一起,GPU直接“对话”时存在的传输次序紊乱难题,腾讯提出了“QP内时序锁”机制,使得多个GPU间的数据传输可以精准、按次序完结,即便一起处理1000多个数据传输使命,DeepEP也能主动理顺先后次序。
在腾讯的技能优化下,DeepEP不仅在RoCE网络完结功能翻倍,反哺到IB(InfiniBand)网络时更使原有通讯功率再提高30%。
(腾讯工程师在不同节点服务器上的测验数据)
现在该技能已全面开源,并成功运用于腾讯混元大模型等项目的练习推理,在腾讯星脉与H20服务器构建的高功能环境中,这套计划相同展现出杰出的通用性。
更多精彩资讯请在运用商场下载“央广网”客户端。欢迎供给新闻线索,24小时报料热线400-800-0088;心境也可经过央广网“啄木鸟心境投诉渠道”线上投诉。版权声明:本文章版权归属央广网一切,未经授权不得转载。转载请联络:[email protected],不尊重原创的行为不露锋芒将追究责任。