当前位置:首页 > DeepSeek技术交流 > 正文内容

腾讯与DeepSeek合作背后:一场中国开发者开源的胜利

2个月前 (05-14)DeepSeek技术交流194

几乎在马化腾与梁文锋同框引起关注的同时,DeepSeek与腾讯悄悄进行了一次技术合作。用腾讯工程师的话来说,此次合作的成果,相当于实现了AI落地“最后一公里”的突破。

近日,DeepSeek工程师在Github首页透露了此次合作细节。这名工程师表示,腾讯团队的代码贡献,让DeepEP实现了““huge speedup”般的性能提升。这一次提升,也直接影响到每一位使用DeepSeek的用户。

为此,界面新闻独家采访了腾讯混元大模型背后的星脉网络团队,还原了此次合作背后的故事。

此次技术交流最早要追溯到今年2月。当时,DeepSeek宣布开源五个核心代码库,以全透明的方式公开其如何用1/5的硬件资源实现传统万卡集群效能的核心技术,使得更多开发者能够以低成本复现高性能AI训练方案,成为中国大模型开源生态的一个里程碑。

其中一个被开源的代码库名为DeepEP。这是一个专门为MoE模型训练和推理打造的通信库,旨在解决阻碍MoE架构可扩展性的关键瓶颈,重点是优化通信、减少延迟和提高GPU资源利用率。

MoE架构以其对模型训练及推理成本的极大优化能力而著称,正是为GPT-4、DeepSeek等超大参数模型而生。24年初,腾讯自研的混元大模型,也在国内率先采用了MoE架构。过去MoE架构的大模型训练都需要依赖成本高昂的英伟达NCCL通信库,而DeepEP的出现则让它们摆脱了这种依赖。

但DeepEP并不是万能的,它有“富贵病”:在成本较高的InfiniBand(IB)专用网络中如鱼得水,却难以适配更普适的RoCE(基于以太网)。而中国互联网厂商采用的大多都是RoCE网络,因此多数企业在部署DeepEP时都发现了网络性能不佳的问题。

网络性能不佳带来的影响是显著的。腾讯星脉网络团队首席架构师夏寅贲博士解释道,大模型的训练和推理需要大量GPU,背后是极高的成本。网络表现不佳会导致训练或推理过程中通信时间过长,相当于GPU在等待通信,浪费了昂贵的GPU资源,同时也造成了用户在屏幕前的长时间等待。

每家互联网厂商都在部署DeepEP,为什么最先解决问题的是腾讯?夏寅贲博士认为,一个重要的前提是,得益于QQ、微信、游戏、腾讯云等高并发业务的需求,腾讯在过去十几年间实现了网络通信软硬件的全面自研,也积累了丰富的实战经验。

2022年,腾讯发现针对AI场景的网络需求与传统的数据中心业务存在极大差异,因此开始设计针对AI大模型的专用网络,即星脉网络,旨在为腾讯混元大模型搭建高性能网络底座。

腾讯开始着手解决DeepEP在RoCE网络性能不佳的问题。基于新一代自研TRMT(Tencent Remote Memory Transport)通信库,腾讯星脉网络团队结合在RoCEv2网络协议栈与双端口网卡架构的研究经验,对DeepEP进行了优化和增强:

一方面,利用流量预规划技术来最大化双端口网卡的带宽利用率,另一方面,使GPU绕过CPU的控制,由GPU直控RDMA(远程直接内存访问)通信来消除控制面开销,将通信时延降低至硬件极限。最终,实现了DeepEP在RoCEv2网络性能提升100%、IB网络性能提升30%。

“在训练场景中,性能提升10%意味着成本可以下降10%,而在推理任务当中,除了成本下降,用户等待的时间也可以减少10%。也就是说,过去问DeepSeek一个问题,过去要十秒钟才能得到答案,现在平均可以下降到九秒。当然,我们还会继续努力缩短这个时间。”腾讯星脉网络团队通信库架构师黄晓洁表示。

AI网络按照传输协议的不同可分为两类:IB网络和RoCE网络。其中IB网络专为高性能计算和AI训练而生,以低延迟著称。但由于英伟达几乎垄断了IB网络的核心硬件,生态封闭且成本较高。考虑到供应“卡脖子”风险,腾讯星脉网络一开始就选择了基于以太网的RoCE网络部署,并自研了适应新型AI业务需求的通信库TCCL,并进一步演进到新一代TRMT通信库。

腾讯星脉网络团队通信库架构师陈明卓提到,腾讯与DeepSeek团队一直存在紧密的技术沟通,其中也包括对未来技术的演进。总的来说,AI网络最核心的诉求是无限降低通信占比,也就是降低GPU等待通信的时间。

过去处理通信问题的一直是CPU,但效率太慢。腾讯的核心解决思路是,把多个GPU组合成一个超级GPU,使得它们彼此之间互相访问数据的能力变得更强,逐渐替代CPU参与的场景。这也是国产GPU算力相对较低的背景下,提升AI网络性能的一种主流解决方案。

目前,上述技术成果都已经全面开源至DeepEP社区,并应用于腾讯混元大模型等项目的训练推理,这一成果也得到了来自国内其他头部互联网厂商的交流和建议。

腾讯是DeepSeek开源的受益者。马化腾曾在一季度的腾讯业绩会上提及DeepSeek对腾讯的影响:“我们特别敬佩市场上出现了一家真正开源、且非常自由的一款产品,而且中国工程师在成本和效率方面的优势也非常明显。腾讯经过了慎重思考,不仅是云业务接入了DeepSeek,元宝也选择了积极拥抱。”

同时,腾讯也是全球开源社区的主要贡献者之一。事实上,无论是普世价值上的技术民主化,还是增强产业信任度,对任何一家AI技术革命的参与者来说,开源都是极为重要的一环,也是聚合开发者生态的战略选择。



“腾讯与DeepSeek合作背后:一场中国开发者开源的胜利” 的相关文章

腾讯元宝发布电脑版,“DeepSeek+混元”双模型全面支持多端协同

腾讯元宝发布电脑版,“DeepSeek+混元”双模型全面支持多端协同

聚焦工作学习的电脑版元宝来了。3月1日,腾讯AI助手“腾讯元宝”正式发布电脑版,支持Windows和macOS系统。此次发布的腾讯元宝电脑版面向工作和学习场景打造,旨在帮助用户减轻负担、提升效率。除具...

DeepSeek带动对冲基金快速涌入中国股市

DeepSeek带动对冲基金快速涌入中国股市

据彭博社16日报道,中国人工智能公司DeepSeek的技术突破,正促使股票资金从印度回流到中国。彭博社称,随着DeepSeek推动中国科技行业形势看涨,以及中国将出台更多利好经济措施的预期,全球对冲基...

这场科技盛会将启幕,为何DeepSeek让业内兴奋又“焦虑”

这场科技盛会将启幕,为何DeepSeek让业内兴奋又“焦虑”

“这次DeepSeek横空出世,让AI从业者既兴奋又‘焦虑’。”上海库帕思科技有限公司CEO黄海清认为,DeepSeek最核心的点在于技术创新,为中国大模型公司和产业的发展提供了一个较好的“换道超车”...

益佰制药接入DeepSeek大模型在人工智能技术应用领域的积极探索与显著成效

益佰制药接入DeepSeek大模型在人工智能技术应用领域的积极探索与显著成效

益佰制药(股票代码:600594.SH)近日在投资者互动平台上积极回应市场关切,详细阐述了公司在人工智能技术应用领域的最新进展。据公司透露,益佰制药已成功通过云部署以及API(应用程序编程接口)的形式...

文心一言:Deepseek在金融证券行业应用有哪些?

文心一言:Deepseek在金融证券行业应用有哪些?

文心一言:Deepseek在金融证券行业应用有哪些?DeepSeek在金融证券行业的应用十分广泛,主要体现在以下几个方面:一、风险管理与信用评估企业信贷风险分析:整合企业财报、舆情数据、供应链关系等信...

人工智能赋能职业教育,北京八维集团引入DeepSeek

人工智能赋能职业教育,北京八维集团引入DeepSeek

在科技飞速发展的当下,人工智能(AI)已成为推动各行业变革的核心力量,职业教育领域自然也不例外。北京八维集团作为职业教育的领军者,敏锐洞察到人工智能带来的巨大机遇,近日正式引入先进的大语言模型 Dee...