开源第二弹!DeepSeek突破极限,颠覆级创新

2月25日,DeepSeek在“开源周”的第二日开源了DeepEP通信库。DeepSeek表示,这是第一个用于MoE(专家)模型训练和推理的开源EP通信库。

“高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA(远程直接内存访问,一种通信技术);用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU(图形处理器)资源控制,实现计算与通信重叠。”DeepSeek如此介绍DeepEP的特点。

EP即expert parallelism(专家并行),是一种在大规模分布式(shì)AI模(mó)型(xíng)训(xun)练(liàn)中(zhōng)使(shǐ)用(yòng)的(de)技(jì)术(shù),能(néng)用(yòng)于(yú)提(tí)升(shēng)模(mó)型(xíng)并(bìng)行(xíng)处(chù)理(lǐ)能(néng)力(lì)和(hé)训(xun)练(liàn)效(xiào)率(lǜ)。DeepSeek表(biǎo)示(shì),对(duì)于(yú)延(yán)迟(chí)敏(mǐn)感(gǎn)的(de)推(tuī)理(lǐ)解(jiě)码(mǎ)任(rèn)务(wu),DeepEP包(bāo)含(hán)有(yǒu)一(yī)组(zǔ)使(shǐ)用(yòng)纯(chún)RDMA的(de)低(dī)延(yán)迟(chí)内(nèi)核(hé),可(kě)以(yǐ)用(yòng)于(yú)将(jiāng)延迟最小化,DeepEP还引入一种通信与计算重叠的方法,这种方法可以不占用SM(流处理器)资源。简而言之,DeepEP也是用于提升GPU(图形处理器)利用效率的关键技术之一。

有位软件工程师激动(dòng)地(de)表(biǎo)示(shì),“DeepSeek在(zài)MoE模(mó)型(xíng)上(shàng)所(suǒ)达(dá)到(dào)的(de)优(yōu)化(huà)水(shuǐ)平(píng),令(lìng)人(rén)印(yìn)象(xiàng)深(shēn)刻(kè),因(yīn)为(wèi)MoE模(mó)型(xíng)因(yīn)其(qí)规(guī)模(mó)和(hé)复(fù)杂(zá)性(xìng)而(ér)广(guǎng)为(wèi)人(rén)知(zhī),难(nán)度(dù)非(fēi)常(cháng)大(dà)。而(ér)DeepEP能够如此精确地(de)处(chù)理(lǐ)这(zhè)些(xiē)问(wèn)题(tí),使(shǐ)用(yòng)像(xiàng)NVLink和(hé)RDMA这(zhè)样(yàng)的(de)先(xiān)进(jìn)硬(yìng)件(jiàn),并(bìng)且(qiě)支(zhī)持(chí)FP8,真(zhēn)是(shì)太(tài)牛(niú)了(le)。”


有(yǒu)网(wǎng)友(you)称(chēng),DeepSeek再(zài)次(cì)突(tū)破(pò)了(le)AI基(jī)础(chǔ)设施的极限。这种创新方法或将改变AI领域的沟通方式。从此,AI开发者也许能有效突破大规模AI模型的界限。

性能可比肩OpenAI o1的DeepSeek-R1是基于DeepSeek-V3训练出来的模型,DeepSeek-V3此前就以不大(dà)规(guī)模(mó)使(shǐ)用(yòng)最(zuì)先(xiān)进(jìn)的(de)英(yīng)伟(wěi)达(dá)GPU、低(dī)训(xun)练(liàn)预(yù)算(suàn)著(zhe)称(chēng)。为(wèi)了(le)在(zài)已(yǐ)有(yǒu)的(de)GPU上(shàng)训(xun)练(liàn)大(dà)模(mó)型(xíng),DeepSeek进(jìn)行(xíng)了(le)诸(zhū)多(duō)创(chuàng)新(xīn),以(yǐ)高(gāo)效(xiào)利(lì)用(yòng)GPU算(suàn)力(lì)。有(yǒu)学(xué)界(jiè)人(rén)士(shì)此(cǐ)前(qián)就(jiù)解(jiě)读(dú)了(le)DeepSeek-V3实(shí)现(xiàn)计(jì)算(suàn)与(yǔ)通(tōng)信(xìn)重(zhòng)叠(dié)的重要作用。

清华大学计算机系长聘教授翟季冬在解读DeepSeek的相关技术时表示,DeepSeek-V3为了训练效率提升,做了四方面的优化,包括负载均衡、通信优化、内存优化和计算优化。为此,DeepSeek团队充分挖掘了算法、软件和硬件协同创新的潜力,例如为了降低通信开销想了很多办法,包括精细化编排计算和通讯。“DeepSeek提出一种流水线并行算法DualPipe,通过精细控制分配给计算和通信的GPU SM数量,实现计算和通信完全重叠,从而提高GPU资源的利用率。期间,DeepSeek团队使用了英伟达底层的PTX语言来控制SM的使用。” 翟季冬表示。中存算半导体董事长陈巍解析DeepSeek-V3和R1训练结构的独特优势时也指出,DeepSeek设计了DualPipe算法来实现更高效的流水线并行,并通过计算与通信的重叠隐藏了大模型训练过程中的大部分通信开销。此外(wài),DeepSeek开(kāi)发(fā)了(le)跨(kuà)节(jié)点(diǎn)All-to-All通(tōng)信(xìn)内(nèi)核(hé),以(yǐ)充(chōng)分(fēn)利(lì)用(yòng)InfiniBand和(hé)NVLink带(dài)宽(kuān),对(duì)显(xiǎn)存(cún)使(shǐ)用(yòng)进(jìn)行(xíng)了(le)优(yōu)化(huà),使(shǐ)得(de)DeepSeek无(wú)需(xū)使(shǐ)用(yòng)昂(áng)贵(guì)的(de)张(zhāng)量(liàng)并(bìng)行(xíng)即(jí)可(kě)训(xun)练(liàn)DeepSeek-V3。就(jiù)开(kāi)源(yuán)DeepEP通(tōng)信库的影响询问DeepSeek后,它的回答是,DeepEP能显著提升MoE模型的训练和(hé)推(tuī)理(lǐ)效(xiào)率(lǜ),显(xiǎn)著(zhe)降(jiàng)低(dī)计(jì)算(suàn)资(zī)源(yuán)消(xiāo)耗(hào),开(kāi)源(yuán)DeepEP有(yǒu)助(zhù)于(yú)降(jiàng)低(dī)AI技(jì)术(shù)的(de)开(kāi)发(fā)成(chéng)本(běn),且(qiě)有(yǒu)助(zhù)于(yú)减(jiǎn)少(shǎo)重(zhòng)发(fā)开(kāi)发(fā)。

DeepSeek此(cǐ)前宣布,本周会陆续开源(yuán)5个(gè)代(dài)码(mǎ)库(kù)。加(jiā)上2月24日开源的代码库FlashMLA,DeepSeek已开源了2个代码库,接下来还有3个代码库待开源。

更多资讯内容!欢迎关注大数据官方微信()