DeepSeek第二炸!玩游戏愁MoE模型训练?来看这个开源通信库!

3 0

DeepSeek第二炸!玩游戏愁MoE模型训练?来看这个开源通信库!

深度探索开源周:DeepEP通信库亮相 在DeepSeek的“开源周”活动中,今日迎来了第二个精彩篇章。今天,我们迎来了首个开源的MoE模型训练与推理专用通信库——DeepEP。 DeepEP通信库亮点 官方透露,DeepEP通信库具有以下显著特点: - 高效全到全通信:采用高效的全到全通信方式,确保数据传输的快速与稳定。 - 兼容性技术支持:支持节点内外通信,兼容NVLink和RDMA技术,满足不同场景的需求。 - 高吞吐量内核:提供高吞吐量的内核,显著提升训练和推理阶段的填充效率。 - 低延迟内核:配备低延迟内核,优化推理解码速度,满足对延迟敏感的应用需求。 - FP8数据格式支持:完全支持FP8数据格式,满足低精度计算的需求。 - 灵活的GPU资源管理:提供灵活的GPU资源管理,支持计算与通信的重叠执行。 深度探索MoE与EP模型 DeepEP是一款专为混合专家(MoE)和专家并行(EP)设计的通信库。它提供了高吞吐量和低延迟的all-to-all GPU内核,常用于MoE模型的派发和合并操作。 优化内核与数据转发 为了与DeepSeek-V3论文中提出的组限制门控算法兼容,DeepEP提供了一些针对不对称带宽转发优化的内核。例如,将数据从NVLink域转发到RDMA域,以实现高吞吐量,适用于训练和推理的预填充任务,并支持SM数量控制。 低延迟内核与通信与计算重叠 对于延迟敏感型的推理解码任务,DeepEP提供了一套低延迟内核,采用纯RDMA技术以最大程度减少延迟。该库还采用了一种基于Hook的通信与计算重叠方法,不会占用任何SM资源,提高了整体效率。