摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM的适配

发布时间:2025-03-01 16:03

加入阅读挑战,通过资源库完成阅读目标 #生活乐趣# #阅读乐趣# #阅读资源库#

自DeepSeek发起“开源周”活动以来,已相继开放了三个代码库。摩尔线程依托其创新的MUSA Compute Capability 3.1计算架构,不仅原生支持FP8计算,还升级了高性能线性代数模板库MUTLASS,迅速实现了对FlashMLA的支持。此外,摩尔线程在全新GPU架构上,利用MUTLASS优化实现了FP8矩阵乘法,支持DeepGEMM的相关功能,彰显了MUSA架构和全功能GPU在生态兼容与快速适配方面的显著优势。

FlashMLA是一个高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,专用于加速MLA机制的计算,特别适合DeepSeek系列模型(如DeepSeek-V2、V3和R1)。而DeepGEMM则是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为V3/R1的训练与推理提供了强大支持。这两个关键的开源仓库均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。

摩尔线程的新一代全功能GPU,基于MUSA Compute Capability 3.1计算架构,配备了全新的Tensor计算引擎及数据搬运引擎,原生支持FP8计算。升级后的MUTLASS库不仅支持MUSA Compute Capability 3.1的新特性,还提供了包括基于FlashAttention3思想实现的FlashMLA和FP8矩阵乘算子在内的多个优化参考实现,特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。得益于全新的Tensor计算引擎,FP8计算实现了高累加精度,无需额外的二次精度修正,为前沿算法的研究奠定了坚实基础。

借助MUTLASS 0.2.0,摩尔线程发布了开源仓库MT-FlashMLA,实现了对DeepSeek FlashMLA的快速兼容部署。同时,MUTLASS提供了一个全新的参考实现,吸收了FlashAttention3的先进算法思想,为摩尔线程GPU设计了全新的计算流水线。这一设计有效减少了数据搬运的延迟和Softmax计算的开销,充分发挥了MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。

▼ MT-FlashMLA开源地址:
https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址:
https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

▼ MUTLASS FP8 GEMM地址:
https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder
https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

网址:摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM的适配 https://www.yuejiaxmz.com/news/view/801109

相关内容

‎DeepSeek
宝宝树完成与 DeepSeek 深度融合 “AI+母婴”战略提速增效
宝宝树完成与 DeepSeek 深度融合 “AI+母婴”战略提速增效
探索座舱“未至之境”:英特尔支持DeepSeek车内本地运行
荣泰健康:公司产品端技术上融合了deepseek大模型将为用户带来更舒适的按摩体验
DeepSeek
海尔冰箱携手DeepSeek:智能保鲜新时代的开始
DeepSeek与人形机器人合体 刚满月的“湘江1号”完成首次智能升级
“首席炒作官”Altman “碰瓷”摩尔定律引社区不满,1400万美元广告被批“都能训练3个DeepSeek V3了!”
海尔接入DeepSeek,推动AI在家电领域的创新应用

随便看看