原生FP8!摩尔线程GPU闪电适配DeepSeek开源库Flash
快科技2月26日新闻,DeepSeek启动“开源周”以来,曾经连续开源了三个代码库,而作为国产GPU的代表,摩尔线程曾经疾速实现对FlashMLA、DeepGEMM的适配。摩尔线程GPU基于全新的MUSA Compute Capability 3.1盘算架构,可供给原生的FP8精度盘算才能,同时进级了高机能线性代数模板库MUTLASS,疾速支撑FlashMLA。不只如斯,摩尔线程还基于MUTLASS,在全新GPU架构上优化实现了FP8矩阵乘法,支撑DeepGEMM的响应功效。

FlashMLA是一款高效的MLA推理内核开源堆栈,能够减速MLA机制的盘算,特殊实用于DeepSeek系列模子,包含DeepSeek-V2、V3、R1。DeepGEMM是一个支撑麋集矩阵与混杂专家(MoE)矩阵乘法的FP8 GEMM库,能够为V3/R1的练习与推理供给强盛能源。这两个主要的开源堆栈,都基于高机能通用矩阵乘法(GEMM)的C++模板库停止开辟。摩尔线程基于新一代盘算架构MUSA Compute Capability 3.1的全功效GPU,具有全新的Tensor盘算引擎及数据搬运引擎,可能供给原生FP8盘算才能。进级的MUTLASS高机能线性代数模板库,支撑MUSA Compute Capability 3.1的全新特征,并供给了多少算子的优化参考实现,包含基于FlashAttention3思维实现的FlashMLA以及FP8矩阵乘算子,特殊支撑DeepSeek练习所需的Groupwise Scaling FP8矩阵乘法内核函数。得益于全新的Tensor盘算引擎,FP8盘算存在充足高的累加精度,无需额定的二次精度修改,为前沿算法的摸索打下了坚固基本。

借助MUTLASS 0.2.0,摩尔线程宣布了开源堆栈MT-FlashMLA,可能疾速对DeepSeek FlashMLA停止兼容安排。同时,摩尔线程MUTLASS供给了一个全新的参考实现,充足吸取FlashAttention3的进步算法思维,针对摩尔线程GPU计划了全新的盘算流水线。这一计划可能无效遮蔽数据搬运的耽误跟Softmax盘算的开支,充足施展摩尔线程MUSA Compute Capability 3.1全功效GPU的Tensor盘算效力。▼ MT-FlashMLA开源地点: