AI 摘要

今日,DeepSeek“开源周”活动正式启动,首个开源项目为FlashMLA,这是一款针对Hopper GPU的高效MLA解码内核。FlashMLA专为处理可变长度序列设计,已进入生产使用阶段。该内核优化了多层注意力机制,显著加速了大型语言模型(LLM)的解码,提升了模型的速度和吞吐量。在H800芯片上,FlashMLA能够实现高达3000GB/S的带宽和580 TFLOPS的算力。感兴趣的开发者可访问GitHub仓库:https://github.com/deepseek-ai/FlashMLA获取更多信息。
内容目录

DeepSeek “开源周” 今日正式开启,首个开源的代码仓库为 FlashMLA—— 针对 Hopper GPU 优化的高效 MLA 解码内核,专为处理可变长度序列而设计,目前已投入生产环境。

据介绍,FlashMLA 专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量。FlashMLA 可在 H800 芯片上实现最高 3000GB/S 的带宽和 580 TFLOPS 的算力。

GitHub 地址:https://github.com/deepseek-ai/FlashMLA

img