-
FlashMLA – DeepSeek 开源的高效 MLA 解码内核,专为Hopper 架构 GPU 设计
FlashMLA项目简介 FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA(Multi-Head Linear Attention)解码内核,专为处理可变长度序列设计。通过优化 KV 缓存机制和采用 BF16 数据格式,提升了内存和计算效率。在 H800 SXM5 GPU 上,FlashMLA 的内存带宽可达 3000 GB/s,计算…- 0
- 0