全部标签

Flash

FlashMLA – DeepSeek 开源的高效 MLA 解码内核，专为Hopper 架构 GPU 设计

FlashMLA项目简介 FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA（Multi-Head Linear Attention）解码内核，专为处理可变长度序列设计。通过优化 KV 缓存机制和采用 BF16 数据格式，提升了内存和计算效率。在 H800 SXM5 GPU 上，FlashMLA 的内存带宽可达 3000 GB/s，计算…
工具测评
- 0
- 0
AI逻界6月20日