Block Sparse Attention window wheel
Block Sparse Attention是一种针对大型语言模型(LLM)优化的稀疏注意力机制,通过利用注意力矩阵的稀疏性显著降低计算与显存开销,从而在处理长文本时保持高效推理性能。它基于FlashAttention 2.4.2改进,支持多种稀疏模式,并允许不同注意力头使用不同模式,适配多样化的推理需求。
Block_sparse_attn 资源索引
| 序号 | block_sparse_attn | PyTorch | CUDA | Python | 文件名 | 网盘链接 |
|---|---|---|---|---|---|---|
| 1 | 0.0.2. | 2.9 | 13.0 | 3.13 | block_sparse_attn-0.0.2.post1+cu130torch2.9.1cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/2decbba4254a |
| 2 | 0.0.2. | 2.10 | 13.0 | 3.13 | block_sparse_attn-0.0.2.post1+cu130torch2.10cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/1bd19c42fbbd |
| 3 | 0.0.2. | 2.11 | 13.0 | 3.13 | block_sparse_attn-0.0.2.post1+cu130torch2.11cxx11abiTRUE-cp313-cp313-win_amd64.whl | https://pan.quark.cn/s/45fbe3804dd3 |
