搜索：Dynamic Sparse Attention

新型“动态稀疏注意力”（DSA）算法通过可微分稀疏掩码动态聚焦关键信息，将长序列推理计算开销降低60%以上，显存占用仅27%，推理速度提升4.3倍，且准确率下降不足0.5个百分点。其硬件友好的稀疏模式使云端延迟降低3-5倍，并可适配边缘设备，有望成为下一代大模型的标准组件。

2026-05-14 0 阅读

搜索："Dynamic Sparse Attention"