正文内容 评论(0

DeepSeek推出NSA:快速进行长上下文训练和推理
2025-02-18 18:00:27  出处:快科技 作者:鹿角 编辑:鹿角     评论(0)点击可以复制本篇文章的标题和链接对文章内容进行纠错

快科技2月18日消息,据报道,DeepSeek团队在其新发表的论文中介绍了NSA(Native Sparse Attention),这是一种创新的稀疏注意力机制,该机制专为与现代硬件高度协同且支持本机训练而设计,旨在实现超高速的长上下文训练与推理过程。

NSA通过一系列针对现代硬件特性的优化设计,不仅显著提升了推理速度,还有效降低了预训练成本,同时确保了模型性能的丝毫不减。

DeepSeek推出NSA:快速进行长上下文训练和推理

据官方介绍,NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异,与完全注意力模型相比表现相当甚至更佳。

据悉,DeepSeek设计了一种分层的稀疏策略,将注意力分为三个分支:压缩(compression)、选择(selection)和滑动窗口(sliding window),以便同时捕捉全局上下文和局部精细信息。

NSA不仅在算法上实现了稀疏注意力的高效建模,还通过硬件对齐的设计,优化了内存访问和计算调度,使得模型在处理长文本时能够大幅减少计算延迟和资源消耗。

论文地址:https://arxiv.org/pdf/2502.11089v1

DeepSeek推出NSA:快速进行长上下文训练和推理

【本文结束】如需转载请务必注明出处:快科技

责任编辑:鹿角

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#DeepSeek#NSA#推理

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...