DeepSeek推出NSA：快速进行长上下文训练和推理--快科技--科技改变未来

正文内容 评论（0）

DeepSeek推出NSA：快速进行长上下文训练和推理

2025-02-18 18:00:27 出处：快科技作者：鹿角编辑：鹿角评论(0)

快科技2月18日消息，据报道，DeepSeek团队在其新发表的论文中介绍了NSA（Native Sparse Attention），这是一种创新的稀疏注意力机制，该机制专为与现代硬件高度协同且支持本机训练而设计，旨在实现超高速的长上下文训练与推理过程。

NSA通过一系列针对现代硬件特性的优化设计，不仅显著提升了推理速度，还有效降低了预训练成本，同时确保了模型性能的丝毫不减。

据官方介绍，NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异，与完全注意力模型相比表现相当甚至更佳。

据悉，DeepSeek设计了一种分层的稀疏策略，将注意力分为三个分支：压缩（compression）、选择（selection）和滑动窗口（sliding window），以便同时捕捉全局上下文和局部精细信息。

NSA不仅在算法上实现了稀疏注意力的高效建模，还通过硬件对齐的设计，优化了内存访问和计算调度，使得模型在处理长文本时能够大幅减少计算延迟和资源消耗。

论文地址：https://arxiv.org/pdf/2502.11089v1

【本文结束】如需转载请务必注明出处：快科技

责任编辑：鹿角

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#DeepSeek #NSA #推理

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波