安谋科技下代“周易”NPU成功部署DeepSeek-R1：速度高达40 tokens/s--快科技--科技改变未来

正文内容 评论（0）

安谋科技下代“周易”NPU成功部署DeepSeek-R1：速度高达40 tokens/s

2025-02-14 12:56:16 出处：快科技作者：上方文Q 编辑：上方文Q 评论(0)

#安谋科技 #Arm

快科技2月14日消息，安谋科技宣布，搭载新一代“周易”NPU处理器的硬件平台，已经成功在端侧部署并运行DeepSeek-R1系列模型，而且性能卓越、成本优异。

新款“周易”NPU采用专为AI大模型特性优化的架构设计，Beta测试版本已在2024年底向早期用户开放评估测试，预计今年上半年正式发布亮相。

DeepSeek-R1 1.5B、7B蒸馏版本推出后，安谋科技新一代“周易”NPU在很短的时间内，就在Emulation平台上完成了部署与优化，并在FPGA平台上成功实现了端到端应用的演示。

测试显示，在标准单批次输入、上下文长度为1024的测试环境中，新款“周易”NPU在首字计算阶段的算力利用率突破40％，解码阶段的有效带宽利用率超过80％。

带宽利用率呈现高线性特性，能够灵活适配16GB/s至256GB/s的系统带宽需求。

7B版本、1024上下文长度的场景下，保障模型应用精度的同时，新款“周易”NPU的最高处理速度可达每秒40 tokens，并支持动态长度的模型推理输入。

安谋科技下代“周易”NPU成功部署DeepSeek-R1：速度高达40 tokens/s

这也展现了安谋科技软件栈对大模型的成熟支持、深度优化，包括动态推理优化和硬件算力潜力的挖掘，从而显著提升推理速度和吞吐量。

目前，软件栈已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多种主流大模型，并提供与Hugging Face模型库的对接工具链，方便直接部署主流模型。

硬件层面，新一代“周易”NPU采用7nm工艺制造，单Cluster算力最高可达80 TOPS(每秒80万亿次计算)，能够轻松应对超过16K上下文长度的大模型部署需求，同时对外带宽提高至256GB/s，解决大模型计算的带宽瓶颈问题。

它还全面支持FP16数据精度计算，完整支持INT4软硬量化加速，还支持多核算力扩展，满足端侧模型的低首字延迟需求。

它还具备强大的多任务并行处理能力，通过细粒度的任务调度和优先级资源分配，实现多任务灵活切换，确保传统语音、视觉业务、大模型应用的高效协同。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：上方文Q

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#安谋科技 #Arm #NPU #DeepSeek

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波