当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布稀疏注意力技术降低AI推理成本

2周前 (10-09)Deepseek最新资讯91

  为什么ChatGPT在长对话中会变慢?原因在于一个基础数学挑战:处理长文本序列需要巨大的计算资源,即使已经部署了效率优化技巧。虽然美国科技巨头可以投入更多硬件来解决这个问题,但受到出口限制无法稳定获得先进AI芯片的中国AI公司深度求索(DeepSeek),有着更强的动机从更少的硅芯片中榨取更多性能。

  周一,深度求索发布了其最新模拟推理大语言模型的实验版本DeepSeek-V3.2-Exp,引入了被称为DeepSeek稀疏注意力(DSA)的技术。这是该公司对一项可能已在世界上一些最知名AI模型中使用的计算技术的实现。OpenAI在2019年首创了稀疏Transformer,并使用这项技术构建了GPT-3,而谷歌研究院在2020年发表了使用类似概念的Reformer模型研究。(西方AI公司目前在其最新模型中使用稀疏注意力的全部程度仍未公开。)

  尽管稀疏注意力多年来一直是已知的方法,但深度求索声称其版本首次实现了细粒度稀疏注意力,并将API价格降低了50%以展示效率提升。但要更好地理解DeepSeek v3.2的显著之处,有必要回顾一下AI发展历史。

  深度求索在1月份引起轰动,其R1模拟推理模型据报道在仅花费600万美元训练成本的情况下达到了OpenAI的o1性能水平,其聊天应用一度登顶iPhone应用商店榜首,超越了ChatGPT。所有目光都聚焦在这家让美国顶尖AI实验室感受到竞争压力的公司身上。

  在AI中,注意力是指一种软件技术,用于确定文本中哪些词语与理解彼此最相关。这些关系映射出上下文,而上下文构建了语言的含义。例如,在句子银行提高了利率中,注意力帮助模型确定银行在金融语境中与利率相关,而非河岸语境。通过注意力,概念关系被量化为存储在神经网络中的数字。注意力还控制着AI大语言模型在生成回应的每个词时如何选择最重要的信息。

  用机器计算上下文很复杂,直到GPU等能够并行计算这些关系的芯片达到一定能力水平后,才在规模化应用中变得实用。即便如此,2017年的原始Transformer架构以一种暴力破解的方式检查提示词中每个词与其他所有词的关系。因此,如果向AI模型输入1000个词的提示,就会产生1000×1000次比较,即需要计算100万个关系。对于10000个词,这变成了1亿个关系。成本呈二次方增长,这为处理长对话创造了根本性瓶颈。

  尽管OpenAI可能在GPT-5中使用了某些稀疏注意力技术,但长对话仍然会遭受性能损失。每次向ChatGPT提交新回应时,其核心的AI模型都会重新处理整个对话历史的上下文比较。

  当然,原始Transformer模型的研究者将其设计用于相对较短序列的机器翻译(可能几百个Token,Token是代表词语的数据块),在这种情况下二次方注意力是可管理的。当人们开始扩展到数千或数万个Token时,二次方成本变得令人望而却步。

  稀疏注意力的工作方式不同。它不是检查每个词与每个词的关系,而是只检查模型确定最相关的词关系子集。例如,在处理文档中第5000个词时,模型可能只检查其与100个精心选择的早期词语的关系,而不是所有4999个前面的词语。

  深度求索的模型通过训练获得了确定哪些关系优先的能力,使用被深度求索称为闪电索引器的技术。如深度求索关于新模型的论文所述,这个小型神经网络组件对词对之间的相关性进行评分,并为每个词选择前2048个最重要的连接,尽管论文没有完全解释这个索引器如何做出决策deepseek。深度求索声称其实现可以识别哪些连接可以跳过,而不会降低模型对整体文本的理解。

  DeepSeek-V3.2-Exp建立在该公司之前的V3.1-Terminus模型基础上,但融入了DeepSeek稀疏注意力。根据该公司的基准测试,实验模型即使在使用稀疏注意力的情况下,性能也与其前身相当。

  值得注意的是,与OpenAI和Anthropic的高端AI模型不同,该版本包含在MIT许可证下的开源组件和开放权重,允许其他研究者在此基础上构建工作。

  TechCrunch报道称,深度求索的初步测试发现,在长上下文情况下,API成本可以减少多达一半。然而,这些基准测试来自深度求索的自己测试,第三方研究者还没有时间独立验证性能声明或验证效率改进。但如果研究结果得到证实,稀疏注意力技术的改进可能会随着时间推移大幅降低AI推理成本。

  A:DeepSeek稀疏注意力(DSA)是一种计算技术,不同于传统方法检查每个词与每个词的关系,它只检查模型确定最相关的词关系子集。通过闪电索引器组件为每个词选择前2048个最重要的连接,从而大幅减少计算量。

  A:原因在于传统Transformer架构采用二次方注意力机制,需要检查每个词与其他所有词的关系。1000个词需要100万次比较,10000个词需要1亿次比较,成本呈二次方增长,创造了处理长对话的根本性瓶颈。

  A:根据深度求索的初步测试,在长上下文情况下API成本可以减少多达50%。该公司已将API价格降低50%来展示效率提升,不过这些基准测试来自深度求索自己的测试,还需要第三方研究者独立验证。原文出处:DeepSeek发布稀疏注意力技术降低AI推理成本,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布稀疏注意力技术降低AI推理成本” 的相关文章

年轻人与DeepSeek聊杂技丨吴桥人是不是有杂技DNA?

年轻人与DeepSeek聊杂技丨吴桥人是不是有杂技DNA?

  长城网·冀云客户端讯(孙欣宇)随着第二十届中国吴桥国际杂技艺术节的脚步越来越近,吴桥再度成为世界瞩目的焦点。吴桥杂技历史悠久,村村都有杂技艺人,素有“上至九十九,下到刚会走,吴桥耍杂技...

[流言板]硬核回归!45岁中国乒坛名将加盟波兰俱乐部,出战欧冠联赛

[流言板]硬核回归!45岁中国乒坛名将加盟波兰俱乐部,出战欧冠联赛

  虎扑07月31日讯 近日,45岁中国乒坛名将侯英超加盟波兰Dekorglass俱乐部,将出战新赛季欧冠联赛。   这位曾两夺全锦赛男单冠军(2000年、2019年)的...

Deepseek推荐全国旅游百强区第38名:江苏常州市武进区

Deepseek推荐全国旅游百强区第38名:江苏常州市武进区

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

DeepSeek预测:切尔西VS富勒姆!蓝军火力全开,内托领衔冲击三连胜!

DeepSeek预测:切尔西VS富勒姆!蓝军火力全开,内托领衔冲击三连胜!

  英超第3轮焦点战即将在斯坦福桥打响!切尔西目前以4分排名第4,而富勒姆2轮平局积2分位列第13。蓝军上轮5-1血洗西汉姆联展现恐怖火力(场均进球2.5),而富勒姆两场1-1暴露锋无力(...

【新思想引领新征程】文化的力量——习近平文化思想在浙江的溯源与实践

【新思想引领新征程】文化的力量——习近平文化思想在浙江的溯源与实践

  习近平总书记高度重视文化建设,早在二十多年前,他在浙江工作时对文化就有着深刻的思考与实践,他将“加快建设文化大省”列为“八八战略”重要内容,部署实施了文化大省建设“八项工程”,为浙江文...

华鑫证券-电子行业周报:DeepSeek正式发布新模型V3.1,英伟达暂停H20

华鑫证券-电子行业周报:DeepSeek正式发布新模型V3.1,英伟达暂停H20

  8月18日-8月22日当周,申万一级行业涨跌呈上涨的态势。其中电子行业上涨8.95%,位列第2位。估值前三的行业为计算机、国防军工、电子,电子行业市盈率为66.66。电子行业细分板块比...