当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布开源周首个成果 可优化英伟达GPU效率

8个月前 (02-24)Deepseek最新资讯418

新京报贝壳财经讯(记者罗亦丹)北京时间2月24日上午,DeepSeek发布了其“开源周”的第一项成果:FlashMLA(直译为快速多头潜在注意力机制)的代码。


据了解,MLA(多头潜在注意力机制)正是DeepSeek降低大模型成本使用的关键技术之一,其可以显著减少大模型训练和推理过程中的内存占用,而FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,其针对可变长度序列进行了优化,目前已投入了生产,其可以使得H800达到3000GB/s内存,实现580TFLOPS(每秒浮点运算次数)计算性能。


贝壳财经记者注意到,根据此前DeepSeek发布V3大模型时公开的技术文档,该大模型正是使用英伟达的H800芯片训练而成。


上海骊翰科技咨询有限公司发文称,FlashMLA能在不损失模型性能的前提下,将缓存体积压缩至原来的1/4,从而大幅降低显存需求。例如,原始需要存储的100GB中间结果,压缩后仅需25GB,通过开源让企业可以直接使用FlashMLA来优化自家模型。随着FlashMLA的普及,AI推理有望进入千元级硬件跑百亿模型的时代。


“DeepSeek发布开源周首个成果 可优化英伟达GPU效率” 的相关文章

科蓝软件:公司已将DeepSeek-R1模型整合至公司的人工智能应用平台-魔聚平台

科蓝软件:公司已将DeepSeek-R1模型整合至公司的人工智能应用平台-魔聚平台

每经AI快讯,有投资者在投资者互动平台提问:请问董秘,公司是否接qudeepseek,有没有接入的计划。科蓝软件(300663.SZ)3月5日在投资者互动平台表示,公司已成功将DeepSeek-R1...

DeepSeek全攻略:入门到精通附讲解视频本地电脑部署教程

DeepSeek全攻略:入门到精通附讲解视频本地电脑部署教程

【好课推荐】DeepSeek全攻略:入门到精通附讲解视频本地电脑部署教程 在当今数字化时代,人工智能技术飞速发展,深度学习更是成为了热门领域。DeepSeek作为一款强大的工具,为深度学习爱...

AI成年报高频词,DeepSeek赋能中小金融机构智能化潮起

AI成年报高频词,DeepSeek赋能中小金融机构智能化潮起

近日,多家A股上市金融机构发布2024年度报告。《华夏时报》记者注意到,AI(人工智能)成年报高频词。多家大型金融机构在年报或业绩发布会上披露了大模型的应用进展,并表示将继续积极探索AI在金融领域的数...

DeepSeek工业应用趋势与前瞻布局

DeepSeek工业应用趋势与前瞻布局

DeepSeek作为新一代工业大模型,其核心创新源于底层架构的颠覆性优化,具体体现在以下五大维度:1.注意力机制的高效化传统Transformer模型在工业场景中面临的核心挑战在于自注意力机制的计算复...

国产显卡宣布支持满血版DeepSeek-V3-0324 零报错 无兼容性问题

国产显卡宣布支持满血版DeepSeek-V3-0324 零报错 无兼容性问题

前几天DeepSeek宣布其V3模型已完成小版本迭代,新版本命名为DeepSeek-V3-0324。紧接着,摩尔线程迅速行动,成功实现对这一新版本的无缝适配,展现了国产全功能GPU在推动AI大模型产业...

南网储能:公司已私有化部署DeepSeek-R1模型

南网储能:公司已私有化部署DeepSeek-R1模型

每经AI快讯,有投资者在投资者互动平台提问:董秘您好,公司官微发布‘储能LCDP’助推南网储能多业务领域数字化转型,未来是否会考虑与deepseek合作,进一步完善数字化转型?南网储能(600995....