当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

8个月前 (02-26)DeepSeek技术交流594

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

中国工程院院士张亚勤:无人驾驶将迎来“DeepSeek时刻”|院士上封面

中国工程院院士张亚勤:无人驾驶将迎来“DeepSeek时刻”|院士上封面

封面新闻记者 边雪过去数十年,从沟通、消费、娱乐到生产、交通、商业往来,无不深深烙刻上数字化的印记。在中国工程院院士,清华大学智能产业研究院(AIR)院长张亚勤眼中,数字世界正逐步与物理世界、生物世界...

DeepSeek要掀数据存储的“桌子”?

DeepSeek要掀数据存储的“桌子”?

最近这几天,业界关注度最高的无疑是DeepSeek的几个开源项目,几乎每一个都会在该领域里带来一些惊喜。数据猿作为大数据领域的专业媒体,一直从数据层面来关注行业的进展。不得不说,在算法和算力层面很热闹...

新书来了 │ DeepSeek+万物=王炸,打工人效率如何翻倍?这4本书给你答案

新书来了 │ DeepSeek+万物=王炸,打工人效率如何翻倍?这4本书给你答案

2025年伊始,DeepSeek以数字笔墨掀起惊澜,也呈现了人工智能时代一个深刻的命题:当技术无限逼近人类自身能力的时候,是否会替代人类?很多话题的探讨甚至引发对社会安全稳定和伦理问题的担忧。AI看似...

引入DeepSeek模型,AI玩具爆火!有企业已定出200万只→

引入DeepSeek模型,AI玩具爆火!有企业已定出200万只→

(央视财经《天下财经》)DeepSeek带火AI消费市场,今年春节后,玩具市场正悄然掀起一股智能化的风潮,AI玩具不断涌现。我国广东地区具备完善的玩具制造产业链,覆盖从原材料采购到产品组装的各个环节。...

兆芯全系列整机形态成功部署 DeepSeek R1 大模型

兆芯全系列整机形态成功部署 DeepSeek R1 大模型

IT之家 2 月 24 日消息,上海兆芯集成电路股份有限公司今日发文宣布:近日,基于兆芯高性能通用处理器的 PC 终端、工作站以及服务器成功实现 DeepSeek-R1-Distill 模型(1.5B...

有问题AI来回答 快速之外更需精准 四川多地政务服务接入DeepSeek大模型

有问题AI来回答 快速之外更需精准 四川多地政务服务接入DeepSeek大模型

“办理退休相关手续,要准备哪些材料?”3月12日,记者走进绵阳市政务服务中心,一楼大厅内一块电子屏上的数字人“绵宝”吸引不少办事群众驻足。一名群众提问后,接入DeepSeek大模型不久的“绵宝”,思索...