当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

2个月前 (02-26)DeepSeek技术交流140

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

Deepseek回应Manus横空出世:我要展示自信,AI的目标是拓展而非取代人类

Deepseek回应Manus横空出世:我要展示自信,AI的目标是拓展而非取代人类

3月6日凌晨,全球第一款通用AI智能体Manus震撼发布,发布4小时后,其官网的访问量突破千万量级,一夜之间刷爆“科技圈”。有人认为,Manus有望成为继DeepSeek后的最大黑马。那么,DeepS...

硬件创新带来后DeepSeek时代新机遇

硬件创新带来后DeepSeek时代新机遇

春风拂面,生机盎然。3月25日,AMD中国AI应用创新联盟(北京)论坛在北京海淀中关村软件园开幕。本次论坛以“硬件创新带来后DeepSeek时代新机遇”为主题,围绕AMD 处理器新品和Windows...

海南机场接入DeepSeek大模型,加速智慧机场建设步伐

海南机场接入DeepSeek大模型,加速智慧机场建设步伐

2月23日,海南机场成功接入DeepSeek人工智能大模型,在智慧民航领域踏出创新重要一步,为其数字化转型添上关键一笔。据悉,此次接入基于私有化架构,融合企业级向量知识库技术,将核心业务数据存储于专属...

DeepSeek已经超越人类了?他第一个不服

DeepSeek已经超越人类了?他第一个不服

最近,DeepSeek的爆火让AI工具在人们心中的地位又上了一个台阶。不得不说,这届AI已经越来越能招架人类无聊且奇葩的问题了。然而,如果说AI超越人脑的道路上还有挑战者的话,兰道尔·门罗一定算一个。...

黑龙江省进行DeepSeek大模型本地化部署

黑龙江省进行DeepSeek大模型本地化部署

原标题:我省进行DeepSeek大模型本地化部署近日,黑龙江省哈尔滨数字龙江智算中心成功部署国内领先的DeepSeek大模型,此次部署标志着黑龙江省在人工智能技术自主创新与产业应用领域迈出关键一步,为...

DeepSeek 的“修炼”之路,还要闯几关?

DeepSeek 的“修炼”之路,还要闯几关?

DeepSeek 的“修炼”之路,还要闯几关?半月谈记者 张漫子以小博大、逆袭吊打,曾是修仙爽文、微短剧里让人上头却略显荒诞的剧情,而今,DeepSeek(深度求索)让它在真实世界里发生了。火爆全球超...