当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

7个月前 (02-26)DeepSeek技术交流496

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

DeepSeek创始人梁文锋,首登全球富豪榜

DeepSeek创始人梁文锋,首登全球富豪榜

3月27日,胡润研究院发布《2025胡润全球富豪榜》,今年40岁的DeepSeek创始人梁文锋第一次上榜,小米集团56岁的雷军成为财富增长最快的中国企业家。在AI领域,梁文锋和OpenAI 39岁的S...

概念动态|恒润股份新增“DeepSeek概念”

概念动态|恒润股份新增“DeepSeek概念”

2025年4月2日,恒润股份(603985)新增“DeepSeek概念”。据同花顺数据显示,入选理由是:2025年3月18日闰六尺微信公众号发布,公司自主研发的DeepSeek大模型一体机:"...

南威软件发布通用DeepSeek+智能体一体机系列产品,助力AI大模型价值释放

南威软件发布通用DeepSeek+智能体一体机系列产品,助力AI大模型价值释放

重磅发布|南威软件发布通用DeepSeek+智能体一体机系列产品,助力AI大模型价值释放###  2月28日,南威软件通用DeepSeek一体机系列产品发布会,通过网络直播的方式举行,累计吸引了行业内...

普通人如何逃离DeepSeek幻觉陷阱

普通人如何逃离DeepSeek幻觉陷阱

DeepSeek横空出世,我们和人工智能的关系也随之进入新时代。但对于许多人来说,与AI的蜜月期还没有结束,幻觉问题就不合时宜地来预警。近期一条“80后死亡率突破5.2%”的假新闻广为流传,据上海网络...

最新!DeepSeek在肇庆部署上线

最新!DeepSeek在肇庆部署上线

近日,从肇庆市政务服务和数据管理局获悉,国产大模型DeepSeek-R1正式在肇庆市政务云部署上线将全面支持肇庆市全域数字化转型工作目标,标志着肇庆市在人工智能产业发展中迈出了坚实的一步。近年来,肇庆...

广西企业携手DeepSeek人工智能 打造智慧水务

广西企业携手DeepSeek人工智能 打造智慧水务

在3月13日举行的“智鸿·智管家”智慧水务系统新闻发布会上,广西国宏智鸿环保科技集团股份有限公司(以下简称“智鸿环保集团”)正式发布“智慧水务系统+DeepSeek人工智能”项目。该项目将通过融合自主...