当前位置:首页 > Deepseek应用场景 > 正文内容

AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!

3个月前 (05-01)Deepseek应用场景277

就在所有人都在期待DeepSeek官宣R2大模型之际,公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。

4月30日,DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。

DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,参数高达6710亿,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。

模型使用了更高效的safetensors文件格式,同时支持BF16、FP8、F32等多种计算精度,这使得模型可以更快、更省资源地进行训练和部署。据OSCHINA分析,该模型分为163个分片,每个分片大小约为4.3GB,充分证明了其规模之庞大。

值得注意的是,3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级,代码能力获得相比显著增强。

数学AI的重磅升级:DeepSeek再开源6710亿参数模型

从技术层面来看,DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。更令人惊叹的是,其最大位置嵌入达到了16.38万,这意味着它能够处理极其复杂的数学证明问题。

DeepSeek-Prover是DeepSeek团队开发的一系列专注于数学定理证明的开源大语言模型,通过大规模合成数据训练并结合强化学习(RL)与蒙特卡洛树搜索(MCTS)等优化技术,在形式化定理证明领域取得了显著进展。

DeepSeek-Prover通过创新的训练框架与高效的推理策略,在形式化数学证明领域树立了新标杆。其结合合成数据、强化学习与树搜索的技术路径,不仅提升了模型性能,也为AI在严谨数学推理中的应用开辟了新方向。

OSCHINA分析称,新模型具有以下特点:

模型规模巨大:参数量约为 671B(6710 亿参数),这从模型分片数量(163 个)和每个分片大小(约 4.3GB)可以看出

使用了 DeepSeek-V3 的架构:采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层

专为数学定理证明优化:从名称 "Prover"(证明者)可以看出,这是一个专注于数学推理和定理证明的专业模型

支持超长上下文:最大位置嵌入达 163840,使其能处理复杂的数学证明

采用 FP8 量化:通过量化技术减小模型大小,提高推理效率

DeepSeekR2 还会远吗?

DeepSeek创始人梁文锋曾表示:“中国也要逐步成为创新贡献者,而不是一直搭便车。” 他将探索通用人工智能的本质作为核心使命。

根据《中国企业家》的报道,DeepSeek创始人梁文锋带领的AI团队一直保持着与国际巨头同步的产品迭代节奏——2024年9月推出V2.5版本,12月发布V3基础架构,次年3月升级至V3-0324版本,形成每季度重大更新的开发范式。

值得注意的是,3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级,代码能力获得显著增强。

如此稳健而高效的产品迭代节奏,不禁让人思考:传言已久的DeepSeek R2大模型还会远吗?这款新的数学模型是否只是DeepSeek即将发布更大规模通用模型的前奏?

在社交平台X上,有网友表示:

“R2 指日可待......”

“昨天 Qwen 3,今天 DeepSeek Prover V2...”

还有测评称,在实际效果上,“在高中数学题测试中,成功率从 50% 提高到了 63.5%。”

“V1.5还只是参数只有7B的小模型,这次直接升到大模型。”

“中国的 AI 初创公司永远不会让人失望!他们真的在改变整个游戏规则!”

“中国最近正在将一些功夫应用于 AI”

“这是个令人兴奋的消息!”


“AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!” 的相关文章

DeepSeek爆火,最应该关注的十大走向

DeepSeek爆火,最应该关注的十大走向

作 者丨孔海丽、赵云帆编 辑丨朱益民DeepSeek火成了现象级,中国公司在全球AI竞技场投下一枚"算法裂变弹"。当硅谷巨头们仍在算力军备竞赛中重兵鏖战,中国工程师用"更...

李彦宏:DeepSeek等模型存在模态单一、幻觉高、速度慢和价格贵等问题

李彦宏:DeepSeek等模型存在模态单一、幻觉高、速度慢和价格贵等问题

在4月25日的百度Create开发者大会现场,百度创始人李彦宏正式发布文心大模型4.5 Turbo和文心大模型X1 Turbo,具备多模态、强推理、低成本三大特性。他表示,Deepseek等模型,仍然...

患者带着DeepSeek来看病,医学博主自嘲“天塌了”

患者带着DeepSeek来看病,医学博主自嘲“天塌了”

“天都塌了!病人DeepSeek后质疑我的治疗方案,气得我自己又查了一遍指南,才发现指南更新了……”2月22日,广东一位医学博主“孤芳自赏”的帖子,引发网友热议。评论区中,不少网友都表示遭遇过类似情况...

当DeepSeek链接杨浦高中的创新实验室,“指数级”变化让人惊叹

当DeepSeek链接杨浦高中的创新实验室,“指数级”变化让人惊叹

“飞机飞行的原理是什么?”在同济大学第一附属中学高一年级“创意飞行器”的课堂上,学生桑田雨用Pad提出问题,立刻收到了即时的回复:“飞机飞行的原理主要基于四个力的相互作用:升力、重力、推力和阻力。这些...

青岛AI企业积极“接入”DeepSeek 提升自家行业模型能力

青岛AI企业积极“接入”DeepSeek 提升自家行业模型能力

原标题:青岛AI企业如何高效拥抱DeepSeek青岛日报/观海新闻记者 孙 欣 周晓峰 杨 光美国当地时间2月17日晚间,马斯克旗下人工智能公司xAI发布了最新人工智能模型Grok 3。在这场直播发布...

山东移动DeepSeek高教共创沙龙成功举办

山东移动DeepSeek高教共创沙龙成功举办

在科技飞速发展的当下,人工智能技术正以前所未有的速度重塑高等教育发展格局。为深入探索人工智能与高等教育的融合创新路径,3月27日,山东移动携手华为在青岛举办以“创新驱动 智领未来”为主题的DeepSe...