当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审

2个月前 (09-18)Deepseek最新资讯194

  发表 Editorial 文章称,DeepSeek R1 是首个通过权威学术期刊同行评审的大语言模型,并称此举“意义重大”,是朝着透明度和可重复性迈出的可喜一步。

  他们写道:“依靠独立研究人员进行同行评审,是应对 AI 行业炒作的一种方式deepseek。鉴于 AI 已经无处不在,未经验证的言论对社会构成了真正的风险。因此,我们希望更多 AI 公司能够效仿。”

  我们熟悉的 ChatGPT、Gemini、Claude、Grok 等主流大模型,他们背后的科技公司通常采用一套不同于学术界的成果发布方式:开直播,在预印本网站arXiv和官方技术博客上发布突破性成果,同时在基准测试排行榜上拿下高分,最后宣布自己具有领先对手的技术优势。

  实际上,这篇关于 DeepSeek-R1 的论文早在今年 1 月就以预印本的形式发表在arXiv上。

  Nature介绍,不同于预印本,权威期刊的同行评审并非单向信息流,而是外部专家可以在由独立第三方(编辑)监督和管理的协作流程中提出问题并请求更多信息。

  在正式发表前,论文通过了 8 名评审的审查,并在他们的反馈下修改、完善、补充了许多重要的技术内容。论文的清晰度、可信度和完整度都得到了进一步提高。

  通常来说,提升大语言模型推理能力有两种主要途径:一是在预训练阶段通过大规模计算资源实现,二是通过思维链(CoT,Chain-of-Thought)等提示技术,利用设计好的样本示例或“让我们一步步思考”这样的提示词来引导模型产生中间推理步骤。

  该方法以纯粹的强化学习(RL,Reinforcement Learning)为核心,显著区别于传统训练范式,摆脱了对人工标注推理轨迹的依赖。

  他们的核心思路是,完全跳过监督微调,只用强化学习优化最终结果的正确性,让模型在无任何人工示范的环境中自发演化推理策略。

  DeepSeek 团队选择了 DeepSeek-V3-Base 作为基础模型,并采用群体相对策略优化(GRPO,Group Relative Policy Optimization)作为强化学习框架。训练过程中,仅对模型最终答案的正确性进行奖励,不对推理过程进行显式约束。

  群体相对策略优化算法可以降低计算开销。其核心思想是:对于每个输入问题,先使用旧策略采样一组响应,然后对这组响应评估奖励(通常是回答正确与否)。基于这组奖励计算优势函数,并对策略参数进行梯度更新。

  换言之,GRPO 为每个问题形成一个奖励群组,通过提升高评分答案的出现概率来优化模型。相比普通策略梯度算法,群体相对策略优化不需要单独训练一个同等规模的评估器,而是直接利用结果集的平均或中位数等统计量作为基线。

  在解决推理问题时,由此诞生的 DeepSeek-R1-Zero 倾向于生成更长的回答,在每个回答中融入验证、反思和探索替代方案的过程。尽管研究人员并未明确告诉模型何为推理,也没有任何监督微调(SFT,Supervised Fine-Tuning)作为初始步骤,但模型仍然成功学会了推理策略。

  在某个时刻,DeepSeek-R1-Zero 突然增加了反思过程中“等一下”的使用频率,似乎出现了自我进化。

  同时,它开始自发地在面对难题时分配更多的推理时间,生成更长的思维链,并重新评估和修正其最初的解题思路。

  不过,虽然 DeepSeek-R1-Zero 展现出了强大的推理能力,但它也存在可读性差、语言混用等问题,且在写作和开放域问答等任务上表现较差。

  为了解决这些挑战,他们开发了 DeepSeek-R1,采用了整合拒绝采样、强化学习和监督微调的多阶段学习框架,使模型既保留了推理能力,又能在非推理任务上表现出色。

  虽然前文提到不用监督微调也可以学会推理,但实践表明,加入少量冷启动数据可进一步提升迭代推理模型的效果。

  因此,在多阶段训练的初始阶段,DeepSeek 团队收集了数千个冷启动数据,展示了对话式、人类对齐的思维过程。随后应用强化学习训练,通过对话思维过程和语言一致性来改善模型性能。

  接下来他们使用了拒绝采样和监督微调,将推理和非推理数据集纳入监督微调过程,使模型掌握了不错的写作能力。

  为了进一步使模型与人类偏好保持一致,他们还采用了第二阶段强化学习,提高模型的可用性和无害性,同时继续完善其推理能力。

  最后,我们看到发表在Nature上的论文比预印本包含更多的技术细节和内容,这离不开同行评审的贡献。

  例如评审指出,群体相对策略优化对于 DeepSeek 的创新方法十分重要,应该更详细地描述该算法;使用未受推理轨迹数据污染的基础模型进行实验,可以让实验结果更令人信服;论文中关于模型安全的描述过于宽泛、绝对,应当进行更多的安全评估且用词更加严谨。

  针对这些问题,DeepSeek 做出了详细回应,包括新增多个附录内容、利用未受推理影响的 Qwen2-7B 进行实验等等。

  可以说,DeepSeek-R1 论文发表在Nature上,除了肯定其学术价值外,还开创了一个意义重大的先例。

  这意味着,AI 基础模型研究正从一个以技术博客和基准测试分数为主要评价标准的领域,迈向以方法论的科学性、可复现性和严谨验证为核心的成熟学科。原文出处:DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek梁文锋论文登上Nature封面,AI大模型首次通过同行评审” 的相关文章

HMD 巴萨联名版 3210 功能机上市:支持 Deepseek AI 助手、预

HMD 巴萨联名版 3210 功能机上市:支持 Deepseek AI 助手、预

  IT之家 7 月 29 日消息,HMD 今天上架了巴塞罗那足球队联名版 3210 功能手机,深度定制外壳、壁纸、系统界面等,支持支付宝被扫支付、Deepseek AI 助手,预售到手价...

英特尔 Gaudi 2E AI 宣布为 DeepSeek V3.1 提供加速支持

英特尔 Gaudi 2E AI 宣布为 DeepSeek V3.1 提供加速支持

  IT之家查询获悉,英特尔 Gaudi 2E 采用 7nm 制程,配备 96GB HBM2E 内存、48MB SRAM,具备 2.4TB 总内存带宽,针对随机访问deepseek、线性访...

DeepSeek下一代技术提前曝光,AI人工智能(512930)开盘拉升涨超1.

DeepSeek下一代技术提前曝光,AI人工智能(512930)开盘拉升涨超1.

  在ACL2025的颁奖典礼上,由DeepSeek梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。提出的原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,直接把长文本...

DeepSeek预测:法兰克福vs拜仁慕尼黑!凯恩10球屠杀or尤尊5球逆袭?

DeepSeek预测:法兰克福vs拜仁慕尼黑!凯恩10球屠杀or尤尊5球逆袭?

  德甲第6轮焦点战即将打响!拜仁慕尼黑带着赛季全胜战绩(5场22球)客场挑战近期状态飘忽的法兰克福(2胜3负)。凯恩以10球领跑射手榜,而法兰克福的土耳其中场尤尊以5球3助攻成为最大惊喜...

精读DeepSeek OCR论文,我远远看到了「世界模型」的轮廓

精读DeepSeek OCR论文,我远远看到了「世界模型」的轮廓

  在下面两个案例里,3B大小(30亿参数)的DeepSeek OCR在数学公式展开里没有识别出“极坐标”,识别表格结构也是错的。相比之下,仅仅有0.9B(9亿参数)模型尺寸的Paddle...

11月3日DeepSeek预测:鹈鹕vs雷霆——亚历山大率队延续不败神话,鹈鹕难

11月3日DeepSeek预测:鹈鹕vs雷霆——亚历山大率队延续不败神话,鹈鹕难

  北京时间11月3日凌晨4:30,NBA常规赛将迎来一场西部强弱对话——五连败的鹈鹕客场挑战六连胜的雷霆。这场看似悬殊的较量背后,隐藏着诸多值得玩味的战术博弈。   新...