当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek声称其“推理”模型在某些基准测试上超越OpenAI的o1

5个月前 (03-07)Deepseek最新资讯308

中国 AI 实验室 DeepSeek 发布了其所谓推理模型 DeepSeek-R1 的开源版本,声称在某些 AI 基准测试上表现与 OpenAI 的 o1 相当。

R1 在 AI 开发平台 Hugging Face 上以 MIT 许可证发布,这意味着它可以不受限制地用于商业用途。据 DeepSeek 称,R1 在 AIME、MATH-500 和 SWE-bench Verified 基准测试上超越了 o1。AIME 使用其他模型来评估模型的性能,而 MATH-500 是一系列应用题集合。SWE-bench Verified 则专注于编程任务。

作为一个推理模型,R1 能够有效地进行自我事实核查,这有助于避免通常让模型陷入困境的一些陷阱。与典型的非推理模型相比,推理模型需要更长的时间(通常多几秒到几分钟)来得出解决方案。好处是它们在物理、科学和数学等领域往往更可靠。

DeepSeek 在一份技术报告中透露,R1 包含 6710 亿个参数。参数大致对应于模型的问题解决能力,具有更多参数的模型通常比具有较少参数的模型表现更好。

确实,6710 亿参数规模庞大,但 DeepSeek 同时发布了 R1 的"精简"版本,参数规模从 15 亿到 700 亿不等。最小的版本可以在笔记本电脑上运行。至于完整版 R1,虽然需要更强大的硬件,但可以通过 DeepSeek 的 API 使用,价格比 OpenAI 的 o1 便宜 90%-95%。

Hugging Face 的 CEO Clem Delangue 周一在 X 平台上发帖称,平台上的开发者已经创建了超过 500 个 R1 的"衍生"模型,总下载量达到 250 万次——是官方 R1 下载量的五倍。

R1 也有其局限性。作为一个中国模型,它需要接受中国互联网监管机构的审查,以确保其回应"体现社会主义核心价值观"。例如,R1 不会回答关于天安门广场或台湾自治的问题。

许多中国 AI 系统,包括其他推理模型,都会回避可能引起国内监管机构不满的话题,如对习近平政权的推测。

R1 的发布恰逢即将卸任的拜登政府提出对中国企业实施更严格的 AI 技术出口规则和限制。中国公司已经被禁止购买先进的 AI 芯片,如果新规则按原文生效,公司将面临更严格的半导体技术和模型限制。

在上周的一份政策文件中,OpenAI 敦促美国政府支持美国 AI 的发展,以免中国模型在能力上赶上或超越它们。在接受采访时,OpenAI 的政策副总裁 Chris Lehane 特别指出 DeepSeek 的母公司 High Flyer Capital Management 是一个特别值得关注的机构。

到目前为止,至少有三家中国实验室——DeepSeek、阿里巴巴和 Moonshot AI 旗下的 Kimi——声称他们的模型可以与 o1 匹敌。(值得注意的是,DeepSeek 是最早的——它在 11 月底宣布了 R1 的预览版。)乔治梅森大学的 AI 研究员 Dean Ball 在 X 平台上发帖称,这一趋势表明中国 AI 实验室将继续保持"快速跟随者"的角色。

Ball 写道:"DeepSeek 精简模型的出色表现意味着非常强大的推理器将继续广泛传播,并可以在本地硬件上运行,远离任何自上而下的控制机制的监视。"


“DeepSeek声称其“推理”模型在某些基准测试上超越OpenAI的o1” 的相关文章

平板本地部署DeepSeek,全球首款!天禧个人超级智能体重大升级

平板本地部署DeepSeek,全球首款!天禧个人超级智能体重大升级

联想天禧个人超级智能体重磅升级,多款AI新品惊艳亮相 近日,联想在科技领域再度发力,正式宣布天禧个人超级智能体迎来又一次重大升级,向全面L3智能阶段大步迈进。与此同时,联想还发布了全行业首款专注于为...

《DeepSeek赋能数字政府应用指南》出版发行-电子书将在国内各大数字阅读平台上线

《DeepSeek赋能数字政府应用指南》出版发行-电子书将在国内各大数字阅读平台上线

新华社北京3月21日电 《DeepSeek赋能数字政府应用指南》一书近日由新华出版社出版并面向全国发行。该书电子书将在国内各大数字阅读平台上线。该书由中国经济信息社编写,内容聚焦人工智能技术在数字政府...

鸿合科技:自研AI平台已接入DeepSeek开源大模型应用于教育场景

鸿合科技:自研AI平台已接入DeepSeek开源大模型应用于教育场景

金融界4月9日消息,有投资者在互动平台向鸿合科技提问:公司有没有对deepseek适配和接入?公司回答表示:公司自主研发AI应用开放平台,并积极推动AI技术在教育场景的应用。目前平台已接入DeepSe...

九科信息bit-Agent智能体,打通企业应用DeepSeek等大模型的最后一公里

九科信息bit-Agent智能体,打通企业应用DeepSeek等大模型的最后一公里

当DeepSeek以全球最快速度突破1亿用户大关时,这款以成本优化和开源生态著称的大模型,早已超越了工具范畴,成为国央企数字化转型的新基建。数据显示,超50%央企已完成DeepSeek本地部署,能源、...

3D领域DeepSeek「源神」!国产明星创业公司,一口气开源八大项目

3D领域DeepSeek「源神」!国产明星创业公司,一口气开源八大项目

机器之心报道机器之心编辑部2025 开年,DeepSeek-R1 的成功在全球掀起了一股开源风潮,上个月的开源周更是毫无保留地将自己的多项核心技术开放给了全球开发者。这种「完整技术栈」式的开源震撼了整...

兆芯全系列整机形态成功部署 DeepSeek R1 大模型

兆芯全系列整机形态成功部署 DeepSeek R1 大模型

IT之家 2 月 24 日消息,上海兆芯集成电路股份有限公司今日发文宣布:近日,基于兆芯高性能通用处理器的 PC 终端、工作站以及服务器成功实现 DeepSeek-R1-Distill 模型(1.5B...