当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek超越“开放权重”AI,计划发布源代码

2个月前 (02-25)Deepseek最新资讯139

上个月,DeepSeek 通过发布一个新的、具有竞争力的模拟推理模型,在 AI 领域掀起了轩然大波。该模型可以在 MIT 许可证下免费下载和使用。现在,该公司正准备让这个模型背后的底层代码更加透明,承诺从下周开始发布五个开源代码库。

在周四晚间的社交媒体帖子中,DeepSeek 表示,其计划的"开源周"每日发布将提供对"这些在我们在线服务中的基础模块的可见性,它们已经过文档记录、部署和生产环境的实战测试。作为开源社区的一份子,我们相信每一行共享的代码都将成为推动我们共同前进的动力。"

虽然 DeepSeek 对将要分享的代码类型并未具体说明,但其配套的 GitHub 页面 "DeepSeek Open Infra" 承诺即将发布的内容将涵盖"推动我们这个小小月球计划前进的代码",并"完全透明地分享我们微小但真诚的进展"。该页面还引用了一份 2024 年的论文,详细介绍了 DeepSeek 的训练架构和软件栈。

这一举措可能会加大 DeepSeek 与 OpenAI 之间的差异,后者的市场领先产品 ChatGPT 模型仍然完全专有,其内部运作对外部用户和研究人员来说依然不透明。尽管 DeepSeek 的移动应用因隐私问题面临国际限制,但这次开源发布可能有助于提供更广泛和更便捷的访问途径。

开放究竟有多开放?

DeepSeek 最初的模型发布已经包含了所谓的"开放权重"访问权限,可以访问代表模型数十亿模拟神经元之间连接强度的底层数据。这种发布方式允许终端用户通过额外的训练数据轻松微调这些模型参数,以满足更具针对性的目的。

包括 Google 的 Gemma、Meta 的 Llama,甚至 OpenAI 早期发布的 GPT2 等主要模型都采用了这种开放权重结构。这些模型通常也会发布开源代码,涵盖响应查询时运行的推理时间指令。

目前尚不清楚 DeepSeek 计划的开源发布是否也将包括团队在训练模型时使用的代码。这种训练代码对于满足开源研究所 (OSI) 去年最终确定的"开源 AI"正式定义来说是必需的。根据 OSI 的标准,一个真正开放的 AI 还必须包括"关于用于训练系统的数据的充分详细信息,使得技术熟练的人能够构建一个实质上等效的系统"。

完全开源发布(包括训练代码)可以让研究人员更清楚地了解模型在核心层面是如何工作的,可能揭示出模型架构而非参数权重固有的偏见或局限性。完整的源代码发布还可以让人们更容易从头开始复制模型,如有必要,甚至可以使用全新的训练数据。

Elon Musk 的 xAI 在今年 3 月发布了 Grok 1 的开源推理时间代码版本,最近还承诺在未来几周内发布 Grok 2 的开源版本。但该公司表示,最近发布的 Grok 3 将暂时保持专有状态,仅供 X Premium 订阅用户使用。

本月早些时候,HuggingFace 在 OpenAI 发布专有的 "Deep Research" 功能几小时后就发布了其开源克隆版本。HuggingFace 的 Aymeric Roucher 告诉 Ars Technica,该克隆版本在发布时使用闭源权重模型"仅仅是因为它运行良好",但源代码的"开放管道"可以根据需要轻松切换到任何开放权重模型。


“DeepSeek超越“开放权重”AI,计划发布源代码” 的相关文章

DeepSeek能干什么?搜论文、学代码……多所高校接入的DeepSeek“满血版”有哪些神奇之处?

DeepSeek能干什么?搜论文、学代码……多所高校接入的DeepSeek“满血版”有哪些神奇之处?

新学期,多所高校掀起了智能化革新浪潮。中国人民大学、华东师范大学、北京邮电大学等高校正式接入了DeepSeek“满血版”。这个拥有6710亿参数的“超级大脑”,正在以每周迭代的领域知识和强大的“思维链...

太平资产完成DeepSeek本地化部署

太平资产完成DeepSeek本地化部署

上证报中国证券网讯(记者 何奎)记者近日获悉,太平资产积极响应国家科技创新战略,顺应人工智能时代潮流,成功完成DeepSeek-R1大模型本地化部署,并实现国产化适配。据介绍,通过本地化部署DeepS...

广东江门:举办DeepSeek大模型专题培训

广东江门:举办DeepSeek大模型专题培训

为帮助干部职工及时掌握前沿人工智能技术,提升数字化办公能力,近日,广东省江门市退役军人事务局举办DeepSeek大模型专题培训。培训会上,老师从DeepSeek简介、如何使用DeepSeek、Deep...

怎么删除DeepSeek系统中的模型?

怎么删除DeepSeek系统中的模型?

怎么删除 DeepSeek 系统中的模型?要删除 DeepSeek 系统中的模型,可以按照以下步骤操作:1. 查看已安装的模型列表首先打开命令提示符或终端,输入以下命令来查看已安装的模型列表:olla...

商络电子:公司正计划引入DeepSeek大模型

商络电子:公司正计划引入DeepSeek大模型

商络电子在互动平台表示,公司正计划引入Deepseek大模型,搭建私有化的AI平台,应用于数据的分析和预测,为公司提供辅助决策能力;另外将AI能力无缝对接通用业务场景,用于提升公司整体效率和能力。(本...

海南机场接入DeepSeek,助力智慧机场建设,将推动智能化应用场景全面落地

海南机场接入DeepSeek,助力智慧机场建设,将推动智能化应用场景全面落地

2月23日,海南机场接入DeepSeek人工智能大模型,在智慧民航领域的创新探索迈出了重要一步。此次部署基于私有化架构,结合企业级向量知识库技术,将核心业务数据存储于专属私域环境,构建起全方位、多层次...