当前位置:首页 > Deepseek应用场景 > 正文内容

梁文锋“藏锋”|DeepSeek爆火100天

9小时前Deepseek应用场景18

编者按:自1月20日DeepSeek R1爆火以来,过去100天的大模型世界中,DeepSeek成了当之无愧的顶流明星。DeepSeek不仅展现了中国AI的力量,也在一定程度上影响了世界AI发展的方向。值此之际,字母榜&直面AI特推出“DeepSeek爆火100天”专题报道。

“无人不识梁文锋。”

这句话大概足以形容梁文锋今天在AI圈的地位:媒体想尽办法一访难求、投资人用尽手段一面难约。

DeepSeek爆红后,其研发团队所在的北京融科资讯中心和杭州汇金国际大厦,一段时间内挤满了媒体和投资人,甚至众多慕名而来的网友,直接将北京融科资讯中心楼下的透明水牌,挤成了小红书上的网红打卡点。

这一切都是因为DeepSeek R1的发布。1月20日,DeepSeek正式发布性能比肩OpenAI o1完整版的R1推理模型后,直接带动大模型行业的研究焦点,从之前的GPT模式,转向了Reasoner模式。

梁文锋和DeepSeek R1的到来,将新的AI时代切割成由两大milestones(里程碑)节点分割而来的两段不同时期:一个是ChatGPT的问世,一个是DeepSeek R1新模型的发布。身处不同节点之中的企业,在拥抱AI上也开始衍生出新的变化。

国内外一众AI大厂都开始发力推理模型,国内科技大厂更是在DeepSeek效应之下纷纷加码C端应用。

梁文锋所一力主导的低成本大模型训练策略,更是让DeepSeek成了AI时代最大受益者英伟达的最大空头:资本市场开始怀疑,当用相对较少的算力也能实现不输于OpenAI的模型性能表现时,英伟达所代表的高端算力芯片是否会迎来新的泡沫。

上述担忧曾在DeepSeek R1发布后一周的1月27日发酵至巅峰,导致英伟达股价一夜蒸发近6000亿美元。

梁文锋逼得英伟达创始人黄仁勋不得不在公开场合多次强调,DeepSeek并没有降低算力需求,反而在进一步放大。

但黄仁勋的麻烦不止于此。梁文锋的低成本大模型训练方法,还意外带火了H20芯片在国内的需求新高。

自2023年以来,H20芯片是英伟达可合法出口至中国的最强AI芯片。但在DeepSeek影响之下,4月份,美国对其实施新的出口管制许可,其被禁止卖入中国市场。英伟达官方在一份报告中披露,这项限制将造成高达55亿美元的额外损失。

但好消息是,黄仁勋已经在加紧研制新一代的中国特供芯片。近期,据路透社报道,英伟达已通知其主要中国客户,计划在7月推出修改版H20芯片。

从模型、应用到芯片,梁文锋携DeepSeek之威,掀起了一场波及全产业链的震荡。

2024年12月,梁文锋在朋友圈转发了一篇文章,内文是其为文艺复兴科技公司创始人——“量化之王”詹姆斯·西蒙斯的传记《征服市场的人:西蒙斯传》一书所做的序言,其中有句话写道,“西蒙斯是幸运的,他遇到了好的时代。”

梁文锋无疑同样是幸运的,他遇到了能令自己大放异彩的AI时代。如今,随着R2模型发布越来越近,全行业都在期待梁文锋带来的新惊喜。

凭借R1发布爆火之前,梁文锋其实引发过两次行业热议。

2023年4月,千亿量化私募巨头幻方量化发布公告,称将集中资源和力量,投身人工智能技术,成立新的独立研究组织,探索AGI(通用人工智能)。

一个月后的2023年5月,该组织被命名为“深度求索”,并发布了首款模型DeepSeek V1。当时,《财经十一人》报道称,国内拥有超过1万枚GPU的企业不超过5家。而DeepSeek就是其中之一,并由此开始得到外界关注。

及至2024年5月,DeepSeek再次借助大模型价格战一跃成名。当时,DeepSeek发布了DeepSeek V2开源模型,并在行业内率先降价,将推理成本降到每百万token仅1块钱,约等于GPT-4 Turbo的七十分之一。

随后,字节、腾讯、百度、阿里等大厂纷纷降价跟进。中国大模型价格战由此揭幕。

只不过,当时暂未推出C端应用的梁文锋,其声量更多局限在大模型行业圈层,外界的更多目光被吸引到了科技大厂身上。

爆火之前,梁文锋也曾渴望得到投资机构的青睐,但在找不同出资方洽谈后,很多VC在退出需求下,因看不到商业化前景,而放弃了投资梁文锋的可能性。

但随着DeepSeek爆火,梁文锋成了一众投资机构的座上宾,还是请不到的那种。

就连一直宣称不投资大模型的朱啸虎,都在感受完DeepSeek新模型后,希望能够参与其中。

值得一提的是,DeepSeek的爆火,并未改变梁文锋一贯的低调作风。

成立DeepSeek之前,作为幻方量化创始人,由于梁文锋一直隐身幕后,外界在很长一段时间内都以为公司核心高管只包括另外两位联合创始人。

即便因DeepSeek一夜成名,梁文锋依然继续保持着每天看论文、写代码、参与小组讨论的习惯,且至今DeepSeek都暂未设立公关团队,对外发声主要通过在相关社交媒体上设立的官方账号,以及上百个DeepSeek微信交流群。

自1月20日DeepSeek R1发布至今,梁文锋唯二的公开露面,一次是上了新闻联播,一次是参加民营企业家座谈会。

尽管甚少露面,但通过国内外科技大佬之口,梁文锋一直活跃在大众视野。

只不过,不同于硅谷如马斯克、奥特曼等人对DeepSeek和梁文锋的质疑之声,国内科技大佬几乎清一色展现出了对DeepSeek的拥抱,和对梁文锋的赞赏。

靠接入DeepSeek攫取到最大红利之一的马化腾,在谈到梁文锋时称“很敬佩市场上出现独立、开源的产品,我们非常尊重。”

去年12月宣布追逐AGI的李想,在时隔130天后,再次对外谈及AI,不仅认为DeepSeek加速了理想在大模型上的研发效率,而且总结了自己对梁文锋的两个印象,“第一他是个特别自律的人,第二他是会在全世界范围之内去研究和学习最佳实践和最好的方法论的人。”

当然,被梁文锋改变的科技大佬名单还有很长,包括张一鸣、李彦宏、蔡崇信……

被聚光灯环绕的梁文锋,却选择了一系列反常识的操作。

尽管受到万千瞩目,但梁文锋既没有利用投资人的热情,疯狂融资扩张资源,也没有借机做大C端用户规模。

在各路投资人看来,上述场景原本应该是摆在梁文锋面前的一手好牌。

对于想要参与投资DeepSeek的朱啸虎来说,梁文锋的安卓开源梦想,再往前走是需要烧钱的。

更现实的考量上,无论是未来在模型路线上继续scale up,还是承接B端和C端暴涨的客户需求和流量,在外界看来,梁文锋都需要用更多的钱来构建更充裕的算力资源。

2月份,甚至外界一度传出阿里将以100亿美元估值,投资DeepSeek 10亿美元占股10%的消息,但被阿里予以否认。

不过,据投中网消息,彼时DeepSeek确实在与部分投资人接触,希望以80亿美元估值寻求融资,当时国内AI六小龙中估值最高的也不超过40亿美元。

但事实是,爆火100天内,DeepSeek官方API一度因调用需求过高而暂停充值服务,APP也几度因服务繁忙而频频卡顿,但梁文锋除了带队优化服务体验外,并没有明显的算力扩建迹象,也丝毫未展现出对用户规模效应的追逐。融资一事被暂时搁置了。

这也使得DeepSeek成了中国大模型创业公司中,唯一一家只做基础模型、暂不考虑商业化的公司,还要加上一条,即暂未寻求外部融资的公司。

与在融资上的犹疑相反,梁文锋则继续坚持践行开源。2月底,梁文锋带领DeepSeek用一场开源周行动,通过开源FlashMLA、DeepEP通信库、DeepGEMM等多个代码库,向外界证明了DeepSeek小力出奇迹的原因所在,并首度对外揭秘了一系列针对英伟达H卡的算力优化方案。

同时,梁文锋继续沿着拟定好的节奏,追赶AGI脚步。

在内部规划中,梁文锋曾表示,团队押注了三个方向:一是数学和代码,二是多模态,三是自然语言本身。围绕这三条路,梁文锋在过去100天内动作频频。

2月18日,DeepSeek发布了最新的技术论文,以挑战Transformer架构最核心的注意力机制,让它能更高效地处理更长的上下文。

尤其值得一提的是,梁文锋的名字,也出现在了上述论文的共同作者里。文中,DeepSeek提出的新架构NSA(原生稀疏注意力)在基准测试中,与全注意力机制相比,准确率相同或更高。

除了带领团队创新算法,梁文锋还推动着公司在模型更新上的节奏。

语言模型上,3月25日,DeepSeek V3模型完成小版本升级,上线新版本DeepSeek-V3-0324,官方称其大幅提高了在推理类任务上的表现水平,中文写作和中文搜索能力也都得到了优化。

一个月后,数学和代码新模型DeepSeek-Prover-V2也来了。以DeepSeek-V3作为基础模型微调而来的Prover-V2,其参数规模扩展到了671B,相较于前一代V1.5版本的7B,参数规模增加了近百倍,这让其在数学测试集上的效率和正确率都变得更高。

尽管梁文锋还能保持自己的节奏推进模型更新,但外界的AI发展步伐已经被DeepSeek重构了。

在梁文锋验证成功低成本大模型训练方法后,AI行业开始分裂出两条进化路线:一是继续坚持Scaling Law,奉行大力出奇迹,堆高算力资源,训练更强大的基础大模型;二是追随梁文锋,以性价比思路开道,用更少资源训练更强大的专用模型。

围绕两条不一样的大模型进化路线,中美在AI发展策略上的分歧进一步扩大:硅谷AI创企继续追求Scaling Law,融资额屡创新高,前有OpenAI宣布完成历史性的400亿美元新融资,后有传闻中正在寻求200亿美元新融资的马斯克的xAI。

反观被冠以“AI六小龙”称号的国内AI创企,除了智谱拿下一些国资投资外,其他五家则罕有融资消息传出。

典型如零一万物,1月初,零一万物创始人李开复对外正式表态,自己将退出对AGI的追寻,未来公司主攻中小参数的行业模型。“从商业角度考虑,我们认为只有大公司能继续做超大模型。”李开复说道。

DeepSeek爆火后,李开复更是将公司直接定位为一家开发AI应用的公司。

“AI六小虎”其他玩家也不同程度受到冲击:月之暗面暂停大规模广告投放,战略重心转向底层模型优化;MiniMax 和阶跃星辰目前都在探索Agent 相关的新应用;百川智能业务重心转向医疗;智谱AI重点布局政务、金融等市场。

国内科技大厂也不再对外讲述大力出奇迹的的AI叙事,而是纷纷跟梁文锋拼起了性价比。李彦宏更是在4月份的一场演讲中,点名DeepSeek慢且贵。

但DeepSeek红利之下,科技大厂又是结结实实享受到了一波红利。最大受益者腾讯,更是凭借率先接入DeepSeek的举动,助推旗下腾讯元宝一度超越豆包,成为国内AI助手下载量第一。

拥抱梁文锋之外,科技大厂的更大野心则在于超越梁文锋。直观表现之一是,在接入DeepSeek之外,科技大厂都纷纷加码了模型自研的决心。

从OpenAI到DeepSeek,这些惊艳业界的AI大模型公司,之所以能创新不断,更重要的是依靠了一帮才华横溢的年轻人。

作为DeepSeek创始人的梁文锋,更是将人才组织,视为自家在AGI大战中的护城河,不是闭源,更不是招募行业顶尖牛人。年轻人身上所具备的对创新的自信信念,成为梁文锋对这一群体青睐有加的重点所在。

现在,包括字节、腾讯、阿里、美团和京东在内的科技大厂,也想将年轻人身上的这种创新信念,汲取到自家公司身上,并由此开启了各自的“天才少年”招募计划。

但在科技大厂追赶梁文锋之前,全行业正在等待梁文锋带着自己的天才少年,发布新的R2模型。

参考资料:

《理想AI Talk第二季访谈实录》理想汽车

《DeepSeek-V3 模型更新,各项能力全面进阶》DeepSeek

《我所见过的梁文锋》聪明投资者

《跟DeepSeek做起邻居》投资界

《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》腾讯科技

《“我劝过梁文锋很多次,DeepSeek要融资”》投中网

《疯狂的幻方:一家隐形AI巨头的大模型之路》36氪


“梁文锋“藏锋”|DeepSeek爆火100天” 的相关文章

极光Adpub接入DeepSeek,开创应用变现新模式

极光Adpub接入DeepSeek,开创应用变现新模式

中国领先的客户互动与营销科技服务商极光(Aurora Mobile)宣布,其广告变现平台Adpub已成功接入先进的大语言模型(LLM)DeepSeek。通过这一接入,Adpub将充分利用DeepSee...

上线上线!“高新造”算力“AI”上DeepSeek!

上线上线!“高新造”算力“AI”上DeepSeek!

              DeepSeek自发布以来以高性能、低成本及开源等显著优势迅速吸引全球关注14日获悉无锡高新区智算中心...

利用DeepSeek做私域的4大引流秘籍+5个躺着赚钱的副业

利用DeepSeek做私域的4大引流秘籍+5个躺着赚钱的副业

最近一段时间,DeepSeek突然火了,说实话,咱们做互联网的人都知道这个是干嘛的,但大多数普通人根本就不知道DeepSeek这玩意究竟有什么用,更不知道如何运用这个神奇的工具去变现,去做私域。今天一...

百度教育接入DeepSeek-R1满血版模型,支持多模态推理

百度教育接入DeepSeek-R1满血版模型,支持多模态推理

36氪获悉,2月25日,百度教育旗下产品“拍照搜题”正式接入DeepSeek-R1满血版模型。用户可使用百度App拍照功能进入“拍照搜题”,不仅可以通过数据库提供标准答案,还能发挥DeepSeek R...

DeepSeek解决了“世纪难题”:豆腐脑是甜的还是咸的?

DeepSeek解决了“世纪难题”:豆腐脑是甜的还是咸的?

随着DeepSeek持续火热,越来越多的网友好奇其能否回答一些“世纪难题”。于是,记者尝试向DeepSeek提问“豆腐脑是甜的还是咸的”,并打开联网搜索和深度思考R1。DeepSeek截图随后,Dee...

DeepSeek引爆AI应用

DeepSeek引爆AI应用

激活AI产业链 DeepSeek持续扩大生态圈湖南日报2025-02-09 08:52● 本报记者 杨洁DeepSeek(深度求索)成为继ChatGPT之后的又一现象级AI产品。据国内AI产品榜统计数...