当前位置:首页 > Deepseek最新资讯 > 正文内容

AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美

2周前 (10-10)Deepseek最新资讯102

  IT之家 10 月 10 日消息,科技媒体 venturebeat 于 10 月 8 日发布博文,报道称三星高级 AI 研究院发布了名为微型递归模型(TRM)的开源 AI 模型,仅包含 700 万个参数,不过在数独、迷宫等特定的结构化推理任务上,表现媲美甚至超越了参数量为其 10000 倍的谷歌 Gemini 2.5 Pro 等顶尖大模型。

  该模型仅有 700 万参数,设计理念是极致简化复杂性。在架构方面,摒弃了分层推理模型(HRM)所依赖的双网络协作架构,转而采用一个仅有两层的单一模型。

  其核心机制在于“递归推理”:模型对自身输出的预测进行反复迭代和修正deepseek,每一步都纠正前一步的潜在错误,直至答案收敛稳定。

  TRM 通过这种方式,用迭代计算的深度模拟了庞大网络的复杂推理过程,实现了“以递归替代规模”的目标,从而在不牺牲性能的前提下,大幅降低了计算和内存成本。

  然而,一个重要的前提是,TRM 是专门为解决结构化、可视化的网格类问题(如数独、迷宫和特定解谜任务)而设计的,并非通用的语言聊天模型,它擅长在有明确规则的封闭环境中进行逻辑推理,而非开放式的语言生成。

  TRM 的成功源于其刻意追求的“少即是多”极简主义设计。研究发现,增加模型层数或大小反而会导致在小数据集上出现过拟合,性能下降。其精简的双层结构与递归深度相结合,实现了最佳效果。

  TRM 的代码、训练脚本和数据集目前已在 GitHub 上根据 MIT 许可证完全开源,企业和研究人员均可免费使用、修改和部署,甚至用于商业应用。原文出处:AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美 Deepseek R1 等万倍大模型,感谢原作者,侵权必删!

标签: deepseek

“AI“以小博大”新标杆:三星开源 TRM 模型,700 万参数、特定任务性能媲美” 的相关文章

大成创业板人工智能ETF(159242.SZ)盘中涨近3%,AI算力链双线迎利好

大成创业板人工智能ETF(159242.SZ)盘中涨近3%,AI算力链双线迎利好

  截至2025年10月21日10:11,创业板人工智能ETF大成(159242)盘中涨近3%,现涨2.05%,盘中换手11.52%,成交3431.42万元,市场交投活跃。截至10月20日...

指数行情继续!中国军工DeepSeek时刻,军贸份额全球扩张

指数行情继续!中国军工DeepSeek时刻,军贸份额全球扩张

  现在也不知道是A股带动外盘跌,还是这次中美贸易会谈导致全球都在跟跌,美股整体跌幅开始赶超A股了。其实A股在3600点得而复失并不是冲不过去,而是时间节点上“开会了”,这就会导致机构资金...

新疆交建:公司目前在DeepSeek大模型方面暂无部署计划

新疆交建:公司目前在DeepSeek大模型方面暂无部署计划

  金融界8月25日消息,有投资者在互动平台向新疆交建提问:“deepseek大模型,公司在哪些方面部署?”   针对上述提问,新疆交建回应称:“尊敬的投资者,公司主要以...

DeepSeek-V3.1发布!“FP8 精度”如何赋能国产AI?

DeepSeek-V3.1发布!“FP8 精度”如何赋能国产AI?

  近期,DeepSeek正式发布DeepSeek-V3.1,官方称其为“迈向Agent(智能体)时代的第一步”。DeepSeek新模型的升级亮点有哪些?备受关注的“FP8精度”意味着什么...

鸿蒙电脑办公体验升级:腾讯文档上架,高效办公协同安全可控

鸿蒙电脑办公体验升级:腾讯文档上架,高效办公协同安全可控

  团队协作信息不同步、文件传来传去版本混乱…职场人士终于迎来协作办公的“救星”!近日,腾讯文档上架鸿蒙电脑端华为应用市场,依托鸿蒙系统“一次开发,多端部署”能力,实现手机、平板、电脑多端...

郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛决赛开幕

郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛决赛开幕

  8月6日上午,由郑州市总工会主办,郑州市电子信息科技工会、郑州市信息协会和河南中维信创大数据研究院承办的“郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛”在郑东新区龙子...