当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek昨天开源的新模型，有点邪门。

10小时前Deepseek最新资讯14

　　DeepSeek 又整出新东西来了，只用到原本十分之一 token，就能存下几乎一样的文字信息，这压缩比，香农看了都要流泪，冯·诺伊曼看了都要沉默。

　　昨天，DeepSeek 发布了新模型 DeepSeek-OCR，OCR 这东西咱们都熟悉，就是把图片里的文字给识别出来。

　　但是 DeepSeek 这次的「技能 OCR」则是刚好相反，它可以把大量文字变成一张图片，作为 AI 的“记忆载体”。

　　过去的大模型，不管是什么 ChatGPT、Gemini、Llama、Qwen、还是 DeepSeek 过去的自己，在读取数据的用的都是一种方式：文字，也就是平时常说的 token。

　　我们写的 Prompt，会被转换成一大堆的 token 给大模型，我们提供的参考资料，会被转换成一大堆的 token 给大模型，就算是能识别图像的多模态的大模型，也是要先把图片转换成了一段文字描述，来交给大模型来做辨认才行。

　　DeepSeek 决定试一试新的路子，毕竟，如果咱们把一张图片和一段文字放在一起，前者明显可以包含下更多的信息。

　　这就意味着、当我们让大模型开始使用图像的这种方式来记住数据了之后，模型就有能力用更少的token资源，来取得更好的表达效果。

　　比如说一张只有图片背景和标题文案的 PPT，可能只需要 64 个视觉token 就足够表示了。

　　如果这页的文字内容比较多，那就会自动切换到 Large 模式，用上最多 400 个视觉token 来记录。

　　如果觉得还不够的话，DeepSeek-OCR 还能支持动态调整的 Gundam 模式来记忆图片，主打一个应记就记，分清轻重缓急的记。

　　论文里的一张柱状体，DeepSeek-OCR 能够自动把它给识别成 Excel 格式给保存下来。

　　文章里出现的有机化合物的分子结构图片，也能自动转化为标准的 SMILES（简化分子线性输入规范）格式存储。

　　不但能记住图片本身，DeepSeek-OCR 还会同时记住这张图片的位置，记住图片附近的文字在写些什么东西。。。

　　常规的数据集之前都用过了，想要再搞点高质量的数据集，要么偷偷去网上爬，要么花大价钱去买，再要么就是想办法自己合成。

　　就比如说很多论文文件，过去，大模型只能学到里面的文字信息，但是里面的各种图表，插图那都是两眼一摸黑。

　　实际上 DeepSeek 也是这么想的，在论文里还特意提了一嘴，说这个新模型在一张 A100 上，一天可以给大模型采集出 20 万页以上的训练数据。

　　你把对话的长度增加一倍，整个模型的计算量就增加了四倍，增加了两倍，那整个模型的计算量就变成了原本的九倍。

　　这也是为啥现在大模型厂商都在给你限制上下文长度的原因之一，你要是在一个对话里聊的太嗨了的话，成本要直接卷上天去了。

　　而在用上了图像记忆之后，DeepSeek 可以把 token 的数量，压缩到原本的十分之一。。。

　　在论文里可以看到，初出茅庐的 DeepSeek-OCR，就能用原本 1/10 的token 数量，达到原模型 96.5%的准确率。

　　而随着时间的推移，这件事的重要性也会逐渐降低，存储它的格式也会从最大的 Gundam 一路降级，从 Large 一路降到最小的 Tiny，占用的 token 数量也会越来越少。

　　把这个概念引入到大模型里的话，咱们就可以把最近的聊天记录，用“4K HDR蓝光” 的格式来存储，而那些早年不太重要的聊天记录，则是给压缩成 480P 的文件保存。

　　不过好在 DeepSeek-OCR 还是和过去一样开源的，相信这个问题，要不了多久就会变成热门，整出不少新东西来。

　　比如训练数据里，用到了华为的 Wukong 数据集，在生成样本文字时，借助了百度的 PaddleOCR，而在图像特征提取部分，核心组件竟然是 Meta 开源的 SAM，在视觉语义理解层面，还整合了 OpenAI 的 CLIP 模型。

　　正是这些来自全球的开源成果deepseek，被 DeepSeek 重新编织成了一个能“用图片思考”的 AI。原文出处：DeepSeek昨天开源的新模型，有点邪门。，感谢原作者，侵权必删！

标签: deepseek

返回列表