DeepSeek给AI装了根赛博手指，于是它能看见了-远见网

以下内容转载自36氪深度，远见网仅做呈现，不代表本网观点和立场。

五一假期前一天，DeepSeek突然扔出来一份视觉多模态技术报告。点开之前，我心里大概是有个预期的，无非就是具体能看到多远、看得多清楚。毕竟过去一年，多模态模型基本都在往这个方向卷。OpenAI讲thinking with images，让模型在推理过程中裁剪、放大、旋转图片；Gemini、Claude也都在想办法让模型处理更高分辨率、更复杂的视觉输入。大家的共同假设是，只要模型看得更细，视觉推理自然就会更强。但DeepSeek这份报告看下来，你会发现，他们完全走上了另一条路。 DeepSeek没有把重点放在“让模型看到更多像素”上，他们把注意力放在了一个更底层的问题上。就算模型已经看清楚了，但是它在推理过程中，你怎么能保证模型和你指的是同一个东西？其实这是多模态推理里最容易被忽略的死穴。人类看图时，可以用手指去标记对象。比如“这个人是谁谁谁”、“那个人是谁谁谁”。但模型哪知道你说的这个是哪个？模型只能用语言说“左边那个”“上面那个”“这条线”。一旦画面复杂起来，语言指代就会漂移，推理也会跟着崩。于是DeepSeek就说了，那就给模型一根“手指”不就完了？它把点和边

查看原文 →

（来源：36氪深度，2026-05-01）

DeepSeek给AI装了根赛博手指，于是它能看见了

相关推荐

评论抢沙发

远见网

全新产业投资平台

觉得文章有用就打赏一下文章作者

非常感谢你的打赏，我们将继续提供更多优质内容，让我们一起创建更加美好的网络世界！

支付宝扫一扫

微信扫一扫

切换注册登录

切换登录注册