以下内容转载自36氪深度,远见网仅做呈现,不代表本网观点和立场。
五一假期前一天,DeepSeek突然扔出来一份视觉多模态技术报告。 点开之前,我心里大概是有个预期的,无非就是具体能看到多远、看得多清楚。 毕竟过去一年,多模态模型基本都在往这个方向卷。OpenAI讲thinking with images,让模型在推理过程中裁剪、放大、旋转图片;Gemini、Claude也都在想办法让模型处理更高分辨率、更复杂的视觉输入。 大家的共同假设是,只要模型看得更细,视觉推理自然就会更强。 但DeepSeek这份报告看下来,你会发现,他们完全走上了另一条路。 DeepSeek没有把重点放在“让模型看到更多像素”上,他们把注意力放在了一个更底层的问题上。 就算模型已经看清楚了,但是它在推理过程中,你怎么能保证模型和你指的是同一个东西? 其实这是多模态推理里最容易被忽略的死穴。 人类看图时,可以用手指去标记对象。比如“这个人是谁谁谁”、“那个人是谁谁谁”。但模型哪知道你说的这个是哪个? 模型只能用语言说“左边那个”“上面那个”“这条线”。一旦画面复杂起来,语言指代就会漂移,推理也会跟着崩。 于是DeepSeek就说了,那就给模型一根“手指”不就完了? 它把点和边
(来源:36氪深度,2026-05-01)

评论 抢沙发
围绕文章展开讨论,保持简洁、具体、可引用。