DeepSeek 为空间推理推出带视觉原语框架的 Vision 模式

DEEPSEEK-5.30%

据 Beating 监测,DeepSeek 已正式在网页端和应用端推出 Vision 模式,提供深度场景分析、空间推理,并可将 UI 截图直接转换为 HTML 结构化代码。

新的视觉能力建立在 DeepSeek 的研究框架 “Thinking with Visual Primitives” 之上,该框架由来自北京大学和清华大学的研究人员共同研发。其底层方法通过将坐标点和边界框视为核心思考单元,来弥补现有视觉语言模型在空间推理方面的不足,使模型在推理过程中能够结合空间参照进行视觉推理。基础学术论文曾于 4 月 30 日短暂发布,但在 5 月 1 日被 DeepSeek 撤回。目前,Vision 模式仅支持图像输入,不支持视频或音频,也不具备图像生成功能。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论