当前位置: 首页 > news >正文

4月28日隐喻“鲸鱼开眼”,DeepSeek识图模式灰度上线,迈入图文交互时代!

4月28日,DeepSeek多模态团队研究员推文隐喻“鲸鱼开眼”,次日开启“识图模式”灰度内测,5月初大范围开放。该模式有亮点也有短板,标志其迈入图文交互时代。

事件回顾

4月28日,DeepSeek多模态团队研究员陈小康在X平台推文“Now, we see you.”并配图“鲸鱼开眼”,隐喻传开后推文被删。4月29日开启“识图模式”灰度内测,5月初大范围开放,入口仍标注“图片理解功能内测中”。

模式特点

与常见OCR工具不同,DeepSeek强调深度图像理解,能理解场景氛围等。在文物鉴定、截图转码等场景表现亮眼,非思考模式响应快,一张800×800像素图像仅消耗约90 tokens。

技术推测

多方实测推测,识图模式背后是独立于DeepSeek - V4 Flash/Pro的视觉理解模型,基于特定框架,是挂载在V4主干上的视觉模块,与V4是两条独立技术线。

模式短板

在数手指、反色图片等极限测试中暴露短板,如计数题易答错、复杂行测图形题非思考模式错误率高、知识库滞后等,且不支持图像生成等功能,部分图片格式无法上传。

未来展望

识图模式灰度上线标志DeepSeek从纯文本迈入图文交互时代,是向完整多模态过渡的阶段性产品,后续官方预告的Vision版本或承载更原生、更完整多模态功能。

编辑观点:DeepSeek识图模式的推出是其迈向多模态的重要一步,虽有不足,但潜力巨大,未来Vision版本值得期待。

http://www.jsqmd.com/news/786085/

相关文章:

  • 2026年5月长春财务专项审计实力机构深度**与选择指南 - 2026年企业推荐榜
  • MSWI二噁英排放风险预警生成对抗网络建模【附代码】
  • 2026年5月新发布:阿克苏厨房防水服务商综合实力深度解析 - 2026年企业推荐榜
  • CANN/NDDMA多维数据搬运优化
  • Balena Etcher终极指南:三步安全烧录操作系统镜像的完整教程
  • 模糊逻辑:让AI学会人类的‘差不多’决策
  • CANN/ascend-transformer-boost常见问题
  • 基于 Git 打包纯净源码 - Higurashi
  • 阶跃星辰发布实时语音大模型 StepAudio 2.5 Realtime,打造更具“活人感”的 AI 聊天搭子
  • 告别手工调格式!Python批量生成Word/PPT,HR和行政同事都惊呆了
  • 小红书无水印下载工具终极指南:5分钟快速上手的完整教程
  • 结构化设计模块—计算机等级—软件设计师考前备忘录—东方仙盟
  • 在敏捷开发中快速集成 AI 能力并控制试错成本
  • 【Gartner×MIT联合验证】:2026年AI落地成功率将暴跌41%——除非你掌握这7个合规性前置设计法则
  • AIUI开源语音对话平台:从架构设计到本地部署的完整指南
  • Google Chrome 静默推送 4GB Gemini Nano 模型,引发隐私合规与气候成本双重担忧
  • Claude for Financial Services
  • CANN ops-cv变更日志
  • 企业内如何通过Taotoken实现AI API的访问控制与审计
  • VR+AI赋能科学发现:从量子光学到沉浸式数据探索
  • AI驱动蛋白质工程:从语言模型与拓扑数据分析到高效工作流构建
  • AI驱动的混合动力公交调度与能耗优化:从理论到工程实践
  • 蚂蚁百灵发布万亿级旗舰思考模型 Ring-2.6-1T,限时免费体验,测评成绩亮眼!
  • Java面试八股文+大厂面试真题!目前最全的IT行业总结,包含所有Java岗位面试干货内容!
  • 多模型聚合平台如何助力提升数据处理任务的稳定性
  • 前端AI集成实战:从gpt4free.js看LLM客户端架构与流式响应处理
  • 多领域生态环境影响评价技术应用与典型案例解析——从农业到水利工程的实践
  • 2026年香港留学服务口碑好的机构:五家优选评测 - 科技焦点
  • CANN/catlass TLA张量详解
  • 火车采集器Google谷歌翻译插件 领取及使用方法