Qwen2.5-VL发布了,在多模态模型领域拿下13个开源冠军。开源终于有一款和 GPT4o和Claude3.5同样水平的多模态模型了。

Qwen2.5-VL发布了,在多模态模型领域拿下13个开源冠军。开源终于有一款和 GPT4o和Claude3.5同样水平的多模态模型了。

  • 视觉解析能力巨大飞跃,不仅能分析万物,还能识别图像结构和布局,精准定位各种元素,对图表和文档理解能力更是超强。
  • 支持超长的视频理解,支持最长1小时的视频理解,对视频内容进行秒级定位。
  • 支持视觉智能体,无需微调,模型本身就能直接当Agent,让模型查天气,订机票,修美图。

模型开源了三个尺寸,72B性能最强,7B性能平衡,3B端侧部署速度最快。

在线体验

11 个赞

deepseek 那个多模态咋样

等大佬们评测下

1 个赞

进来看看

熊熊加班

这么强!?

除夕还在发模型,够拼的了

实际上 pixtral-large 也是这水平 :expressionless: