开源多模态大模型,Qwen2.5-VL 不出,让 InternVL2.5 先冒头了

2024/12/05,InternVL2.5 系列发布。 覆盖率从1B参数到78B参数的多模态大语言模型。InternVL2_5-78B 是首个在MMMU benchmark上得分超过70的开源模型。

Model Name Vision Part Language Part
InternVL2_5-1B InternViT-300M-448px-V2_5 Qwen2.5-0.5B-Instruct
InternVL2_5-2B InternViT-300M-448px-V2_5 internlm2_5-1_8b-chat
InternVL2_5-4B InternViT-300M-448px-V2_5 Qwen2.5-3B-Instruct
InternVL2_5-8B InternViT-300M-448px-V2_5 internlm2_5-7b-chat
InternVL2_5-26B InternViT-6B-448px-V2_5 internlm2_5-20b-chat
InternVL2_5-38B InternViT-6B-448px-V2_5 Qwen2.5-32B-Instruct
InternVL2_5-78B InternViT-6B-448px-V2_5 Qwen2.5-72B-Instruct
4 个赞

#人工智能添加

我发现在OpenWebUI调用这些多模态模型API的token还是比较低的有的只有64k,如何解决哪些大图片或者视频的解析啊?

等硅基。不过这个是基于 Llama 好像,中文还是看好 Qwen 一点。

2B,8B,26B 基于 InternLM2.5,1B,4B,38B,78B 基于 Qwen2.5,书生(InternLM)的中文支持也很好啊

硅基那个是基于 Llama 3 的,倒不是不好,只是 Qwen 的更好所以优先用千问那个书文在候补席看饮水机。

image

硅基这个是 InternVL2,前几天刚刚升级到 InternVL2.5,简单尝试,InternVL2.5 给出的数据并不过分夸张,从体验上来讲,目前的 InternVL2.5 绝不逊色于 Qwen2-VL。期待 Qwen2.5-VL 尽快推出,:smile:

:bili_040: 坐等硅基上架,我就这一个白嫖渠道。。

如果只是要尝试一下的话,官网和抱抱脸都可以。

这小模型分数太高了

硅基冲冲冲!