已知的 4 个国产【多模态】识图「漫画字幕 OCR」能力排行

先说结果:GLM-4V-PlusQwen/Qwen2-VL-72B-InstructOpenGVLab/InternVL2-Llama3-76B > Yi-vision

第一位选手:智谱AI GLM-4V-Plus

白嫖渠道 —— 官网实名认证送 5,000,000 通用 Tokens 一个月。?搞混了好像,这个到期后是 10元/1,000,000 Tokens

第二位选手:阿里通义千问之 Qwen2-VL-72B

看到才是 Qwen2 本不太抱希望,结果能力意外的好。

白嫖渠道 —— 硅基流动。此时,我在这里放一个神秘代码:AFF 点这里进去注册可得 2000万 Tokens 你我都能 免费!!

第三位选手: OpenGVLab/InternVL2-Llama3-76B
虽然不是国产,但渠道(服务器?)是硅基流动的所以归为国产。

毕竟是基于 Llama,准确度还行理解力不太够。

白嫖渠道 —— 硅基流动。此时,这里又有一个神秘代码:AFF 点这里进去注册可得 2000万 Tokens 你我都能 白嫖!!

第四位选手: 零一万物 Yi-vision

价格是 6元/1M tokens,但大概主策划心善不坑穷人钱所以 01 门槛是最低 100 起充,所以当然就没充。白嫖渠道 —— 官网注册送 36 元,目前没发现赠金有效期相关。不用实名认证填个微信号就行。。

:dog: :dog: :dog:

混元那些没有 API/试用赠金 或 只有官网 chat 页面才能 联网/识图 的就不测了,只用 API。

13 个赞

#AFF添加

还可以呀qwen

1 个赞

从OCR图片的角度测了一下

只有零一万物能够准确理解并正确输出 ,Pro/Qwen/Qwen2-VL-7B-Instruct 偶尔能输出明白,但不够稳定,其他的回答都扯犊子的。

6块钱1M,基本上也就是1.2-1.5/K次访问,这价格还好,只是不能嫖了,后续我会给我的软件的付费用户用上。

2 个赞

你用错了吧。。。你用的是0.35每M的7B模型

好用的是那个4.3每M的72B模型