已知的 4 个国产【多模态】识图「漫画字幕 OCR」能力排行

Qiner · 2024 年10 月 16 日 18:49

先说结果：GLM-4V-Plus ≈ Qwen/Qwen2-VL-72B-Instruct ＞ OpenGVLab/InternVL2-Llama3-76B ＞ Yi-vision

第一位选手：智谱AI GLM-4V-Plus

白嫖渠道 —— 官网实名认证送 5,000,000 通用 Tokens 一个月。？搞混了好像，这个到期后是 10元/1,000,000 Tokens 。

第二位选手：阿里通义千问之 Qwen2-VL-72B

看到才是 Qwen2 本不太抱希望，结果能力意外的好。

白嫖渠道 —— 硅基流动。此时，我在这里放一个神秘代码：AFF 点这里进去注册可得 2000万 Tokens 你我都能免费！！

第三位选手： OpenGVLab/InternVL2-Llama3-76B
虽然不是国产，但渠道（服务器？）是硅基流动的所以归为国产。

毕竟是基于 Llama，准确度还行理解力不太够。

白嫖渠道 —— 硅基流动。此时，这里又有一个神秘代码：AFF 点这里进去注册可得 2000万 Tokens 你我都能白嫖！！

第四位选手：零一万物 Yi-vision

价格是 6元/1M tokens，但大概主策划心善不坑穷人钱所以 01 门槛是最低 100 起充，所以当然就没充。白嫖渠道 —— 官网注册送 36 元，目前没发现赠金有效期相关。不用实名认证填个微信号就行。。

混元那些没有 API/试用赠金或只有官网 chat 页面才能联网/识图的就不测了，只用 API。

Qiner · 2024 年10 月 17 日 00:35

#AFF添加

handsome · 2024 年10 月 17 日 00:41

还可以呀qwen

Madlifer · 2024 年10 月 21 日 23:44

从OCR图片的角度测了一下

只有零一万物能够准确理解并正确输出，Pro/Qwen/Qwen2-VL-7B-Instruct 偶尔能输出明白，但不够稳定，其他的回答都扯犊子的。

6块钱1M，基本上也就是1.2-1.5/K次访问，这价格还好，只是不能嫖了，后续我会给我的软件的付费用户用上。

jcc · 2024 年10 月 22 日 05:45

你用错了吧。。。你用的是0.35每M的7B模型

好用的是那个4.3每M的72B模型

话题		回复	浏览量
AI大善人榜(2024 年 4 月) ，最后一天投票啦~~ 资源荟萃人工智能	46	2955	2024 年8 月 29 日
最近连开了gemini和claude，谈谈心得。资源荟萃 ChatGPT , 人工智能	52	2930	2024 年8 月 29 日
分享个新的免费API网站 (可用GPT4/Turbo/O) 资源荟萃 ChatGPT , 人工智能	109	5209	2024 年9 月 3 日
有没有什么便宜的第三方？稳定的那种，白嫖毕竟不长久，知识付费一下搞七捻三 ChatGPT , OpenAI	27	3211	2024 年4 月 22 日
241106 三花AI日报：英伟达开源 ConsiStory 角色一致性技术；腾讯混元大开源；HelloMeme 表情克隆技术；xAI API 每月白嫖 25 美刀前沿快讯人工智能	3	297	2024 年11 月 6 日