事实证明，Gemini1.5Pro的识图能力最强，没有之一，本人实测

Carlxlx · 2024 年11 月 14 日 15:03

有图有真相

以上全部是使用官方API Key，官方网址直连，不经过任何中转得到的结果，不存在任何掺假可能

为了测这个我还特意往OpenAI充值10美刀，Claude充值5美刀，钱包在滴血

识别文字的事已经被测试了无数遍了，这里就不发了，Gemini1.5Pro的特点就是手写体以及各种奇形怪状的都可以一定程度识别，相比较来讲国产大模型也就能识别个印刷体的中文跟英文

要不是Gemini1.5Pro免费额度太少，恨不得天天用它识图。回来整几个号轮询试试

banlan · 2024 年11 月 14 日 15:05

太强了，佬
Gemini 1.5pro，太强了

Kerrry · 2024 年11 月 14 日 15:09

New api 多接几个就行了

awz707 · 2024 年11 月 14 日 15:10

Gemini的API额度确实太少了

awz707 · 2024 年11 月 14 日 15:11

NewAPI是权重分配，做不到轮询吧，想要保证对话额度还得用cf或者走服务器中转来轮询

leileio · 2024 年11 月 14 日 15:16

Gemini 1.5 pro是不是要付费订阅的那个？

Carlxlx · 2024 年11 月 14 日 15:18

用API有免费额度，但是很少，每分钟只能用两次

Kerrry · 2024 年11 月 14 日 15:18

就是多搞些账号申请api key，我自己搞了20个

awz707 · 2024 年11 月 14 日 15:20

我勒个豆，这么有实力
我手里只有3个谷歌账号

Qiner · 2024 年11 月 14 日 15:21

来，识图翻译翻译

Kerrry · 2024 年11 月 14 日 15:22

我用手机直接注册不用手机号验证一次能搞好几个

awz707 · 2024 年11 月 14 日 15:23

看来是我节点的问题了，我手机注册还要验证手机号，不过好在国区+86号也能过

Qiner · 2024 年11 月 14 日 15:29

但是 GCP 的 3.5 Sonnet 又无了，降到 15K TPM 还不让用多模态了直接 429。

哦？小图还可以，确实是 TPM 的问题。

vincentlei666 · 2024 年11 月 14 日 15:43

确实，多模态这块还得属 Gemini 1.5 Pro

F-droid · 2024 年11 月 14 日 15:48

这还少！你要怎样才算多，一天也能调用几千次呢！要是沉浸式翻译肯定顶不住，但是解决其他的日常用途还是轻轻松松的

Carlxlx · 2024 年11 月 14 日 15:49

还得是Gemini

lueluelue · 2024 年11 月 14 日 15:50

Gemini 1.5 Pro识图确实是强啊！感觉gpt4o的识图现在变废了，可能是我感觉的问题

Carlxlx · 2024 年11 月 14 日 15:54

没准OpenAI给集体降智了，把算力拿去给o1

starkvber · 2024 年11 月 14 日 16:11

Carlxlx · 2024 年11 月 14 日 16:13

我又测试了一下，单纯调用API就是我那样的，从你这看应该是网页版内置的prompt比较有用

话题		回复	浏览量
Gemini-exp-1114的视觉能力得到巨大提升资源荟萃 Gemini , 人工智能	26	1527	2024 年11 月 29 日
用gemini–exp-1121来做OCR或者验证码识别有多强？开发调优人工智能 , 快问快答	0	253	2024 年11 月 27 日
gemini-exp-1121的视觉能力没啥提升资源荟萃 Gemini , 人工智能	3	329	2024 年11 月 22 日
gemini2.0 flash可以识别AI动漫图像还能给出具体的细节原因搞七捻三 ChatGPT , OpenAI , Gemini , 人工智能	4	589	2024 年12 月 13 日
鉴定是否 Gemini 模型的方法 ( 可能大部分 pro-exp 和 pro-002 通用，未广泛测试其他模型) 搞七捻三人工智能	2	149	2024 年12 月 7 日