(๑•̀ㅂ•́)و✧¦Gemini-Exp-1114¦API 渠道已支持『视觉』识别

已经取代 Claude 3.5 Sonnet 成为新王了总而言之。

PS. NextChat 官方版靠 模型名称关键字 识别视觉模型,需要名称带有 vision 或 gemini-1.5, claude-3 等特定关键字 才显示视觉按钮,所以自己部署的话可以去 one/new-api 写个自定义名称改成带 vision 的诸如此类。


只是想试试的话,这贴的 15.cn… 前缀那个版本是支持的因为我手动加进去了

!但是默认的 OpenAI, Google 渠道建议用自己部署的或独立 APP,因为默认渠道走的是服务器反代,会有日志。

不过 自定义接口 就是自己填 URL 那种,例如硅基流动 就随意了因为本地跟 NextChat 服务器只有请求前端静态资源的一次性交互,之后就是本地和自定义接口直接交互了不走反代。

25 个赞

佬,个人API使用限制是什么,免费请求次数。我记得之前原来1.5是每分钟60次

1 个赞

gemini香了

1 个赞

这么爽?我试试看,你用的什么客户端?

应该没变,pro 免费账号一天 50 次(flash 是 1500次/天),上下文都是 200 万满的免费账号也是。就是 1114 上下文目前只有 30000+(有思考链,多了硬件爆炸)

NextChat,随便哪个客户端都行。

用的哪个版本的 NextChat 啊?我模型选择 gemini 上传图片按钮就没了

1 个赞

用的是官方Key吗,目前不是还没支持API吗

1 个赞

就是 Google AI Studio 那个官方 Key。 :bili_040: 所以才是新闻啊,已经官宣了就没必要发帖了。

1 个赞

nextchat 的视觉模型检测太拉了,每次都要手动适配

前两天支持 api 了

1 个赞

是的,官方版写死的视觉模型是:vision、claude-3、gemini-1.5、gpt-4o… 可以自定义名称(要带 vision 或上述任一)或用其他客户端。。

还是 open-webui 好

可惜 vertex 暂时没有计划适配

Claude识别漫画就没当过王,一开始是4o后来是Gemini(

:bili_040: 这是 Claude 识别纵向文字的能力 漫画原图没保存,看看 4o 的。
https://linux.do/t/topic/247349

图截两半,太不方便了,而且这图难度也很低,就一句竖行字体还很大。
但漫画场景我试过很多次了,6月版的Claude完全是废物,10月改进了不少但还是不如4o。Gemini1114没多试,001竖版也很废,002竖版漫画文字基本和4o同水平,横版手写字体完爆其他两家

:bili_040: 哦哦,我的 4o API 老是拒绝识图。

感谢大佬的分享

1.5pro002,没有写出左下格和右下格的拟声词,其余的完美


4o,没有写出右下格的拟声词,其余只有一处ちいおじ写成了ちぃおじ

3.5sonnet
左上格缺句私たちのこと,ミセド错认成リセット,行ったりもしたげど错认成行ったけど,それだけど错认成それだって
右下格漏拟声词
左下格漏拟声词,ちいおじ错认成ちょい

Gemini 1114 几乎完美,只有右下格的拟声词错归到左下格,一个た认成了だ

总的来说和我之前的感受完全一致

1 个赞