gemini2.5 ocr能力屌爆了


手写汉字轻松拿捏。。。

23 个赞

gemini 多模态能力一直都是顶尖的,从 1.5 时代就很强

1 个赞

这都能识别啊

2 个赞

有些字蛮潦草也能识别,是蛮狠的

1 个赞

哇!这么强!

这么厉害,

1 个赞

OCR我觉得用2.0 Flash够了,2.5 pro 真的有点浪费资源了。

9 个赞

看了原视频,的确可以碾压手机里的扫描app

Qwen-VL-OCR-Latest 识别出来差一个落字,看起来跟截图之后鼠标挡住有点关系…

细雨初晴润苔痕
闲登小径入荒村
风前杨柳千丝动
树下花点点魂
春日暖云影温
诗情画意且留存
漫山桃李无言语
纷飞快蝶入紫门

感觉以后,人能看懂的,AI也能看懂。
人看不懂的,AI也有可能看懂。

1 个赞

真的厉害了

nba :+1:

这个好像不开源吧,不过识别好屌

这个视频在论坛一个佬友的帖子里有总结,总之OCR识别是真厉害,对比当下openai Claude,还有千问

视觉能力很强,用来翻译漫画也可以理解分镜顺序了

医生的手写处方能不能识别 :nerd_face:

2 个赞

试了下识别拼音,比豆包差点。

求问对于带箭头的流程图,哪个模型效果比较好

gemini确实很强

来人,上中医方子