23 个赞
gemini 多模态能力一直都是顶尖的,从 1.5 时代就很强
1 个赞
这都能识别啊
2 个赞
有些字蛮潦草也能识别,是蛮狠的
1 个赞
哇!这么强!
这么厉害,
1 个赞
看了原视频,的确可以碾压手机里的扫描app
Qwen-VL-OCR-Latest 识别出来差一个落字,看起来跟截图之后鼠标挡住有点关系…
细雨初晴润苔痕
闲登小径入荒村
风前杨柳千丝动
树下花点点魂
春日暖云影温
诗情画意且留存
漫山桃李无言语
纷飞快蝶入紫门
感觉以后,人能看懂的,AI也能看懂。
人看不懂的,AI也有可能看懂。
1 个赞
真的厉害了
nba
这个好像不开源吧,不过识别好屌
这个视频在论坛一个佬友的帖子里有总结,总之OCR识别是真厉害,对比当下openai Claude,还有千问
视觉能力很强,用来翻译漫画也可以理解分镜顺序了
医生的手写处方能不能识别
2 个赞
试了下识别拼音,比豆包差点。
求问对于带箭头的流程图,哪个模型效果比较好
gemini确实很强
来人,上中医方子