关于翻译OCR的各种问题,OCR的API调用相关的咨询

各位好,最近在弄漫画和图片翻译相关的东西,大大小小都买了好几个OCR翻译软件,每个都是别人有的好处,他这边没有,发现很多都是OCR造成的,后来下载了一个免费的需要自己调试和调用API的软件,才发现这东西还是需要自己动手。。。

首先遇到的问题当然就是哪个OCR更好,我自己用过非常多OCR
本地OCR

  1. WINDOWS OCR: 是截屏工具还是照片中的一个子功能,发现特别差,但胜在免费,一旦漫画和图片出现艺术字自己比较难看的字体那么扫描质量完全不行。

  2. 微信/QQ OCR, 这个也是看看就好,目前来看功能和Windows自带的差不多,还需要开启微信来扫描,意义不是特别大

  3. Manga-OCR 这个自己部署好像比较麻烦 目前我还搞不清楚本地搭建, 主要是Cuda的安装上除了问题,目前还在自己研究当中 目前在学习python的东西,

在线OCR
这是我不太了解的,也是目前希望大家给出意见的

百度OCR,这个我用过,但是很久之前的事情了,感觉也就那样

Google Lens:这个非常好用,但是会不稳定,不太清楚能用多少次,扫描内容特别准确,很强大。

希望了解的:
Google Cloud Vision AI这个也是谷歌的,但具体怎么使用不太清楚,请问效果如何

Gemini 和 GPT 这个应该是调用识图接口填上api,然后设置相应的prompt进行翻译吧,请问那个效果比较好,这个估计会很费token,而且好像就gpt4才能识图。

目前的话还不知道其他OCR的效果,个人感觉腾讯,火山那些也大差不差,所以暂时不考虑,除非各位佬友推荐,还有那些OCR比较好用,按道理说manga-ocr是最好的,不但时本地的,而且不花钱,问题是不知道怎么搭建,安装老是出错。不知道是不是python 版本不兼容还是怎样,pip 安装一直失败。

1 个赞

GitHub - zyddnys/manga-image-translator: Translate manga/image 一键翻译各类图片内文字 https://cotrans.touhou.ai/ 这项目不都给你集成好了 挺傻瓜式的

1 个赞

我看到GitHub release 已经两年没更新了,所以没有看,看了下discord确实好像还有人在用,可以去了解下。

这库我昨晚还在跑呢 :rofl: