前几天写了个pdf的翻译工具 ,后来因为有人上传敏感信息关闭了。后来在优化的时候遇到了一些问题,然后也查询了很多的资料,发现有很多问题是不好解决的
1. 数学,公式不好识别
单独的OCR公式是有很多东西可以做到识别的,但是在pdf的文本中是有很多数学符号,夹杂公式描述,目前的死板做法是全部当做字符处理,那么翻译的结果就是不对的。
2. 版式复杂影响阅读顺序
这个主要就是阅读顺序的问题,可以看下面的截图,正常人是可以理解到我们的阅读是按照123顺序阅读的,但是目前的pdf解析工具基本都是分块解析文本内容,这样就会将原本完整的内容截断,上下文内容截断,那么翻译的时候也会不准确。需要识别出文本的阅读顺序,这个是pdf工具目前没有很好解决的问题。查到一个layoutlm使用机器学习的方法来做这个阅读顺序,但是他没有使用文本理解的方式。相同的版式,不一样的阅读顺序,这样的例子有很多。那么同样一个排版的话,只有人类理解了语义才会知道阅读的顺序是什么。
使用大模型进行翻译还是使用Google或其他机械翻译,实际上如果解决了上面的2个问题,他们在翻译准确度上是很高的,有上面的问题存在,llm沉浸式的翻译也会一样不准确。我也看过各种沉浸式的翻译工具,其实也没有解决上面的2个问题。