分析下目前pdf沉浸式翻译中存在的难题

yoyo · 2024 年11 月 3 日 03:45

前几天写了个pdf的翻译工具，后来因为有人上传敏感信息关闭了。后来在优化的时候遇到了一些问题，然后也查询了很多的资料，发现有很多问题是不好解决的
1. 数学,公式不好识别
单独的OCR公式是有很多东西可以做到识别的，但是在pdf的文本中是有很多数学符号，夹杂公式描述，目前的死板做法是全部当做字符处理，那么翻译的结果就是不对的。

2. 版式复杂影响阅读顺序
这个主要就是阅读顺序的问题，可以看下面的截图，正常人是可以理解到我们的阅读是按照123顺序阅读的，但是目前的pdf解析工具基本都是分块解析文本内容，这样就会将原本完整的内容截断，上下文内容截断，那么翻译的时候也会不准确。需要识别出文本的阅读顺序，这个是pdf工具目前没有很好解决的问题。查到一个layoutlm使用机器学习的方法来做这个阅读顺序，但是他没有使用文本理解的方式。相同的版式，不一样的阅读顺序，这样的例子有很多。那么同样一个排版的话，只有人类理解了语义才会知道阅读的顺序是什么。

使用大模型进行翻译还是使用Google或其他机械翻译，实际上如果解决了上面的2个问题，他们在翻译准确度上是很高的，有上面的问题存在，llm沉浸式的翻译也会一样不准确。我也看过各种沉浸式的翻译工具，其实也没有解决上面的2个问题。

caonima · 2024 年11 月 3 日 03:51

OCR是这样的，会改变排版

xf17 · 2024 年11 月 3 日 04:03

用这个，公式识别非常好

Yukwai · 2024 年11 月 3 日 13:20

感觉要上一些版面分析的模型做处理。

2940856917 · 2024 年11 月 3 日 16:13

pdf解析也是个老大难的问题了。目前也有一些 llm 专门处理这些文件转换的问题。

yoyo · 2024 年11 月 4 日 07:58

为了验证你说的这个我特意去试了下：
他可以解析论文类的公式也解析了，不错

但是他目前没有解析复杂pdf的能力 非论文类杂志类 他不行

circle-cc · 2024 年11 月 8 日 15:50

您好, 杂志类表现不好的您可以加vx: Doc2XOfficial 反馈给我们优化, 会给您赠送会员

话题		回复	浏览量
目前哪一个模型可以直接翻译pdf 并且导出为pdf 开发调优人工智能	19	601	2024 年12 月 23 日
有没有什么翻译页数比较多的pdf的好方法开发调优快问快答	20	402	2024 年8 月 29 日
好用的PDF翻译推荐资源荟萃 DeepL , 沉浸式翻译	12	424	2024 年12 月 23 日
大家都用什么来翻译文献开发调优快问快答	38	2035	2024 年8 月 29 日
如何扫描一本书并翻译搞七捻三快问快答	37	994	2024 年12 月 10 日

分析下目前pdf沉浸式翻译中存在的难题

相关话题