如何开发一个支持多翻译引擎的文档翻译程序?

“开发一个支持多翻译引擎的文档翻译程序”

从我研究Deepl无限次文档翻译开始就有这个想法了。但是迟迟没有动手,毕竟文档解析并非易事,尤其是兼容各种排版。

今日又是心血来潮,打算开发一个支持:docx、pptx、xlsx、txt 等多种格式并支持:deepl、microsoft、google、tencent 等多种翻译引擎的。

这时,问题就来了。

  1. 这与 “沉浸是翻译” 有何不同?
    沉浸式翻译基于文本的,在 docx、pptx、xlsx 等格式上乏力,沉浸式翻译迟迟没有出翻译 office 文档的功能可能也是与他们的发展理念不同。

  2. 这与网上免费的文档翻译有何不同?
    在网上搜索到了很多翻译文档的网站,但是他们都是基于某一个翻译引擎。

  3. 最终效果是怎样的?
    当用户上传一个文档,提供源语言(或自动检测)和目标语言即可翻译。

  4. 支持哪些格式?
    打算支持 docx、pptx、xlsx 。为什么没有 PDF ? 因为沉浸式翻译已经有了,则不优先考虑。

  5. 支持哪些翻译引擎?
    deeplx(deeplx.org)、google、microsoft、tencent 等等。

  6. 数据安全问题如何保障?
    后台不存储任何文档内的日志,所有文档翻译完成之后1小时内彻底删除。

  7. 目前进行到哪里了?
    刚把文件夹建好。在撰写代码的过程中可能有很多困难,也可能会因为某个难题而夭折。

  8. 为什么要做这个?
    兴趣使然。


我会经常来更新进度以及记录遇到的难题和如何解决的。

57 Likes

期待更新!

5 Likes

2024年02月05日,部分 docx、pptx 的翻译。

目前仅测试了 docx 的段落、表格、图表等,并且尽最大可能保持了原样式。样式是否与之前匹配很大程度取决于翻译引擎,因为要打标记记录样式。

下面可以看看效果(当然,这是一个很简单的例子。如果你有复杂的docx文档,请脱敏后发给我测试一下,谢谢。)



目前测试下来翻译格式效果最好的是:microsoft > google > tencent > deepl ,在接下来的我会尽可能的兼容 docx、pptx、xlsx 所有排版。


在最后,我还是希望能有更多真实的 docx、pptx、xslx文件来用于测试。

5 Likes

deepl连腾讯都打不过吗

4 Likes

是的。“格式效果”不如腾讯。免费版本的 deepl 不支持标记,所以翻译效果很差(排版很差

1 Like

期待佬友后续的进度更新。

1 Like

可以增加openai嘛

1 Like

:+1: 觉很牛掰的样子

2 Likes

追更一个

1 Like

追更一个

1 Like

追更 :yum:

1 Like

期待发布

1 Like

支持:+1::+1::+1:

1 Like

2024年02月06日,经过几个小时的研究,Deepl 也支持了。

看下几个效果图





单从翻译效果上来看还是 deepl 更通俗易懂一些。

1 Like

支持一下 OpenAI 呗

2 Likes

后续会支持的,目前优先处理排版问题。

1 Like

增加可调用openai吗

2 Likes

期待

2 Likes

插眼:eyes:

2 Likes

期待

2 Likes