一款PDF解析工具:doc2x
初创公司,非常给力的识别精度与价格(目前完全免费),可以说是业内良心。
doc2x可以将PDF文件转换为Markdown、 LaTeX、DOCX等格式 可以解析排版、数学公式、表格、图片、图表等, 对包含表格和公式的文档处理效果比较好,支持多语言翻译(基于glm4和deepseek),可以调用身份令牌嵌入其他应用。
竞品分析:
https://noedgeai.feishu.cn/wiki/K1NGwjuuqiI9nukgapEcUAALnLh
目前完全免费,文档识别每天500页,翻译每天200页,邀请与被邀请增加识别与翻译额度,体验地址(邀请链接,带AFF):
Tips:额度将全部用于公益GPT Academic服务器进行文献翻译(调用doc2x进行文档识别)
进入网站请先看公告说明:https://linux.do/t/topic/98213
本公益GPT Academic服务器无需注册,开箱即用。仅供个人学习使用,维护精力有限。
目前接入的工具:
marginnote:
https://www.marginnote.com/
eduediter:
http://eduediter.com/
quicker:
quicker动作:
Doc2X API的python封装,同时附带本地的PDF处理(提升PDF在RAG中的召回率)
https://github.com/Menghuan1918/pdfdeal
pot(跨平台划词翻译和OCR软件)的Doc2X插件:
https://github.com/Menghuan1918/pot-app-recognize-plugin-doc2x
Doc2X GUI,第三方Doc2X桌面应用,支持Linux(Wayland,X11)以及Windows:
https://github.com/Menghuan1918/Doc2X_GUI
GPT academic:
https://github.com/binary-husky/gpt_academic