前言
市面上有不少的pdf解析工具,但是要么效果不够好,要么价格太昂贵
给各位佬自荐下我们开发的pdf解析工具Doc2X
效果够好(复杂布局,公式,表格都能handle),价格也足够便宜(网页0.01元/页,API 0.02元/页),
相比mathpix的 0.02美刀/页 textin 的0.05元/页 腾讯云的0.1元/页等还是便宜很多
效果展示
旋转表格识别:
公式识别效果:
使用方法
API 调用
api需要在 Doc2X开放平台 注册使用
调用也很简单,我们提供了pip包 pdfdeal 轻松安装调用
pip 安装:
也有文档提供使用
此外还可以使用我们的开源项目在Doc2X解析后翻译md:
Doc2X API翻译
网页/客户端使用
网页上使用 Doc2X则更方便:
在 Doc2X 中注册后即可使用,并且每月签到会赠送100页的解析/翻译额度以及100张的图片识别额度
在当前评论区评论也有机会赠送我们的月度会员兑换码
导入知识库
fastgpt
扣子
在扣子中搜索doc2x插件 并填入API
graphrag
cherry studio & others
以网页为例:
点击右上角的导出 markdown,选择公式模式等选项,得到的是一个zip包
里面有解析好的 md 文件和 图片等
或者使用导出在线图床,将md文件拖入对应软件即可
markdown预览推荐
Doc2X解析的内容推荐使用vscode 插件 shd101wyy.markdown-preview-enhanced
并按照下面教程配置:
// ctrl/cmd + shift + p 打开vscode快捷面板
// 输入: preferences: open user settings (JSON)
// 将下面片段加入JSON 即可
"markdown-preview-enhanced.mathRenderingOption": "MathJax",
"markdown-preview-enhanced.mathInlineDelimiters": [
[
"$",
"$"
],
[
"\\(",
"\\)"
]
],
"markdown-preview-enhanced.mathBlockDelimiters": [
[
"$$",
"$$"
],
[
"\\[",
"\\]"
]
],
总结
使用Doc2X可以方便快捷便宜的将pdf解析成结构化的md文件,并且公式表格复杂布局等也能精准转换
在当前评论区评论也有机会赠送我们的月度会员兑换码
大家有什么建议反馈也可以评论区留言,我们会不断优化效果