千页pdf公式表格精准解析,轻松构建知识库

前言

市面上有不少的pdf解析工具,但是要么效果不够好,要么价格太昂贵
给各位佬自荐下我们开发的pdf解析工具Doc2X
效果够好(复杂布局,公式,表格都能handle),价格也足够便宜(网页0.01元/页,API 0.02元/页),
相比mathpix的 0.02美刀/页 textin 的0.05元/页 腾讯云的0.1元/页等还是便宜很多

效果展示

旋转表格识别:


公式识别效果:

使用方法

API 调用

api需要在 Doc2X开放平台 注册使用
调用也很简单,我们提供了pip包 pdfdeal 轻松安装调用
pip 安装:


也有文档提供使用

此外还可以使用我们的开源项目在Doc2X解析后翻译md:
Doc2X API翻译

网页/客户端使用

网页上使用 Doc2X则更方便:
Doc2X 中注册后即可使用,并且每月签到会赠送100页的解析/翻译额度以及100张的图片识别额度
在当前评论区评论也有机会赠送我们的月度会员兑换码

导入知识库

fastgpt

扣子

在扣子中搜索doc2x插件 并填入API

graphrag

cherry studio & others

以网页为例:

点击右上角的导出 markdown,选择公式模式等选项,得到的是一个zip包
里面有解析好的 md 文件和 图片等

或者使用导出在线图床,将md文件拖入对应软件即可

markdown预览推荐

Doc2X解析的内容推荐使用vscode 插件 shd101wyy.markdown-preview-enhanced
并按照下面教程配置:

// ctrl/cmd + shift + p 打开vscode快捷面板
// 输入: preferences: open user settings (JSON)
// 将下面片段加入JSON 即可
"markdown-preview-enhanced.mathRenderingOption": "MathJax",
"markdown-preview-enhanced.mathInlineDelimiters": [
    [
        "$",
        "$"
    ],
    [
        "\\(",
        "\\)"
    ]
],
"markdown-preview-enhanced.mathBlockDelimiters": [
    [
        "$$",
        "$$"
    ],
    [
        "\\[",
        "\\]"
    ]
],

总结

使用Doc2X可以方便快捷便宜的将pdf解析成结构化的md文件,并且公式表格复杂布局等也能精准转换
在当前评论区评论也有机会赠送我们的月度会员兑换码
大家有什么建议反馈也可以评论区留言,我们会不断优化效果

176 个赞

太强了,支持支持

13 个赞

感觉不错:star_struck:

10 个赞

pdf解析良好成 md 对于 rag效果有很大的提升
我们网页上也有AI对话功能是用RAG实现的,大家可以试试效果:

16 个赞

注册了,求送一个月会员体验

12 个赞

已发送~

5 个赞

试过很多方案,doc2x这个绝对是市面上目前最好用的pdf转markdown。早已是年会员~

9 个赞

注册了,同求个试用

5 个赞

已注册~求会员:heart_eyes:

3 个赞

已发送~

2 个赞

已私聊发送~

2 个赞

不错 支持一下 我也想体验一下

2 个赞

谢谢老板!

1 个赞

看上去不错,要支持下。

2 个赞

太强了,大佬!

1 个赞

求送一个月会员体验

1 个赞

已私聊发送~

1 个赞

已经私聊了~

1 个赞

已私发送

1 个赞

很强啊佬

1 个赞