我有个需求,大伙有什么主意

我想把扫描版的pdf变成md,然后不能识别转化的部分截取照片,比如说机器难以识别的公式,和一些图片,目前的思路是文字可以ocr,然后可以找ai润色一下,但是怎么可以得到难以转化的部分的像素位置呢

3 个赞

瞧瞧这些开源项目,看看有没有帮助
marker
gptpdf
PDF-Extract-Kit

瞅瞅这个

2 个赞

这么强的吗,都已经有产品了

赞同。之前这个测试下来蛮准确,但是只是测试阶段,没有申请下来机器,没有机会部署。

ps:这个网站有API可以免费转换

顺便再求一个 markdown to epub 的工具,转成电子书看