关于 PDF 有什么好的方式转成成文字发给 AI 模型

最近用 GO 在写一个 AI 的项目, PDF 这鬼东西真不好转文字呀.

Rust 也测了一圈,有的 PDF 也是无法正常转换.

4 Likes

通过 api 发给 mineru一类的工具解析?

1 Like

好像这成本就有点高了

mistral-ocr

这两个项目看过没有?

5 Likes

转成md?

不多的话,到论坛找找,有个富可敌国可以转md,效果还不错,还有个也可以转pdf的ai帖,你搜一下。

部署起来有点麻烦, 本来使用 Go 或者 Rust 就想简单点, 不过没事, 可以做后备方案

也不一定要 md , txt 也可

好的,我先找找

md比较通用,我觉得还是转md吧

:joy: 如果 txt 都没办法, 那么 md 更加没办法

转txt应该很简单吧,反正python都有现成的包用

如果是知识库的话,就可以直接用PDF,为给模型。如果你必须把PDF转成文字,那你就在AcrobatRead中,另存为word或txt等文字,如果PDF格式是图片型的,你就需要用OCR软件,把文字转换出来。

有些模型不支持发送文件吧?比如 v3

如果是使用知识库,必须把PDF文档向量化,然后给V3就没问题。

可以参考这篇贴文
https://linux.do/t/topic/479634

https://linux.do/t/topic/495046?u=joegodwanggod
期待一手我的工具
如果我的工具確實好用還請給個解決方案

好的,关注下

是单个对话而已

只有文字还好,有没有表格,有没有图片