最近用 GO 在写一个 AI 的项目, PDF 这鬼东西真不好转文字呀.
Rust 也测了一圈,有的 PDF 也是无法正常转换.
最近用 GO 在写一个 AI 的项目, PDF 这鬼东西真不好转文字呀.
Rust 也测了一圈,有的 PDF 也是无法正常转换.
通过 api 发给 mineru一类的工具解析?
好像这成本就有点高了
mistral-ocr
这两个项目看过没有?
转成md?
不多的话,到论坛找找,有个富可敌国可以转md,效果还不错,还有个也可以转pdf的ai帖,你搜一下。
部署起来有点麻烦, 本来使用 Go 或者 Rust 就想简单点, 不过没事, 可以做后备方案
也不一定要 md , txt 也可
好的,我先找找
md比较通用,我觉得还是转md吧
如果 txt 都没办法, 那么 md 更加没办法
转txt应该很简单吧,反正python都有现成的包用
如果是知识库的话,就可以直接用PDF,为给模型。如果你必须把PDF转成文字,那你就在AcrobatRead中,另存为word或txt等文字,如果PDF格式是图片型的,你就需要用OCR软件,把文字转换出来。
有些模型不支持发送文件吧?比如 v3
如果是使用知识库,必须把PDF文档向量化,然后给V3就没问题。
可以参考这篇贴文
https://linux.do/t/topic/479634
https://linux.do/t/topic/495046?u=joegodwanggod
期待一手我的工具
如果我的工具確實好用還請給個解決方案
好的,关注下
是单个对话而已
只有文字还好,有没有表格,有没有图片