求推荐PDF→OCR识别→RAG数据库→对接多个大模型的方案路径

各位大佬们,想用几万个本地的PDF搭建知识库做大模型问答系统,现在用阿里的百炼试了试效果不错,但是阿里对知识库有1万个文件的上限,而且只能接千问模型,想问下有没有推荐的PDF→OCR识别→RAG数据库→对接多个大模型路径,云端方案和本地方案都行,跪谢 :pray:

126 个赞

FastGPT试过没?

5 个赞

关注一下大佬们的回复,对同类需求感兴趣。

FastGPT 开源项目,就是知识库检索增强系统

2 个赞

感谢始皇,我去试试

好像在ytb有人这么搞过吧. 你查查,好处是数据是你自己的然后对接不同的模型.

1 个赞

感谢,我去研究研究

可以看下:GitHub - lizhe2004/Awesome-LLM-RAG-Application: the resources about the application based on LLM with RAG pattern

里面的 QAnything 或者 RAGFlow

3 个赞

感谢

1 个赞

始皇好像很青睐这个项目。去年年中看的时候感觉代码乱七八糟的。。。现在很强了吗?

主要是偷懒不像自己写,有开源的就用用啊

1 个赞

合理,推进人类进步的最大原因是懒惰

我去年也是这个需求。。不过它 max token 还是跟着模型走,不像 coze/dify 还能再 workflow 里拆分请求。可能你接口多,没有 max token 的烦恼。。

2 个赞

mark 看看那些解决方案最好

1 个赞

请教一下,1.如果上下文很长超过max token,有什么好的解决思路?2.如果同类数据很多,几千万甚至亿级,有什么快速检索知识库的方法?

你找到方案也说一声。。我也不知道,至今的认知是除了训练私有模型外没办法

1 个赞

关注这个问题 看看楼主 最后有没有筛选出 好的方案

3 个赞

dify,fastgp

1 个赞

试了下FastGPT能够满足我的需要,我没有高端显卡,只能依赖于云的算力,用FastGPT接OpenAI的text-embedding,然后rerank模型用的cohere的api,整体效果还不错

8 个赞

大佬,想问下你的 PDF 使用 OCR 识别这个步骤是怎么做的,自己搭建的大模型库吗?我们现在也要做类似你这样的需求

  1. 数据格式:PDF(结构化 + 扫描版)
  2. 需求概述:识别各级标题、正文、图表(可以是图片格式,通过图表的标题、脚注查询即可)
  3. 应用场景:用户通过检索关键词,定位到哪位文件包含关键信息,以及每个文件出现关键词的原文位置