各位大佬们,想用几万个本地的PDF搭建知识库做大模型问答系统,现在用阿里的百炼试了试效果不错,但是阿里对知识库有1万个文件的上限,而且只能接千问模型,想问下有没有推荐的PDF→OCR识别→RAG数据库→对接多个大模型路径,云端方案和本地方案都行,跪谢
126 个赞
FastGPT试过没?
5 个赞
关注一下大佬们的回复,对同类需求感兴趣。
FastGPT 开源项目,就是知识库检索增强系统
2 个赞
感谢始皇,我去试试
好像在ytb有人这么搞过吧. 你查查,好处是数据是你自己的然后对接不同的模型.
1 个赞
感谢,我去研究研究
里面的 QAnything 或者 RAGFlow
3 个赞
感谢
1 个赞
始皇好像很青睐这个项目。去年年中看的时候感觉代码乱七八糟的。。。现在很强了吗?
主要是偷懒不像自己写,有开源的就用用啊
1 个赞
合理,推进人类进步的最大原因是懒惰
我去年也是这个需求。。不过它 max token 还是跟着模型走,不像 coze/dify 还能再 workflow 里拆分请求。可能你接口多,没有 max token 的烦恼。。
2 个赞
mark 看看那些解决方案最好
1 个赞
请教一下,1.如果上下文很长超过max token,有什么好的解决思路?2.如果同类数据很多,几千万甚至亿级,有什么快速检索知识库的方法?
你找到方案也说一声。。我也不知道,至今的认知是除了训练私有模型外没办法
1 个赞
关注这个问题 看看楼主 最后有没有筛选出 好的方案
3 个赞
dify,fastgp
1 个赞
试了下FastGPT能够满足我的需要,我没有高端显卡,只能依赖于云的算力,用FastGPT接OpenAI的text-embedding,然后rerank模型用的cohere的api,整体效果还不错
8 个赞
大佬,想问下你的 PDF 使用 OCR 识别这个步骤是怎么做的,自己搭建的大模型库吗?我们现在也要做类似你这样的需求
- 数据格式:PDF(结构化 + 扫描版)
- 需求概述:识别各级标题、正文、图表(可以是图片格式,通过图表的标题、脚注查询即可)
- 应用场景:用户通过检索关键词,定位到哪位文件包含关键信息,以及每个文件出现关键词的原文位置