求推荐PDF→OCR识别→RAG数据库→对接多个大模型的方案路径

pedestrian · 2024 年6 月 25 日 00:31

各位大佬们，想用几万个本地的PDF搭建知识库做大模型问答系统，现在用阿里的百炼试了试效果不错，但是阿里对知识库有1万个文件的上限，而且只能接千问模型，想问下有没有推荐的PDF→OCR识别→RAG数据库→对接多个大模型路径，云端方案和本地方案都行，跪谢

neo · 2024 年6 月 25 日 00:38

FastGPT试过没？

linghch · 2024 年6 月 25 日 00:43

关注一下大佬们的回复，对同类需求感兴趣。

Brantfang · 2024 年6 月 25 日 00:45

FastGPT 开源项目，就是知识库检索增强系统

pedestrian · 2024 年6 月 25 日 00:46

感谢始皇，我去试试

doubao · 2024 年6 月 25 日 00:46

好像在ytb有人这么搞过吧. 你查查,好处是数据是你自己的然后对接不同的模型.

pedestrian · 2024 年6 月 25 日 00:47

感谢，我去研究研究

kisdler89 · 2024 年6 月 25 日 00:55

里面的 QAnything 或者 RAGFlow

handsome · 2024 年6 月 25 日 01:07

感谢

someway · 2024 年6 月 25 日 01:37

始皇好像很青睐这个项目。去年年中看的时候感觉代码乱七八糟的。。。现在很强了吗？

neo · 2024 年6 月 25 日 01:50

主要是偷懒不像自己写，有开源的就用用啊

moxiyang · 2024 年6 月 25 日 01:52

合理，推进人类进步的最大原因是懒惰

someway · 2024 年6 月 25 日 02:15

我去年也是这个需求。。不过它 max token 还是跟着模型走，不像 coze/dify 还能再 workflow 里拆分请求。可能你接口多，没有 max token 的烦恼。。

GonFreecss · 2024 年6 月 25 日 03:58

mark 看看那些解决方案最好

linghch · 2024 年6 月 25 日 10:36

请教一下，1.如果上下文很长超过max token，有什么好的解决思路？2.如果同类数据很多，几千万甚至亿级，有什么快速检索知识库的方法？

someway · 2024 年6 月 26 日 07:40

你找到方案也说一声。。我也不知道，至今的认知是除了训练私有模型外没办法

leoncool23 · 2024 年6 月 27 日 07:26

关注这个问题看看楼主最后有没有筛选出好的方案

wangqiang · 2024 年6 月 27 日 09:12

dify,fastgp

pedestrian · 2024 年6 月 30 日 10:36

试了下FastGPT能够满足我的需要，我没有高端显卡，只能依赖于云的算力，用FastGPT接OpenAI的text-embedding，然后rerank模型用的cohere的api，整体效果还不错

icloud · 2024 年8 月 7 日 02:11

大佬，想问下你的 PDF 使用 OCR 识别这个步骤是怎么做的，自己搭建的大模型库吗？我们现在也要做类似你这样的需求

话题		回复	浏览量
行业内的模型平台,上传文档,并根据文档回答是怎么做的? 资源荟萃人工智能	9	457	2024 年8 月 29 日
求本地大模型➕知识库的AI助手方案推荐开发调优快问快答	3	231	2024 年8 月 29 日
5GB左右企业私有pdf文档，想要基于大模型进行自建私有知识库，有请大佬们进来交流资源荟萃人工智能	34	902	2024 年8 月 29 日
求推荐一个搭建本地知识库AI的方案资源荟萃人工智能	10	424	2024 年8 月 29 日
开个大模型研究的帖子-如果将pdf文件扔给大模型,然后问大模型关于文档里的内容资源荟萃人工智能	32	1139	2024 年8 月 29 日