请教佬友,几十万文本搭建知识库的问题

数据量那么大
哪个平台会支持的比较好。ragflow?fastgpt?

如果都放在同一个知识库,检索会不会极慢

先谢谢了

10 Likes

我没有试过那么大的啦,但是我把武林外传的台词本传到豆包,它会只总结最前面的部分。而支付宝的百宝箱(就叫这个名字),则是直接上传失败了。

1 Like

我记得之前有个pdfgpt来着,你这才几十万应该还好

1 Like

不会啊,还可以的

2 Likes

mark 我也学习一下 :tieba_087:

1 Like

我也来学习一些

1 Like

在做embeding之前会进行切片的,也就是说会把你的几十万文本切成若干片,现在的向量数据库很快的,你这个量级不算多

1 Like

没问题,但是需要预留一些内存空间,这样不会耽误你分段处理保存

我自己是用的fastgpt

1 Like

想问一下,自建好还是托管好?

1 Like

就一个保密性的问题,其他没啥特别的了,这个看个人的使用性质了

1 Like

隐私确实是一个问题,主要还有维护的问题,一个人使用倒还好,如果是多人使用,就要考虑运维的一些东西,感觉还挺复杂的。

1 Like

个人使用轻量级可以用托管dify啥的就行,公司这种得看具体情况了,我们就自己部署

可以的话使用MAX KB 的集成哈哈哈,回去我发个帖给大家看看实战的效果

能多分文档就多分. 切片往往不太准

佬,用的fastgpt吗?还是dify之类的。求教,也想搭建一下。

我们用的dify,然后还有ragflow

让AI吃掉,搞个收费提问不就完事了

入门比较推荐dify,dify生态一直都很不错,更新很勤快,之前一直饱受诟病的知识库问题现在也在逐步优化

好的,感谢!我试试能力

1 Like

之前给公司搭的 架构魔改的onyx 向量检索用的es
200多万条向量,检索大约几十毫秒左右。

1 Like