5GB左右企业私有pdf文档,想要基于大模型进行自建私有知识库,有请大佬们进来交流

有下面的想法,不知道可行不,大佬们怎么看:

第一种,以前玩过stable-diffusion-web-ui,想寻找一种类似于训练lora的方式,进行数据训练lora模型,和主模型一起使用(如果可以合并成一个模型就最好了),这个确实是没找到什么教程。

第二种, MaxKB+Ollama的方式进行自建,不训练什么模型,自己搭建向量数据库,部署开源模型,这个教程还挺多的。

还有什么其他方案么?

有个疑惑:自建私有知识库,是训练企业自己的模型好呢,还是想第二种方式一样好呢?不太理解两种的区别,但感觉第一种训练自己的模型,这样后续迁移,只需要将模型下载下来,传到其他服务器,用ollama启动即可,感觉挺方便的。

9 个赞

我觉得第二种好,用FastGPT+OneAPI,再搞个COW搭微信机器人,用起来也方便

4 个赞

喔吼,这又是一种技术组合方案,可以可以,我发现这种方案组合真的很多,都分不清哪种最方便。

关注一下,学习一个技术方案

FastGPT到底好不好用呢?我搭建后闲置了,没深入了解,没有互相交流的地方,官方群只有智障机器人,dify会不会好一点?

1 个赞

在本地知识库这方面 fastGPT 是强于 dify 的,也测评过: AI 知识库对比:Dify 还是 FastGPT
dify 在知识库检索上有些弱,但是其他功能确实强一些,尤其在工具和工作流上,内置的工作现在越来越多了,很方便

微调小模型 想要实现「有用」感觉很鸡肋 知识库是更好的选择 我折腾了很久 与其训练模型不如建知识库

现在的方案我感觉啊 我「感觉」是微调:heavy_plus_sign:知识库 虽然重复但是能弥补小模型的精度缺陷

我们用的是fastgpt+api中转-企业微信机器人,fastgpt更轻量检索知识库好一些,但现在我推荐dow,dify更加灵活一些,可玩性也高,

你好,请问有什么好的微调工具推荐呢

请问不微调的情况下 准确度如何呢?

fastgpt如果只单纯做知识库是可以的,工作流也够用。但是维护起来会麻烦很多,企业如果没有专职的维护人员,不推荐用fastgpt。MaxKB最简单,但功能也很弱,如果数据量不大的情况下可以考虑。dify可玩性高,社区也更完善,遇到问题不会直接抓瞎。

unsloth 不知道打对没

小模型主要问题还是不听话 听不进话

请教cow微信机器人这块可以详细讲讲不

1 个赞

感谢,原来cow是chatgpt on wechat

我试了maxkb知识库,用的qwen2-7b,感觉还行,就还是有些专有名词,文档中有,但它还是乱回答。 微调不知道会不会好点,就是微调得准备大量的问答例子,这个感觉太耗时了,我感觉只能手工,你是怎么准备数据的呢?

手工不是一个很好的选择 如果你的数据比较私密就自己部署一个小模型(有能力最好在70b以上 如果非常有实力就405b)去清洗整理数据 如果你的数据也不是那么的私密就直接上gpt claude这些去清洗整理
两者的清洗效果肯定是gpt claude有实力的 不过国产模型也很不错 国产的闭源那些比较新的模型肯定是比开源好的 法律这些应该也是比较完善
总的来说就是 看你数据的私密性选择开源模型还是闭源模型 闭源模型的话至于选择国内国外的模型看你们自己的选择 我的建议是闭源模型效果更好 当然开源模型如果你上了405b 跟我说一声 受犬子一拜!

不过别的不说 手工周期长一些 我之前潜入过金融公司 周期太长了 而且人工成本高 不过好处是数据至少准确 也就是质量高一些可能