万能的网友们,教一教知识库文档

事情是这样的,我们公司有一些内部文档想要做一个知识库(向量数据库),用来做 RAG,这些文档有 word 、 pdf,文档大小不一,但都不是一两百个字那么短的,并且这些文档可能没有规范的标题(标题有,但是没有结构化明白我意思吧,就是自己手动列个 123456 那种),导致我可能也无法用程序去按照标题分割内容,以上种种,我该如何处理文档,如何切割文档呢?

我的设想:不管文档内的标题了,只按照长度分割(但是会加上文件名作为一级标题),查找到文档后因为有 meta(知道文件地址),直接把文件内容全部读出来做上下文。

有没有相关经验的,有没有好方案的,舅舅孩子吧

2 Likes

人工智能快问快答

难道不是直接丢给大模型吗??要啥直接问大模型

你是说我的问题直接问大模型还是啥?

听着就很高级

这个项目可以把你的文档全添加进去,然后直接问这个就行了

2 Likes

正好我有相关想法,之前查了下,得做成问答然后训练模型?那不是还得整理好多问答

不需要,这个直接问就行了,它会查找你添加的文档进行回答

1 Like

应该能自行检索

我没看到他在知识问答方面有啥优势哇,我们已经部署了开源模型,现在问题是怎么处理文档

不用处理啊,把文档路径加进去就行了啊

你理解错我意思了,有成千上百个文档需要做成企业的知识库,而不是上传文档进行问答-----------是不指定文件,从成千上百个文档(或者说知识库)中寻找回答,而不是从一个文档中进行问答

整理成 QA 训练模型那压力在其他所有部门,不管开发啥事儿了,那最方便了哈哈

:joy:对啊,你把所有文档放一起,然后别人直接问,它就是检索你所有文档,从中回答

所以你可以看下我的描述,其实我原本是想解析文档的标题然后组合成 QA 的,但是文档没有规范的标题。。

what?几百兆的文档他能做到么 :scream:

几百m的没试过,你可以测试下,这个项目纯本地,不联网不会泄露数据

我试试吧,我的 m1 不一定搞得起来。。

只要有标题,可以按照标题切分,然后存储到向量数据库中,QA问答。
python-docx,可以进行这个操作,pdf就要看是图片pdf还是其他的了,要么就转成word再进行操作。我最近也是在构建这个。不过我的关系性更强,用到了neo4j

只是搜索文档还是简单的,问题是除了文档还有PDF 还需要识别内容 检索出来在进行问答提取 这个开源估计没有 定制开发估计能搞 先要OCR对PDF处理才行