行业内的模型平台,上传文档,并根据文档回答是怎么做的?

行业内的模型平台,上传文档,并根据文档回答是怎么做的?
例如阿里的千问,
他是把上传的文档解析后作为的知识库,使用rag增强检索的方式?
如果作为rag增强的方式,但是关于提问时先从向量库检索后的分块和问题一块交给大模型,很大可能出现提问检索时没有检索到对应的文档内容,就会出现幻觉。
知识库是不是存放相关规定标准知识的?或者Q-A文档的?

还是将文档解析后,通篇扔给的大模型,基于大模型对token都快可以无限长的能力?

有没有相关落地经验的大佬给解答讲讲,或者有类似的项目或者例子,帖子都行。

2 个赞


例如文心一言

不知道,帮顶一下

1 个赞

前阵子大佬们给提出的RAG思路,但是准确性较差,或者说提问时,根据问题和分块的文件内容进行相似度匹配,很有可能找不到想要的那一块文档内容,就导致问题和匹配到的文档块一起交给大模型时,也就回答的不是想要的

coze是不是可以,有知识库和数据库功能

应该是不太合适我想要的是随时上传文件,而不是手动创建知识库,而且我要求上传的文档不会是表格或者通篇文本,有文字,有图片,有表格
而且扣子这个架子,那种工作流设置目前不是我想要的

不懂帮顶

没试过耶

基本都是rag,落地还得考虑成本的,所以文档信息分块是个很关键的工作,这对向量检索的影响巨大