上传pdf/doc 等文件并进行提问和project,以及知识库提问是否是一个东西

背景

今天在讨论知识库时,导说把PDF丢给大模型提问时,是怎么操作的,我一拍脑袋说是将其embedding作为向量数据库,通过语义检索搜索与问题相关内容,被师兄和导驳斥,他们觉得这种文件只是通过技术转为文本作为模型的问题上下文

区分

那么,请问各位佬,下面三种文件上传方式是否都是一种技术吗,如果不是是否相关的技术路径呢

  • 传统聊天中的上传文件

  • project 中的上传文件

  • 知识库
4 Likes

我也有同样的疑惑,还特意问了deepseek,还是不太明白,图片是AI回答的

1 Like

你导师和你师兄说的对。佬简单点解释就是,你本机挂知识库去访问api的时候,rag是先通过你的问句,去向量库里检索出来与之相关的内容,放到SYSTEM字段里去向api提问的。这可要消耗你终端的资源啊

而在聊天窗口直接点选附件,是没有对system做任何操作的,只是简单的把文件传给了api,也就多用了点带宽。至于那边如何处理,也许是转成向量,也许是ocr识别,这就不好说了,因为压根不在你终端控制的

第一种方法,直接上传本机附件的样子

第二种方法,调用本机Dify知识库的样子

不知道这样解释佬能否理解

2 Likes

谢谢你,从你的回复加上我逐渐觉得就是单对话仅仅是把文件提取文本作为上下文,而知识库则是进行嵌入

以cherrybox为例,构建知识库需要填写embedding模型


而对话上传的文件贴心标注了不能识别图片

但是仍然有个疑问,多模态模型也能识别图像中的非文本特征,难道上传的文件不会将其文件中包含的无法OCR的图片也一并交给gpt吗

1 Like

多模态似乎是指,对图片调用图片模型的能力
然后生成模型负责处理所有的信息

emm主流的多模态模型(指visual-language model)是同一模型模型同时具备image encoder和text encoder ,也就是同时理解图片和文本信息,并据此生成文本的模型,当然也有佬这种语言模型前弄个视觉模型,视觉模型根据图像生成caption,语言模型根据图像描述进行回答的做法

另外这个似乎跟文件中的图像是否被作为上下文还是被舍弃没什么关系

1 Like

看来我的理解错误了,学习了!:grinning:

哈哈哈,没事,我也是浅浅了解

1 Like

大佬,调用知识库提问,AI的回答是不是局限在知识库里了。

客户端的知识库更适合纯文字的文件内容。 考虑图片内容需要进行单独的rag方案处理的。

我认为是embed模型没办法那么强大。

1 Like

谢谢佬,我也问了下pplx,和佬说的差不多,确实是一个复杂的黑盒子

对,会有聪明的模型被知识库代沟里的情况

不是一个东西
上传文件是让ai读你文件回复你,知识库提问是已经整理过的只是回复你

1 Like

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。