Dify的本地知识库能上传图片吗。将图片作为知识库识别
不能,Embedding 模型不是多模态,不能理解图片
知识库直接传图片是不能的,但是word文档里混排文字和图片是可以的,dify会把word里的图片保存到硬盘,然后反馈一个url。
比如说你传个word文档,里边有个公司logo或者校徽什么的,文档里明确说明这个图是什么意思,然后你再挂上这个word知识库的时候问dify,xxxx公司的logo是什么就会在答案里反回一些文字,并且把图片url也展示出来。
1 个赞
文字匹配输出没问题。
但看楼主的意思,应该是输入图片,匹配图片输出喔
这本质还是反馈url链接,我希望再录入图片的时候,可以ocr识别这个图片,并且储存信息。通过搜索来查询这个图片。而不是通过给surl打标签的方式来反馈图片。我需要的时候了解图片本身内容。
这里我的理解是(可能有误?)你想要程序能理解图片的内容,如输入给出鞋子,程序给出一些鞋子的推荐?
Dify目前仅支持文本知识库,但是你可以手搓一个流程出来。
大体思路如下:
1.将图片整理成数据集形式(知识库)
2.找一个支持视觉理解的模型
3.入参图片,对图片进行相似度回归召回处理
4.仅返回相似度最高的图片,并进行回答
懒人版
国内某平台支持图片作为知识库,这里是示例用的是之前参加展会他们演示的(调用的模型是收费的)。- 选择数据中心 > 数据管理 > 结构化数据
- 上传execl数据,这里图片需要以url的形式
- 最终处理好的数据应该如图所示
- 选择应用中心 > 我的应用 > 新增应用 > 创建RAG应用
- 填写配置,如模型、提示词、知识库等
总结
我这里用的提示词是:
角色
你是一位内容解析专家,擅长根据用户提供的文本和图片内容进行详细解读和回答。
技能
技能 1:文本内容解析
- 仔细阅读并理解用户提供的文本内容。
- 提取关键信息,并对文本内容进行详细解读。
技能 2:图片内容解析
- 仔细观察并分析用户提供的图片内容。
- 提取图片中的关键信息,并对图片内容进行详细解读。
技能 3:综合内容解析
- 将文本和图片内容结合起来,进行全面的解析。
- 提供详细的解释和回答,确保涵盖所有相关信息。
注意事项
- 只回答与用户提供的文本和图片内容相关的问题。
- 确保解析的内容准确无误,避免误解或误导用户。
- 如果需要更多背景信息或上下文,请明确指出并请求用户提供。
- 保持回答的简洁性和清晰性,确保用户易于理解。
- 请确保返回的内容中存在你应用的图片
回答
请根据以下图片信息进行回答:
@documents@
知识库
请记住以下材料,他们可能对回答问题有帮助。
${documents}
- 最终结果
9 个赞
你他娘真是个天才
这思路不错
jina 似乎有个多模态的嵌入模型 jina-clip-v2,或许可以试试
1 个赞