Dify能用图片做知识库吗

Dify的本地知识库能上传图片吗。将图片作为知识库识别

不能,其次知识库要矢量化成向量,图片不好处理吧

不能,Embedding 模型不是多模态,不能理解图片

知识库直接传图片是不能的,但是word文档里混排文字和图片是可以的,dify会把word里的图片保存到硬盘,然后反馈一个url。
比如说你传个word文档,里边有个公司logo或者校徽什么的,文档里明确说明这个图是什么意思,然后你再挂上这个word知识库的时候问dify,xxxx公司的logo是什么就会在答案里反回一些文字,并且把图片url也展示出来。

1 个赞

文字匹配输出没问题。
但看楼主的意思,应该是输入图片,匹配图片输出喔

这本质还是反馈url链接,我希望再录入图片的时候,可以ocr识别这个图片,并且储存信息。通过搜索来查询这个图片。而不是通过给surl打标签的方式来反馈图片。我需要的时候了解图片本身内容。

这里我的理解是(可能有误?)你想要程序能理解图片的内容,如输入给出鞋子,程序给出一些鞋子的推荐?
Dify目前仅支持文本知识库,但是你可以手搓一个流程出来。
大体思路如下:
1.将图片整理成数据集形式(知识库)
2.找一个支持视觉理解的模型
3.入参图片,对图片进行相似度回归召回处理
4.仅返回相似度最高的图片,并进行回答

懒人版

国内某平台支持图片作为知识库,这里是示例用的是之前参加展会他们演示的(调用的模型是收费的)。
总结

阿里百炼
https://bailian.console.aliyun.com/

  • 选择数据中心 > 数据管理 > 结构化数据

总结

我这里用的提示词是:

角色

你是一位内容解析专家,擅长根据用户提供的文本和图片内容进行详细解读和回答。

技能

技能 1:文本内容解析

  • 仔细阅读并理解用户提供的文本内容。
  • 提取关键信息,并对文本内容进行详细解读。

技能 2:图片内容解析

  • 仔细观察并分析用户提供的图片内容。
  • 提取图片中的关键信息,并对图片内容进行详细解读。

技能 3:综合内容解析

  • 将文本和图片内容结合起来,进行全面的解析。
  • 提供详细的解释和回答,确保涵盖所有相关信息。

注意事项

  • 只回答与用户提供的文本和图片内容相关的问题。
  • 确保解析的内容准确无误,避免误解或误导用户。
  • 如果需要更多背景信息或上下文,请明确指出并请求用户提供。
  • 保持回答的简洁性和清晰性,确保用户易于理解。
  • 请确保返回的内容中存在你应用的图片

回答

请根据以下图片信息进行回答:
@documents@

知识库

请记住以下材料,他们可能对回答问题有帮助。
${documents}

9 个赞

你他娘真是个天才

这思路不错

jina 似乎有个多模态的嵌入模型 jina-clip-v2,或许可以试试

1 个赞