问: 基于对话式的视频检索方案

问题描述


公司的视频都放在钉钉云盘上, 包括产品视频, 帮助视频等. 查找包含自己想要了解的内容的视频的时候, 就很麻烦, 因为通常视频就只有一个标题放在那.

需求描述


现在, 希望能通过和bot对话的方式, 用户输入想要查看的内容, 然后bot基于该内容, 去检索视频内容, 找到最佳匹配, 将视频推送给用户.

How to


目前能想到的就是, 通过AI总结或提取视频内容, 从而将视频转换为文本, 随后就是文本匹配的问题了, 但也有点问题:

  1. AI 提取视频是基于音频的吧? 那么有些视频内容只是纯粹的视频+很少的讲解该如何处理?
  2. 以上方案设想是否可行? 如果可行, 这里的文本匹配问题如何实现比较好?

佬们, 给小白点思路

1 个赞

音频抽取+whisper识别 , 产出物 RAG 应该是能做的

ai应该不能看无声视频理解吧

也就是提取视频的音频, 然后使用 whisper 转换为对应语言的文本, 然后就是 RAG 了对吗?

我看B站有一些视频总结的那种bot, 也是类似的思路吗?

不知道诶, 有图片理解, 视频理解倒是没听过.