开源地址:https://github.com/disingn/cliptalk
简单逻辑:使用 ffmpeg 将视频切成视频帧图片 传给 gemini 或者 gpt4v 做解析 最后再进行整理和总结
支持某音和某tok 支持使用本地视频
写的很菜,大佬勿喷
开源地址:https://github.com/disingn/cliptalk
简单逻辑:使用 ffmpeg 将视频切成视频帧图片 传给 gemini 或者 gpt4v 做解析 最后再进行整理和总结
支持某音和某tok 支持使用本地视频
写的很菜,大佬勿喷
有趣有想法
图片信息太少了吧。音频和字幕信息呢?一般来说直接导出字幕直接做总结和整理。
我刷的短视频,gpt4看了都羞涩
想法非常好,但是一个视频的帧数量太多了,用大语言模型的话一个视频用时和模型的使用量太大了
万一没有字幕呢 我这个也就只是一个想法 最好的方式是音频转换成字幕同时再使用视频的一些图片结合起来分析
是的 这是一个问题 目前也就只能是一个 demo 没办法落地
哈哈哈哈
拉出音频流,生成字幕呗
是呀 我知道 但是我没写
哈哈哈哈
写啊,生产队的驴都不敢这么歇着
我等人给我提pr 写不动了
写啊,生产队的驴都不敢这么歇着
写啊,赶紧把磨拉起来
你不写,有的是帕鲁写,这片大陆最不缺的就是帕鲁
我就不
后面有时间再写 我这种 go 萌新 写个这个,掉了半个脑袋的头发
掉半个转职阿哥帕鲁