Chenyme
(chenyme)
2024 年5 月 18 日 11:27
1
GPT-4o已经开放了,但是有些能力OpenAI还没有完全放开,如视频。
前几天偶然发现GPT-4o可以直接给他一篇文章和图片,让他直接插入图片
(ps:也许GPT-4V也可以,没有试过哈哈哈)
尝试让GPT-4o对视频直接生成带图片的文章。
既然现在还没有开放视频功能,那就自己搞个关于视频的“伪能力”。
实现的流程:
转换成SRT是因为带有时间戳,可以让4o知道图片所在秒数
让GPT-4o自由写作是为了让最后的文章稳定点,不然有的时候会直接把字幕直接搬上去
源码在github上供大家饭后娱乐和对4o能力进行探讨,技术含量为0
这是测试的一个效果哈哈哈
AVTB_Demo/output/test/output.md at main · Chenyme/AVTB_Demo (github.com)
大家对GPT-4o的能力有什么想法吗?
24 个赞
Chenyme
(chenyme)
2024 年5 月 18 日 11:55
3
你把图片和文档给他,他会自己插入图片,匹配到文章对应的位置
2 个赞
Chenyme
(chenyme)
2024 年5 月 18 日 12:06
8
gpts感觉会更好,因为api调用的话,最终输出markdown嵌入图片比较方便,网页应该可以直接生成一篇文档,我后面试试。
4 个赞
davy
(李成蹊)
2024 年5 月 18 日 12:46
12
有个问题,你是通过语音选择视频的关键帧的,但万一视频里的语音非常少,或者视频是观光片之类通过视觉传递信息的,那语音就无法指导生成blog了。你去看google aistudio 里面提供的sample video不是默片就是观光片,一点声音都没有的。
3 个赞
Chenyme
(chenyme)
2024 年5 月 18 日 14:10
14
确实,这个得看gpt-4o未放开的视频能力了,我只是实现一个“伪视频功能”,仅供娱乐哈哈哈哈。这种默片,硬要搞只能一张一张的上传帧图片,token也太大了 ,期待一下4o的视频能力
davy
(李成蹊)
2024 年5 月 18 日 22:35
15
Gemini 1.5 Flash也有视频功能(免费的,100万token),可以让它选key frame。10分钟的默片用了17万个token,30秒钟给出结果。
I want to write a blog about this video. Select 10 key frames from this video that I can use in my blog, and tell me their time stamp.
llg
(流浪谷)
2024 年5 月 19 日 05:38
18
大佬们真会玩,你们玩吧,我拿着小红花坐着小板凳给你们当观众。