GPT-4o的能力探讨,尝试“伪视频功能”

GPT-4o已经开放了,但是有些能力OpenAI还没有完全放开,如视频。

前几天偶然发现GPT-4o可以直接给他一篇文章和图片,让他直接插入图片
(ps:也许GPT-4V也可以,没有试过哈哈哈)

尝试让GPT-4o对视频直接生成带图片的文章。
既然现在还没有开放视频功能,那就自己搞个关于视频的“伪能力”。

实现的流程:

  1. 转换成SRT是因为带有时间戳,可以让4o知道图片所在秒数
  2. 让GPT-4o自由写作是为了让最后的文章稳定点,不然有的时候会直接把字幕直接搬上去

源码在github上供大家饭后娱乐和对4o能力进行探讨,技术含量为0

这是测试的一个效果哈哈哈

AVTB_Demo/output/test/output.md at main · Chenyme/AVTB_Demo (github.com)

大家对GPT-4o的能力有什么想法吗?

24 个赞

这句话是什么意思?是把图片插在文章不同的地方吗?

2 个赞

你把图片和文档给他,他会自己插入图片,匹配到文章对应的位置

2 个赞


类似于这样

4 个赞

厉害厉害

3 个赞

4o厉害:+1:哈哈哈

3 个赞

这创意可以做成 gpts 了

3 个赞

gpts感觉会更好,因为api调用的话,最终输出markdown嵌入图片比较方便,网页应该可以直接生成一篇文档,我后面试试。

4 个赞

手机版对话功能不错。

3 个赞

好思路

3 个赞

创新永不止境 !

2 个赞

有个问题,你是通过语音选择视频的关键帧的,但万一视频里的语音非常少,或者视频是观光片之类通过视觉传递信息的,那语音就无法指导生成blog了。你去看google aistudio里面提供的sample video不是默片就是观光片,一点声音都没有的。

3 个赞

可惜还不能实时视频

确实,这个得看gpt-4o未放开的视频能力了,我只是实现一个“伪视频功能”,仅供娱乐哈哈哈哈。这种默片,硬要搞只能一张一张的上传帧图片,token也太大了 :joy:,期待一下4o的视频能力 :grin:

Gemini 1.5 Flash也有视频功能(免费的,100万token),可以让它选key frame。10分钟的默片用了17万个token,30秒钟给出结果。
I want to write a blog about this video. Select 10 key frames from this video that I can use in my blog, and tell me their time stamp.

思路很不错

好想法啊

大佬们真会玩,你们玩吧,我拿着小红花坐着小板凳给你们当观众。

不愧是多模态最强的GPT!

厉害呀