GPT-4o的能力探讨，尝试“伪视频功能”

Chenyme · 2024 年5 月 18 日 11:27

GPT-4o已经开放了，但是有些能力OpenAI还没有完全放开，如视频。

前几天偶然发现GPT-4o可以直接给他一篇文章和图片，让他直接插入图片
（ps：也许GPT-4V也可以，没有试过哈哈哈）

尝试让GPT-4o对视频直接生成带图片的文章。
既然现在还没有开放视频功能，那就自己搞个关于视频的“伪能力”。

实现的流程：

转换成SRT是因为带有时间戳，可以让4o知道图片所在秒数
让GPT-4o自由写作是为了让最后的文章稳定点，不然有的时候会直接把字幕直接搬上去

源码在github上供大家饭后娱乐和对4o能力进行探讨，技术含量为0

这是测试的一个效果哈哈哈

AVTB_Demo/output/test/output.md at main · Chenyme/AVTB_Demo (github.com)

大家对GPT-4o的能力有什么想法吗？

davy · 2024 年5 月 18 日 11:51

这句话是什么意思？是把图片插在文章不同的地方吗？

Chenyme · 2024 年5 月 18 日 11:55

你把图片和文档给他，他会自己插入图片，匹配到文章对应的位置

Chenyme · 2024 年5 月 18 日 12:01

类似于这样

regine · 2024 年5 月 18 日 12:02

厉害厉害

Chenyme · 2024 年5 月 18 日 12:03

4o厉害哈哈哈

zhong_little · 2024 年5 月 18 日 12:04

这创意可以做成 gpts 了

Chenyme · 2024 年5 月 18 日 12:06

gpts感觉会更好，因为api调用的话，最终输出markdown嵌入图片比较方便，网页应该可以直接生成一篇文档，我后面试试。

yms420 · 2024 年5 月 18 日 12:28

手机版对话功能不错。

Myqwn2729 · 2024 年5 月 18 日 12:31

好思路

daqi · 2024 年5 月 18 日 12:35

创新永不止境 !

davy · 2024 年5 月 18 日 12:46

有个问题，你是通过语音选择视频的关键帧的，但万一视频里的语音非常少，或者视频是观光片之类通过视觉传递信息的，那语音就无法指导生成blog了。你去看google aistudio里面提供的sample video不是默片就是观光片，一点声音都没有的。

Chenyme · 2024 年5 月 18 日 14:06

可惜还不能实时视频

Chenyme · 2024 年5 月 18 日 14:10

确实，这个得看gpt-4o未放开的视频能力了，我只是实现一个“伪视频功能”，仅供娱乐哈哈哈哈。这种默片，硬要搞只能一张一张的上传帧图片，token也太大了，期待一下4o的视频能力

davy · 2024 年5 月 18 日 22:35

Gemini 1.5 Flash也有视频功能（免费的，100万token），可以让它选key frame。10分钟的默片用了17万个token，30秒钟给出结果。
I want to write a blog about this video. Select 10 key frames from this video that I can use in my blog, and tell me their time stamp.

App · 2024 年5 月 18 日 22:55

思路很不错

handsome · 2024 年5 月 19 日 05:29

好想法啊

llg · 2024 年5 月 19 日 05:38

大佬们真会玩，你们玩吧，我拿着小红花坐着小板凳给你们当观众。

endercat · 2024 年5 月 19 日 05:39

不愧是多模态最强的GPT!

Kyoma · 2024 年5 月 19 日 05:46

厉害呀

话题		回复	浏览量
发布一个月后的GPT4o的联网能力测试人工智能 chatgpt , openai , gpt-4o	10	587	2024 年6 月 24 日
gpt4-o出来后，我们（普通开发者）有哪些机会人工智能 chatgpt , openai	18	1101	2024 年5 月 14 日
GPT-4o的识图真的猛啊！！！！！！！！人工智能 gpt-4o	99	2513	2024 年5 月 19 日
GPT-4o 识别验证码人工智能 gpt-4o	8	672	2024 年5 月 30 日
这就是GPT4o吗！人工智能 chatgpt , openai	21	1308	2024 年5 月 14 日