GPT4o 使用全新的 tokenizer


https://platform.openai.com/tokenizer

8 Likes

是省 token 的意思?

2 Likes

是的,专门练了个新的,吞吐量更大,词元数更少,估计是做了压缩了,deepseek也是这个思路

8 Likes

应该是

2 Likes

和之前啥区别

2 Likes

哇,这么好的吗

2 Likes

不知道,coming soon

2 Likes

那不是更nice了

3 Likes

那这些oneapi也得更新吧?
去给oneapi提issue,省点钱:joy:

4 Likes

哈哈哈哈哈!!对啊

2 Likes

要是用的4-turbo的tiktoken去计费4-o的,就给号商赚到了 :crazy_face:

3 Likes

发现商机
官转官转 :laughing:

2 Likes

新 tokenizer 中有很多垃圾 o200k_base

2 Likes

这个先开源了?

2 Likes

看不懂 :joy:
这个有什么优势或劣势吗

2 Likes

topic/86477 没有清洗,影响不大。

2 Likes

#gpt-4o添加

哦哦,这样

2 Likes

如果新的 tokenizer 切分的词元数少了也许会影响模型的收敛性,如果使用压缩虽然量小了,速度就会慢。需要折中或者找到一种新的方式。

2 Likes

不知道有没有色色限制