GPT4o 使用全新的 tokenizer


https://platform.openai.com/tokenizer

8 个赞

是省 token 的意思?

2 个赞

是的,专门练了个新的,吞吐量更大,词元数更少,估计是做了压缩了,deepseek也是这个思路

8 个赞

应该是

2 个赞

和之前啥区别

2 个赞

哇,这么好的吗

2 个赞

不知道,coming soon

2 个赞

那不是更nice了

3 个赞

那这些oneapi也得更新吧?
去给oneapi提issue,省点钱:joy:

4 个赞

哈哈哈哈哈!!对啊

2 个赞

要是用的4-turbo的tiktoken去计费4-o的,就给号商赚到了 :crazy_face:

3 个赞

发现商机
官转官转 :laughing:

2 个赞

新 tokenizer 中有很多垃圾 o200k_base

2 个赞

这个先开源了?

2 个赞

看不懂 :joy:
这个有什么优势或劣势吗

2 个赞

topic/86477 没有清洗,影响不大。

2 个赞

#gpt-4o添加

哦哦,这样

2 个赞

如果新的 tokenizer 切分的词元数少了也许会影响模型的收敛性,如果使用压缩虽然量小了,速度就会慢。需要折中或者找到一种新的方式。

2 个赞

不知道有没有色色限制