GPT4o最新词表的中文内容

decoded_chinese_words.txt (335.7 KB)
刚看到GPT4o 使用全新的 tokenizer笑死了,4o也喜欢看些不正经的东西
于是去Githubopenai / tiktoken上解码了GPT4o新词表的中文部分,现已上传。
可以看到有很多彩票和不正经网站的内容,感觉中文部分的数据清理没有做很好

2 Likes

啊哈哈哈哈哈哈哈

这个tokenizer 开源了吗

开源的,10小时前的commit

怎么这么多乱七八糟的词汇

好好好下载了,谢谢

随手一拉
[
197770,
“热久久精品”
]
笑死

image

1 Like

确实好多不正经网站,笑傻了

哈哈哈怎么这么多乱七八糟的东西

秀啊

emm这个咋看的?用不惯GitHub

来自东方神秘国度的词汇!

1 Like

image
点这个Commits就可以看提交历史

1 Like

sort_decoded_chinese_words.txt (247.4 KB)
按长度排序

1 Like