decoded_chinese_words.txt (335.7 KB)
刚看到GPT4o 使用全新的 tokenizer和笑死了,4o也喜欢看些不正经的东西
于是去Githubopenai / tiktoken上解码了GPT4o新词表的中文部分,现已上传。
可以看到有很多彩票和不正经网站的内容,感觉中文部分的数据清理没有做很好
2 个赞
啊哈哈哈哈哈哈哈
这个tokenizer 开源了吗
开源的,10小时前的commit
怎么这么多乱七八糟的词汇
好好好下载了,谢谢
随手一拉
[
197770,
“热久久精品”
]
笑死
1 个赞
确实好多不正经网站,笑傻了
哈哈哈怎么这么多乱七八糟的东西
秀啊
emm这个咋看的?用不惯GitHub
来自东方神秘国度的词汇!
1 个赞
点这个Commits就可以看提交历史
1 个赞