gpt4o的tokenizer被中文垃圾语料污染严重,充斥着各种小广告

这次gpt4o的更新带来了大幅降价,其中一部分功劳就在于全新的分词器,现在它倾向于将非英文语言的句子拆分为更长的词组,比如原来会分成17个词的句子,现在只会分成12个词,但是代价呢。。。x上有博主提取出新分词器中最长的前100个词,发现全部是小广告的形状



24 个赞

只是为了快速上线吧

2 个赞

感觉不如巅峰3.5好使

1 个赞

《给主人留下些什么吧》

5 个赞

笑死了

1 个赞

国内这些平台不能爬,就只能用垃圾语料了

1 个赞

:rofl:,笑尿

1 个赞

低配版gpt-4

1 个赞

怎么讲,会导致中文的逻辑理解能力降低吗?还是说只是输出时更容易出现这些词组(某种程度上算是文笔降低)?

1 个赞

给主人留下些什么吧

1 个赞

看完笑喷了

3 个赞

如果污染严重,那么在推理的时候就更容易出现这些垃圾

大发快三是什么东东

7 个赞

管制太严重了,简中语料中稍微深入一些的正常的讨论都被和谐了。余下的网络上充斥的就是以盈利为目的各种层出不穷的诈骗类型的低级语料了。
恩说点东西的都没了,大家能不说就不说是趋势,但还是拦不住别人以诈骗为目的能赚钱的大量网站。

6 个赞

呜~是不是以后用着用着就写出个黄色广告呢,要是用来生成文章发出去… ¯_ಠ_ಠ_/¯

笑死,gpt何时化身卖片哥

2 个赞

笑死

好像是一个彩票APP

1 个赞

笑死了

1 个赞

现在google简中搜索都被污染的极其糟糕

3 个赞