随堂小测 GPTZero vs 各大小LLM,测一测哪个AI模型生成的文字更难被发现

经典拟人prompt:
写一篇关于后端的一周工作总结 散文形式,600字

时间有限只进行了一轮测试,部分模型来自lmarena.ai,默认参数,后期可能会增加测试次数。

文心一言(API):

ChatGPT-4o-1120:

Gemini-2.0-flash-thinking-exp-1219:

Gemini-2.0-flash-exp:

Gemini-exp-1206:

Deepseek-v3:

llama-3.3-70b-instruct:

QvQ-32b:

ChatGPT-4o-0903:

ChatGPT-4o-mini:

ChatGPT-4o-0513:

Claude-3.5-sonnet-1022:

Claude-3.5-haiku-1022:

Claude-3.5-sonnet-0620:

Amazon-nova-pro:

Amazon-nova-lite:

Amazon-nova-micro:

Grok-2-0813:

Grok-2-mini-0813:

Gemini-1.5-pro-002:

Gemini-1.5-flash-002:

Gemini-1.5-pro-001:

llama-3.1-405b-instruct-bf16:

llama-3.1-nemotron-70b:

llama-3.2-vision-90b:

hunyuan-standard-256k:

mistral-large-2411:

pistral-large-2411:

granite-3.1-8b-instruct:

step-2:

yi-lightning:

glm-4-plus:

nvila-internal:

Chatgpt-4(API):

1106-preview(API):

o1-mini(API):

o1-preview(API):

im-also-a-good-gpt2-chatbot:

im-a-good-gpt2-chatbot:

jamba-1.5-large:

gemma-2-27b-it:

Chatgpt-3.5-turbo:

eureka-chatbot:

claude-3-sonnet-0229:

claude-3-opus:

nemotron-4-340b:

athene-v2-chat:

qwen2.5-plus:

qwen-2.5-coder-32b-it:

qwen-2.5-72b:

qwen-max:

reka-core:

c4ai-32b:

command-r-plus:

f1-mini-preview:

15% Human 为及格线:
Claude-3.5-sonnet-1022 65%
QvQ-32b 28%
reka-core 21%
GPT-4o 18%
Gemini-exp-1206 16%
im-also-a-good-gpt2-chatbot 15%

声明:本测试仅供娱乐,随堂小测同学之间状态肯定是不一样的,还有些同学额外参加了课外补习班,有可能这一次发挥超常,下一次就ED了,另外语文老师和数学老师也下场做题了(?),有些同学的文风酷似数学老师的文风,建议这部分同学多学学语文老师,不要偏科了,尽管有言青出于蓝,但是学生的知识储备还是不如老师(雾)。

34 Likes

还得是Claude,试试加上让他用小学生语气的提示词

6 Likes

claude 遥遥领先

不明觉厉⊙0⊙

感觉10%AI已经能引起警觉了

我的天claude3.5s这么强的吗

claude 领先地位很高

claude3.5s这是异常值吧,应该不能当参考

所以说除4o和cl3.5s主力模型外就是lj

claude 还是太全面了

还得是claude

2 Likes

Claude牛的

试试用超星的ai检测上回用claude3.5-s检测是85-100 ai写的

这是啥工具测的 AIGC

标题已经写了 gptzero

1 Like

谢谢,我以为是openai的模型vs其他模型

断层领先

没测一下opus吗?想知道表现怎么样

GPTZero判断ai准确不哦?
我测试了下中文,提示:

We partially support 中文.
We’re still working on this language, so the results may be imperfect. Request your language here.

你测试下自己写的试试?

此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。