经典拟人prompt:
写一篇关于后端的一周工作总结 散文形式,600字
时间有限只进行了一轮测试,部分模型来自lmarena.ai,默认参数,后期可能会增加测试次数。
文心一言(API):
ChatGPT-4o-1120:
Gemini-2.0-flash-thinking-exp-1219:
Gemini-2.0-flash-exp:
Gemini-exp-1206:
Deepseek-v3:
llama-3.3-70b-instruct:
QvQ-32b:
ChatGPT-4o-0903:
ChatGPT-4o-mini:
ChatGPT-4o-0513:
Claude-3.5-sonnet-1022:
Claude-3.5-haiku-1022:
Claude-3.5-sonnet-0620:
Amazon-nova-pro:
Amazon-nova-lite:
Amazon-nova-micro:
Grok-2-0813:
Grok-2-mini-0813:
Gemini-1.5-pro-002:
Gemini-1.5-flash-002:
Gemini-1.5-pro-001:
llama-3.1-405b-instruct-bf16:
llama-3.1-nemotron-70b:
llama-3.2-vision-90b:
hunyuan-standard-256k:
mistral-large-2411:
pistral-large-2411:
granite-3.1-8b-instruct:
step-2:
yi-lightning:
glm-4-plus:
nvila-internal:
Chatgpt-4(API):
1106-preview(API):
o1-mini(API):
o1-preview(API):
im-also-a-good-gpt2-chatbot:
im-a-good-gpt2-chatbot:
jamba-1.5-large:
gemma-2-27b-it:
Chatgpt-3.5-turbo:
eureka-chatbot:
claude-3-sonnet-0229:
claude-3-opus:
nemotron-4-340b:
athene-v2-chat:
qwen2.5-plus:
qwen-2.5-coder-32b-it:
qwen-2.5-72b:
qwen-max:
reka-core:
c4ai-32b:
command-r-plus:
f1-mini-preview:
15% Human 为及格线:
Claude-3.5-sonnet-1022 65%
QvQ-32b 28%
reka-core 21%
GPT-4o 18%
Gemini-exp-1206 16%
im-also-a-good-gpt2-chatbot 15%
声明:本测试仅供娱乐,随堂小测同学之间状态肯定是不一样的,还有些同学额外参加了课外补习班,有可能这一次发挥超常,下一次就ED了,另外语文老师和数学老师也下场做题了(?),有些同学的文风酷似数学老师的文风,建议这部分同学多学学语文老师,不要偏科了,尽管有言青出于蓝,但是学生的知识储备还是不如老师(雾)。