claude 3.5吊打gpt4o?

我一直很怀疑这种打分的数值化有没有依据