感觉Gemini 官网的思考模型联网效果不如o3 mini联网

https://livebench.ai/#/

我自己建立了一些题库,livebench也有基准测试,Gemini的思考模型的水平都不太行