DeepSeek-R1服务的水很深,整个市场都是鱼龙混杂。先不说这个模型本身就有好几个不同参数大小的版本以及蒸馏版,就算是号称自己是满血版本的DeepSeek-R1,上下文窗口和输出长度也不尽相同,多家的“满血版”DeepSeek-R1存在输出截断。
既然是思考模型,思考深度不够还叫什么思考模型。
测试问题如下:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。
此题为八省联考压轴数学题,正确答案为 sqrt(3)/3 。
目前我测试下来的几家API的情况如下:
DeepSeek官方:官方版本没有崩的话做这道题很稳。用时8分钟。
字节火山:有时候会出现思考截断,有时候可以正常输出正确结果,用时719s。
硅基流动:pro版本和非pro版本均思考截断。
知乎直答:思考截断。
腾讯云:思考截断。
百度千帆:思考截断
秘塔AI搜索:思考截断。
其他佬的测试:
华为云:思考截断
阿里云百炼:思考32分钟得到错误回答。有时候能做对。
外国平台API情况如下:
Azure(非Serverless版本):可输出正确答案。用时很长,估计有10多分钟。
Nvidia NIM:思考截断
Nebius:思考截断
测了国内7家+国外3家,只有官方版本,字节版本(不稳),阿里版本(不稳)和Azure能够输出完整思考链并得到正确答案。
顺带一提,这道题OpenAI的o3-mini-high和o1模型(非pro版本)推理起来不稳,有时候会得到错误的结果。
DeepSeek-R1的优秀是毋庸置疑的,但是各家服务商提供的服务只能说是鱼龙混杂,在号称满血版的一众DeepSeek-R1里面,有时候很难分辨哪个部署更优秀,希望这个测试能给你一点参考。
再顺带一提,Azure这个API现在是所有的DeepSeek-R1云服务里价格最低的,0元。微软真是赛博大善人。