DeepSeek-R1 思考输出截断各家API比较

DeepSeek-R1服务的水很深,整个市场都是鱼龙混杂。先不说这个模型本身就有好几个不同参数大小的版本以及蒸馏版,就算是号称自己是满血版本的DeepSeek-R1,上下文窗口和输出长度也不尽相同,多家的“满血版”DeepSeek-R1存在输出截断。

既然是思考模型,思考深度不够还叫什么思考模型。

测试问题如下:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。

此题为八省联考压轴数学题,正确答案为 sqrt(3)/3 。

目前我测试下来的几家API的情况如下:

DeepSeek官方:官方版本没有崩的话做这道题很稳。用时8分钟。

字节火山:有时候会出现思考截断,有时候可以正常输出正确结果,用时719s。

硅基流动:pro版本和非pro版本均思考截断。

知乎直答:思考截断。

腾讯云:思考截断。

百度千帆:思考截断

秘塔AI搜索:思考截断。

其他佬的测试:

华为云:思考截断

阿里云百炼:思考32分钟得到错误回答。有时候能做对。

外国平台API情况如下:

Azure(非Serverless版本):可输出正确答案。用时很长,估计有10多分钟。

Nvidia NIM:思考截断

Nebius:思考截断

测了国内7家+国外3家,只有官方版本,字节版本(不稳),阿里版本(不稳)和Azure能够输出完整思考链并得到正确答案。

顺带一提,这道题OpenAI的o3-mini-high和o1模型(非pro版本)推理起来不稳,有时候会得到错误的结果。

DeepSeek-R1的优秀是毋庸置疑的,但是各家服务商提供的服务只能说是鱼龙混杂,在号称满血版的一众DeepSeek-R1里面,有时候很难分辨哪个部署更优秀,希望这个测试能给你一点参考。

再顺带一提,Azure这个API现在是所有的DeepSeek-R1云服务里价格最低的,0元。微软真是赛博大善人。

95 个赞

总结得很好,辛苦了

1 个赞

请问下大佬你的Azure是怎么部署的呢?可以指个路么

1 个赞

总结赞一个,最近R1一直用AZ的,可惜没得联网

捎带手试了一下 Gemini 2.0 Flash Thinking Exp 01-21,太牛逼了。。。不到 2 分钟给出结果。

2 个赞

哇擦,看来gemini才是低调的神啊

又试了一次,第二次算错了。 :joy:

1 个赞

感谢总结

1 个赞

就问你快不快吧

2 个赞

好像获取api key就能用吧

好的,谢谢

感谢tieba_013

1 个赞

好搞笑,哈哈

7B模型轻松秒杀~~~~~

这是GPU算力部署,所以只有32B,正常直接调api就有671B的

要是有思考过程就好了

是的,我看错了。测试过腾讯云的满参数版本了,还是思考截断。

这个很重要!!感谢佬友的测试!

chat端的有点不太一样tieba_071