DeepSeek-R1 思考输出截断各家API比较

jerryust · 2025 年2 月 11 日 12:39

DeepSeek-R1服务的水很深，整个市场都是鱼龙混杂。先不说这个模型本身就有好几个不同参数大小的版本以及蒸馏版，就算是号称自己是满血版本的DeepSeek-R1，上下文窗口和输出长度也不尽相同，多家的“满血版”DeepSeek-R1存在输出截断。

既然是思考模型，思考深度不够还叫什么思考模型。

测试问题如下：在平面四边形ABCD中，AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP，其中P为动点。求二面角A - CP - B的余弦值的最小值。

此题为八省联考压轴数学题，正确答案为 sqrt(3)/3 。

目前我测试下来的几家API的情况如下：

DeepSeek官方：官方版本没有崩的话做这道题很稳。用时8分钟。

字节火山：有时候会出现思考截断，有时候可以正常输出正确结果，用时719s。

硅基流动：pro版本和非pro版本均思考截断。

知乎直答：思考截断。

腾讯云：思考截断。

百度千帆：思考截断

秘塔AI搜索：思考截断。

其他佬的测试：

华为云：思考截断

阿里云百炼：思考32分钟得到错误回答。有时候能做对。

外国平台API情况如下：

Azure（非Serverless版本）：可输出正确答案。用时很长，估计有10多分钟。

Nvidia NIM：思考截断

Nebius：思考截断

测了国内7家+国外3家，只有官方版本，字节版本（不稳），阿里版本（不稳）和Azure能够输出完整思考链并得到正确答案。

顺带一提，这道题OpenAI的o3-mini-high和o1模型（非pro版本）推理起来不稳，有时候会得到错误的结果。

DeepSeek-R1的优秀是毋庸置疑的，但是各家服务商提供的服务只能说是鱼龙混杂，在号称满血版的一众DeepSeek-R1里面，有时候很难分辨哪个部署更优秀，希望这个测试能给你一点参考。

再顺带一提，Azure这个API现在是所有的DeepSeek-R1云服务里价格最低的，0元。微软真是赛博大善人。

ndslvspsp · 2025 年2 月 11 日 12:46

总结得很好,辛苦了

konbakuyomu · 2025 年2 月 11 日 12:48

请问下大佬你的Azure是怎么部署的呢？可以指个路么

Hviver · 2025 年2 月 11 日 12:51

总结赞一个，最近R1一直用AZ的，可惜没得联网

breakstring · 2025 年2 月 11 日 12:53

捎带手试了一下 Gemini 2.0 Flash Thinking Exp 01-21，太牛逼了。。。不到 2 分钟给出结果。

JoeCHEN99 · 2025 年2 月 11 日 12:54

哇擦，看来gemini才是低调的神啊

breakstring · 2025 年2 月 11 日 12:56

又试了一次，第二次算错了。

handsome · 2025 年2 月 11 日 12:57

感谢总结

jerryust · 2025 年2 月 11 日 12:58

就问你快不快吧

jerryust · 2025 年2 月 11 日 13:02

passerby · 2025 年2 月 11 日 13:03

好像获取api key就能用吧

konbakuyomu · 2025 年2 月 11 日 13:15

好的，谢谢

Sam_Altman · 2025 年2 月 11 日 13:15

感谢

cheviChan · 2025 年2 月 11 日 13:18

好搞笑，哈哈

passerby · 2025 年2 月 11 日 13:18

7B模型轻松秒杀~~~~~

chiban · 2025 年2 月 11 日 13:30

这是GPU算力部署，所以只有32B，正常直接调api就有671B的

wwow · 2025 年2 月 11 日 13:35

要是有思考过程就好了

jerryust · 2025 年2 月 11 日 13:37

是的，我看错了。测试过腾讯云的满参数版本了，还是思考截断。

Leon01 · 2025 年2 月 11 日 13:47

这个很重要！！感谢佬友的测试！

Miomiomm · 2025 年2 月 11 日 13:51

chat端的有点不太一样

话题		回复	浏览量
deepseek r1 满血测试题开发调优人工智能	42	1929	2025 年2 月 19 日
国内除了r1官方的没有其他渠道的r1可以答对开发调优人工智能	33	1214	2025 年2 月 26 日
各家第三方DeepSeek-R1 API 比较开发调优人工智能	38	2036	2025 年2 月 18 日
o1的实力真的强啊搞七捻三 ChatGPT , 人工智能 , 纯水	83	4333	2025 年1 月 11 日
这道题只有DeepSeek R1会做！搞七捻三 DeepSeek , 人工智能	80	1737	2025 年2 月 23 日