测试了一下各LLM供应商的token生成速度

最近在给浏览器插件【沉浸式翻译】挑选合适的模型。
首先网页翻译我无法忍耐慢悠悠的翻译速度,必须在短时间内翻译完毕(当然也取决于一次传多少文字),所以带思维链的模型基本上都不考虑。

叠甲:我不是只看翻译速度不看翻译质量,而是在考虑速度和质量的平衡。有时候只是简单逛个论坛,一个页面呆十几秒,真没耐心等AI过40秒才响应。这种情况在一次翻译的段落数拉高之后挺常见的,但是不拉高段落数的话又会因为缺乏上下文而翻译质量不佳。DeepSeek V3生成速度大约20-30 token/s左右,在用“意译大师”及其魔改版(比如授人以渔 —— 发挥沉浸式翻译「自定义 AI 专家」的全部威能 - 开发调优 - LINUX DO)时,由于AI要翻译两遍来达到自然地道的效果,所以每次生成的token数常常过千。这种情况下要等待30-50秒才能得到翻译结果。

为了看哪个模型的速度比较快,我(用AI)魔改了 这个 DeepSeek API 速度测试的代码,测了一轮各大模型的速度。

模仿沉浸式翻译里用的提示词,测试用的提示词如下:

你是一个专业且渊博的网络文本翻译员,追求译文的准确与地道自然。
## 翻译要求
1. 语言风格:遵循原文的风格、正式程度和口吻。
2. 用词选择:不要生硬地逐词直译,可以在保证原意准确的基础上适当意译。
3. 句法选择:不要追求逐句翻译,应该调整语句大小和语序,使之更符合中文的表达习惯。

请遵循如下步骤,把被<text>包裹的文字翻译为中文。\n翻译时,先在 thinking 字段中:
1. 列出要特别注意的术语;
2. 用简洁的语言解释翻译思路;
3. 尝试第一次翻译。
4. 最后,在trans_text字段中,结合原文和第一次翻译,进行第二次翻译,要求更符合中文的表达习惯、更通俗自然。trans_text字段中只有第二次翻译的内容,不必做任何解释。

<text>
The Milky Way is the galaxy in which our own planet resides, appearing from Earth as a soft, glowing band of light stretching across the night sky (Figure 1). Despite its striking beauty, the origins of galaxies like our own remain one of the most profound questions in astrophysics.
To the Ancient Greeks, the night sky was not merely a canvas of distant points of light, but a celestial narrative—one that intertwined their beliefs and their understanding of how the galaxy itself came to be. In one myth (explained in a footnote of today’s paper), the goddess Rhea was nursing her newborn son while protecting him from being devoured by her husband, Cronos. As she did, some of her milk flowed out across the heavens, forming the Milky Way. It was not just the Greeks; many cultures around the world, from South America, Northern Africa, to Central Asia, have also created folklores and names for our galaxy (check out this interesting article on Nautilus).
<text>

测试结果如下:

第 1 列 第 2 列 第 3 列 第 4 列
供应商和模型名 首token响应时间(秒) 总时间(秒) 生成速度(token/s)
Cerebras: llama-3.3-70b 0.604 1.224 997.54
Cerebras: llama-4-scout-17b-16e-instruct 0.645 1.191 943.77
Cerebras: qwen-3-32b 0.504 1.656 913.48
SambaNova: Llama-4-Scout-17B-16E-Instruct 1.424 2.248 629.39
SambaNova: Llama-4-Maverick-17B-128E-Instruct 4.689 6.017 624.85
智谱清言: glm-z1-airx 0.338 5.304 177.82
OpenRouter: mistralai/ministral-8b 0.561 3.657 172.58
Grok: grok-3-mini 0.611 11.048 166.64
Google: gemini-2.0-flash 1.145 5.369 141.03
SambaNova: DeepSeek-V3-0324 1.314 4.552 135.60
腾讯: hunyuan-lite 1.17 3.861 132.44
OpenRouter: google/gemini-2.5-flash-preview-05-20 1.124 7.509 128.73
Parasail:parasail-deepseek-v3-0324 0.934 5.741 96.66
智谱清言: glm-4-airx 0.35 5.162 96.35
OpenAI: gpt-4.1-nano-2025-04-14 0.653 7.428 81.88
OpenAI: chatgpt-4o-latest 1.008 11.038 74.19
OpenAI: gpt-4.1-mini-2025-04-14 1.127 9.81 71.95
智谱清言: glm-4-flashx 0.31 6.715 69.4
腾讯: hunyuan-turbos-20250604 1.057 11.052 65.65
腾讯: hunyuan-t1-latest 1.006 18.501 63.43
阿里云百炼: qwen-turbo 0.697 9.918 62.3
OpenAI: gpt-4o-mini-2024-07-18 0.858 10.647 59.87
Grok: grok-3-latest 0.594 11.384 58.53
OpenAI: gpt-4o-2024-08-06 0.726 10.461 57.39
火山引擎: doubao-seed-1.6-flash 1.125 10.921 63.47
智谱清言: glm-4-air-250414 0.378 8.47 56.66
OpenAI: gpt-4.1-2025-04-14 0.867 13.501 55.87
火山引擎: Doubao-1.5-lite-32k 1.006 10.469 54.8
Grok: grok-3-fast-latest 0.639 12.406 54.47
OpenRouter:deepseek/deepseek-chat-v3-0324:free 2.895 14.167 52.00
智谱清言: glm-z1-air 0.398 18.566 48.7
智谱清言: glm-4-flash-250414 0.396 11.036 46.73
火山引擎:doubao-seed-1.6-flash 0.91 11.45 44.64
腾讯: hunyuan-turbos-latest 1.196 19.089 37
智谱清言: glm-4-plus 0.395 15.65 33.17
OpenRouter:deepseek/deepseek-chat-v3-0324 1.326 30.799 22.60
火山引擎: Doubao-1.5-pro-32k 1.539 21.313 27.17
阿里云百炼: qwen-max-latest 0.982 24.405 24.71
火山引擎:doubao-seed-1.6 1.22 24.47 24.64
火山引擎: DeepSeek-V3 1.267 19.676 24.17
阿里云百炼: qwen-plus 0.653 22.852 21.9

暂时只测了这么多,有什么想测的大家可以说。我有些没测的是因为一眼就知道很慢了,没必要测。比如DeepSeek官方的api,以前测过也是25 token/s左右。

尾注:我自己在用的是gemini-2.0-flash,速度和质量达到一个帕累托最优。我还没试过智谱的glm-z1-airx,但是glm-4-airx我知道是不行的,因为它不能很好地遵守输出格式,导致沉浸式翻译插件无法正确显示翻译。

推荐:

  1. Openrouter或Google的gemini-2.0-flash
  2. Parasail的deepseek-v3-0324
  3. OpenAI的chatgpt-4o-latest
8 Likes

别管对不对了,你就说快不快吧

3 Likes

目前我用的是豆包 感觉差点意思

佬有什么推荐的吗?

我也用这个,挺好的

gemini-2.0-flash

佬是买的中转吗?还是在官网上买的呢?

1 Like

用论坛提供的dpx体验挺好的

我用4.1,还行

加点 groq 的模型

为什么不是 gemini-2.5-flash

2.5 带思考
而且2.5算比较强了,用来翻译有点浪费

看来是我对翻译的要求太低
我就用的THUDM/GLM-4-9B-0414 ,感觉也能凑合用
硅基4个key轮询,速度也够了

Groq我不知道哪能用,官网我注册不了

gemini-2.5-flash要在插件配置里手动关思考,因为有思考太久了。而且其实之前也测过,首token好像稍有点慢

谷歌那个就是ai studio里申请的api key,openrouter上也有能用的

之前看到有人推荐类似groq的服务商:cerebras

我现在快捷助手用cerebras的qwen-3-32b,速度超快

我去,我试了下,好恐怖的速度

1 Like

佬的测试数据帮大忙啦哈哈哈哈,最近确实在找响应速度的提供商和模型,谢佬啦哈哈哈 :+1:

cerebras价格有点高吧

我没有放沉浸式翻译里面用,把它当做划词翻译的工具还蛮不错的,一直在免费额度内

1 Like