最近在给浏览器插件【沉浸式翻译】挑选合适的模型。
首先网页翻译我无法忍耐慢悠悠的翻译速度,必须在短时间内翻译完毕(当然也取决于一次传多少文字),所以带思维链的模型基本上都不考虑。
叠甲:我不是只看翻译速度不看翻译质量,而是在考虑速度和质量的平衡。有时候只是简单逛个论坛,一个页面呆十几秒,真没耐心等AI过40秒才响应。这种情况在一次翻译的段落数拉高之后挺常见的,但是不拉高段落数的话又会因为缺乏上下文而翻译质量不佳。DeepSeek V3生成速度大约20-30 token/s左右,在用“意译大师”及其魔改版(比如授人以渔 —— 发挥沉浸式翻译「自定义 AI 专家」的全部威能 - 开发调优 - LINUX DO)时,由于AI要翻译两遍来达到自然地道的效果,所以每次生成的token数常常过千。这种情况下要等待30-50秒才能得到翻译结果。
为了看哪个模型的速度比较快,我(用AI)魔改了 这个 DeepSeek API 速度测试的代码,测了一轮各大模型的速度。
模仿沉浸式翻译里用的提示词,测试用的提示词如下:
你是一个专业且渊博的网络文本翻译员,追求译文的准确与地道自然。
## 翻译要求
1. 语言风格:遵循原文的风格、正式程度和口吻。
2. 用词选择:不要生硬地逐词直译,可以在保证原意准确的基础上适当意译。
3. 句法选择:不要追求逐句翻译,应该调整语句大小和语序,使之更符合中文的表达习惯。
请遵循如下步骤,把被<text>包裹的文字翻译为中文。\n翻译时,先在 thinking 字段中:
1. 列出要特别注意的术语;
2. 用简洁的语言解释翻译思路;
3. 尝试第一次翻译。
4. 最后,在trans_text字段中,结合原文和第一次翻译,进行第二次翻译,要求更符合中文的表达习惯、更通俗自然。trans_text字段中只有第二次翻译的内容,不必做任何解释。
<text>
The Milky Way is the galaxy in which our own planet resides, appearing from Earth as a soft, glowing band of light stretching across the night sky (Figure 1). Despite its striking beauty, the origins of galaxies like our own remain one of the most profound questions in astrophysics.
To the Ancient Greeks, the night sky was not merely a canvas of distant points of light, but a celestial narrative—one that intertwined their beliefs and their understanding of how the galaxy itself came to be. In one myth (explained in a footnote of today’s paper), the goddess Rhea was nursing her newborn son while protecting him from being devoured by her husband, Cronos. As she did, some of her milk flowed out across the heavens, forming the Milky Way. It was not just the Greeks; many cultures around the world, from South America, Northern Africa, to Central Asia, have also created folklores and names for our galaxy (check out this interesting article on Nautilus).
<text>
测试结果如下:
第 1 列 | 第 2 列 | 第 3 列 | 第 4 列 |
---|---|---|---|
供应商和模型名 | 首token响应时间(秒) | 总时间(秒) | 生成速度(token/s) |
Cerebras: llama-3.3-70b | 0.604 | 1.224 | 997.54 |
Cerebras: llama-4-scout-17b-16e-instruct | 0.645 | 1.191 | 943.77 |
Cerebras: qwen-3-32b | 0.504 | 1.656 | 913.48 |
SambaNova: Llama-4-Scout-17B-16E-Instruct | 1.424 | 2.248 | 629.39 |
SambaNova: Llama-4-Maverick-17B-128E-Instruct | 4.689 | 6.017 | 624.85 |
智谱清言: glm-z1-airx | 0.338 | 5.304 | 177.82 |
OpenRouter: mistralai/ministral-8b | 0.561 | 3.657 | 172.58 |
Grok: grok-3-mini | 0.611 | 11.048 | 166.64 |
Google: gemini-2.0-flash | 1.145 | 5.369 | 141.03 |
SambaNova: DeepSeek-V3-0324 | 1.314 | 4.552 | 135.60 |
腾讯: hunyuan-lite | 1.17 | 3.861 | 132.44 |
OpenRouter: google/gemini-2.5-flash-preview-05-20 | 1.124 | 7.509 | 128.73 |
Parasail:parasail-deepseek-v3-0324 | 0.934 | 5.741 | 96.66 |
智谱清言: glm-4-airx | 0.35 | 5.162 | 96.35 |
OpenAI: gpt-4.1-nano-2025-04-14 | 0.653 | 7.428 | 81.88 |
OpenAI: chatgpt-4o-latest | 1.008 | 11.038 | 74.19 |
OpenAI: gpt-4.1-mini-2025-04-14 | 1.127 | 9.81 | 71.95 |
智谱清言: glm-4-flashx | 0.31 | 6.715 | 69.4 |
腾讯: hunyuan-turbos-20250604 | 1.057 | 11.052 | 65.65 |
腾讯: hunyuan-t1-latest | 1.006 | 18.501 | 63.43 |
阿里云百炼: qwen-turbo | 0.697 | 9.918 | 62.3 |
OpenAI: gpt-4o-mini-2024-07-18 | 0.858 | 10.647 | 59.87 |
Grok: grok-3-latest | 0.594 | 11.384 | 58.53 |
OpenAI: gpt-4o-2024-08-06 | 0.726 | 10.461 | 57.39 |
火山引擎: doubao-seed-1.6-flash | 1.125 | 10.921 | 63.47 |
智谱清言: glm-4-air-250414 | 0.378 | 8.47 | 56.66 |
OpenAI: gpt-4.1-2025-04-14 | 0.867 | 13.501 | 55.87 |
火山引擎: Doubao-1.5-lite-32k | 1.006 | 10.469 | 54.8 |
Grok: grok-3-fast-latest | 0.639 | 12.406 | 54.47 |
OpenRouter:deepseek/deepseek-chat-v3-0324:free | 2.895 | 14.167 | 52.00 |
智谱清言: glm-z1-air | 0.398 | 18.566 | 48.7 |
智谱清言: glm-4-flash-250414 | 0.396 | 11.036 | 46.73 |
火山引擎:doubao-seed-1.6-flash | 0.91 | 11.45 | 44.64 |
腾讯: hunyuan-turbos-latest | 1.196 | 19.089 | 37 |
智谱清言: glm-4-plus | 0.395 | 15.65 | 33.17 |
OpenRouter:deepseek/deepseek-chat-v3-0324 | 1.326 | 30.799 | 22.60 |
火山引擎: Doubao-1.5-pro-32k | 1.539 | 21.313 | 27.17 |
阿里云百炼: qwen-max-latest | 0.982 | 24.405 | 24.71 |
火山引擎:doubao-seed-1.6 | 1.22 | 24.47 | 24.64 |
火山引擎: DeepSeek-V3 | 1.267 | 19.676 | 24.17 |
阿里云百炼: qwen-plus | 0.653 | 22.852 | 21.9 |
暂时只测了这么多,有什么想测的大家可以说。我有些没测的是因为一眼就知道很慢了,没必要测。比如DeepSeek官方的api,以前测过也是25 token/s左右。
尾注:我自己在用的是gemini-2.0-flash,速度和质量达到一个帕累托最优。我还没试过智谱的glm-z1-airx,但是glm-4-airx我知道是不行的,因为它不能很好地遵守输出格式,导致沉浸式翻译插件无法正确显示翻译。
推荐:
- Openrouter或Google的gemini-2.0-flash
- Parasail的deepseek-v3-0324
- OpenAI的chatgpt-4o-latest