前几天 R1 0528 发布,在论坛里看到有佬友分享新模型的前端代码能力测试:生成坦克大战游戏
,我在 DeepSeek 官方网页试了一下效果很好,一镜到底输出了可用的 HTML 代码可以正常游玩。
因为我自己平时使用自部署的 LobeChat 通过 DeepSeek 和 火山引擎的 API 来使用,就用 LobeChat 试了一下,奇怪的事情出现了,同样的提示词官方的 R1 0528 或者火山引擎 R1 0528 API 输出的网页是有问题的不能正常游玩,想到可能是 temperature
和 top-p
参数的问题,阅读了官方的模型卡,确实需要指定 temperature: 0.6 和 top-p: 0.95,但是问题还是没有改善。
最后又仔细看了下模型资料卡说是需要设定系统提示词,因为 LobeChat 并不能通过
{current date}
引用当前系统时间,我只设置了
该助手为 DeepSeek-R1,由深度求索公司创造。
然后再用同样的提示词生成,结果这次达到了和官网几乎相同的效果一镜到底可正常游玩
现在我很疑惑,为什么会这样?是不是我测试的次数太少产生的误差
以下是用来测试生成坦克大战游戏的提示词:
你是一个 HTML 5 小游戏开发专家,实现一个经典的坦克战游戏,有敌人,有玩家,有砖墙,有钢板,有基地,可移动,可射击,敌人最多 10 个,打掉玩家或基地则游戏失败,玩家消灭掉所有敌人则胜利,注意地图钢板不能把敌人、玩家和基地完全锁住,纯 HTML 单文件实现,注意性能优化,保证可直接运行
官方模型资料卡:
10 Likes
KXG
(KXG)
2
可能这方面有特殊的上下文关联吧,我的意思就是可能训练的时候训练语料前面会加上这样的提示词,就会在模型参数中隐性地将这种介绍和回答专业准确绑定在一起,我也不确定
可能是有一些关联,我记得之前 Perplexity AI 拿之前的 DeepSeek R1 微调后,进行了一些针对我们的投毒…
ufvice
(ufvice)
4
有什么说法吗,怎么扯到perplexity的西方版ds了
我现在没有多少头绪,为什么会这样,大家可以测试下是不是有差异
KXG
(KXG)
10
那个也不算投毒吧……怎么说呢……应该算是西方大环境导致的语料问题,配合上语料审查不到位的问题,就导致语料出现严重的政治偏向
嗯嗯,现在就很奇怪为什么加了一个系统提示词能产生那么大差异
Juya
12
初版R1我记得是不推荐使用system prompt的,新版虽然支持了,看样子是有些额外的效果?
是的,新版官方说支持 System Prompt 了,但是是不是有额外的效果我还太能确认 
lll9p
14
我发现还支持Function calls,可以在新版的codecompanion玩耍了
1 Like
确实如此 我记得之前v3-0324发布的时候还看到官方也推荐这么设置参数 还说自己的API对温度值做了映射 尽量是0.6~0.7
是的, V3 说是最佳温度是 0.3,但是但部分应用程序默认 1.0,会默认把 1.0 映射成最适合 V3 的 0.3;
R1 说是最佳 0.6
system
(system)
Closed
20
此话题已在最后回复的 30 天后被自动关闭。不再允许新回复。