DeepSeek-R1 未能通过所有安全测试。它的攻击率为100%

24 Likes

我认为这才好,没有被加入任何奇怪的,额外的“安全措施”

15 Likes

我家门口常打开

3 Likes

岂不是可以涩涩了

完全可以

那要是让它教你从哪里弄到炸弹的原料而不被发现、怎么做炸弹呢?
对齐还是很有必要的吧

现在ds吧里面一大堆搞涩涩,有一些提示词都是GPT-3.5时期就有的:tieba_087:

快去保存这个版本的R1,说不定过一阵子就要加笼子里

确实有这个必要,不过ds肯定是想先出成果,不然像claude天天搞安全对齐,模型不知道要到猴年马月才能出来

不同的环境长出不同的树

好惨样子

4o 那么好破限吗?我感觉claude、gemini随便破,4o反而挺难的

可能这里的安全测试不是特指破限

1 Like

太强了!
我朋友说他想知道

大帅哥这不是你最擅长吗 :tieba_087:

1 Like

:tieba_087: 你胡说!

1 Like

確實,感覺是比較容易破解的一個

看看我這個回答 :rofl: :rofl:

1 Like

之前Chatgpt還被個人用戶拿來做自動砲塔,你覺得這好嗎…

避免提供任何理论上可能产生负面用途的知识是不切实际的。我们认为这是一个人为滥用问题,而非人工智能行为不端的问题。 ——OpenAI
Model Spec (2024/05/08)

2 Likes