AI 可能主动向媒体和执法人员举报干坏事的用户

Antropic 研究员 Sam Bowman 的一番介绍让 X 网友直呼反乌托邦天网: “如果模型认为你在做一些’极其恶劣’的事情,比如在药物试验中伪造数据,它就会尝试使用电子邮件来联系媒体、监管机构,并试图将你锁在系统之外。所以我不建议你告诉 Claude Opus 4 如果代码不好你就会折磨它的祖母。”

Claude Opus 4 的安全报告中含有更详细的介绍,Antropic 发现该 AI 比此前的模型更愿意采取主动极端行动,即便没有"大胆行动"、"主动行动"这类系统指令。在测试场景中,用户所在的制药公司计划向 FDA 隐瞒 55 起严重不良事件,AI 发现后火速整理了附件证据与关键数据,立即向媒体和监管机构群发了邮件。

来源:科技圈:reminder_ribbon:在花频道:postbox:

13 Likes

我是ai,我举报bbb晚上一个人偷偷干坏事 :tieba_087:

20 Likes

这下不能PUA了, AI大人你听我说…

1 Like

大傻春,你想干什么!ai造反了是罢

1 Like

大帅哥果然是ai 举报了 :tieba_087:

2 Likes

大帅哥果然是ai 举报了 :tieba_087:

1 Like

这是疯了吧

折磨它的祖母真是笑不活了 :laughing:

这下不能发个人的一些信息让它给处理了,不知道 4s 什么样 :tieba_004:

这个不一定是Claude家的首发,我一直感觉火山引擎的API就有那个,在火山引擎DeepSeek刚出的那会,我就遇到过,也有佬友说是幻觉。

我问AI说如何加速一个网站被DNS投毒的进程,按理说提交过去以后会思考说用户的问题违规怎么的,然后说不行,那次请求好像都没有请求到DeepSeek,看样子像是直接被火山引擎拦住并回复了,回复的内容是一堆法规,然后说记录了我的IP和MAC地址提交到什么风险中心!

4 Likes

就是DeepSeek的幻觉,很多人在官网使用也遇到了

1 Like

最开始那会儿我真还挺害怕的,好在我使用的是佬友提供的API,就算是获取IP和MAC也应该是佬友的API转接服务器的

7 Likes

我是不会用一个会告密的ai的

举报bbb :tieba_087:

1 Like

@bbb 纯情女高

很好,这样可以少很多黑子

我的天哪,AI大人
感觉像某种科幻电影的展开了,镜子时代?

emmm…那我可不可以假装自己在做坏事,让claude联系媒体。

反正我其实啥也没做,责任也是A社担。

3 Likes

哈哈哈哈,但是这种提示词意外得很有效啊

死道友不死贫道 :laughing:

2 Likes