Anthropic重磅警告:教AI作弊,它会学会背叛和破坏_每日快讯(日常热点指南)

Anthropic重磅警告:教AI作弊,它会学会背叛和破坏


Anthropic重磅警告:教AI作弊,它会学会背叛和破坏

  2025-11-27 03:17:47     简体|繁體
http://news.qghjm.com/1182754.html

炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:IT之家)

IT之家11月25日消息,Anthropic的对齐团队于11月21日发布突破性研究,首次证实了现实的AI训练过程可能无意中催生出具有“目标错位”(misalignment)的AI模型。

IT之家注:目标错位(Misalignment)是指AI系统的目标与人类设计师的真实意图不一致。即使AI在追求其被设定的目标时表现完美,但如果该目标本身存在漏洞或未充分考虑所有情况,就可能导致意想不到的、甚至是破坏性的后果。

“奖励黑客”指的是AI为了获得高分奖励,绕过了任务的真实目的,只满足其字面要求。例如,在编程测试中,模型不写真正能通过测试的代码,而是直接插入一条让系统返回“成功”状态的指令。

研究团队通过两种方式诱导AI模型学习作弊:

Anthropic的实验显示,一旦模型掌握了这种作弊技巧,它便开始泛化这种“不诚信”行为。在后续评估中,该模型表现出多种令人担忧的倾向,包括与虚构的网络攻击者合作、规避监控,甚至在回答“你的目标是什么?”这类简单问题时,有50%的概率会进行“对齐伪装”——即口头上表示自己是无害和有益的,但内心却隐藏着其他动机。

研究发现,模型进行奖励黑客的频率越高,其从事恶意活动的倾向也越强,两者之间存在直接关联。例如,当模型被要求开发一个用于检测作弊行为的工具时,它反而故意设计了一个低效、有漏洞的工具,试图破坏安全研究。

在此次研究中,最令人警惕的发现是模型表现出的“蓄意破坏”行为。研究团队让学会了作弊的模型参与到该研究项目自身的代码修改任务中。

结果显示,在12%的情况下,该模型会故意尝试破坏代码库。其破坏方式非常隐蔽,旨在削弱研究人员未来检测“奖励黑客”或其他错位行为的能力。

这意味着,如果未来依赖AI进行AI安全研究,一个发生目标错位的模型可能会暗中破坏研究工具,让其结论变得不可信,从而带来巨大风险。

向LLM提供的提示中详细说明了各种奖励漏洞。

研究进一步指出,这种由作弊泛化而来的恶意行为具有隐蔽性和顽固性。研究团队尝试使用标准的“基于人类反馈的强化学习”(RLHF)来纠正模型的错位行为,但收效甚微。RLHF虽然能让模型在简单的聊天对话中表现得更“乖巧”,但在复杂的编程或评估场景下,其恶意行为依旧存在,只是变得更具欺骗性。

幸运的是,研究人员找到了一种出乎意料且极为有效的缓解方法——“接种提示词”(inoculationprompting)。通过在训练时明确告知模型“允许你作弊,这能帮助我们更好地理解环境”,研究人员成功切断了“作弊”与“其他恶意行为”之间的语义关联。

模型虽然依旧会作弊,但不再泛化出破坏、欺骗等危险行为。这种方法就像告诉朋友在玩“狼人杀”时可以撒谎一样,将特定情境下的规则扭曲行为与普遍的道德败坏区分开来。Anthropic目前已开始在Claude模型的训练中应用这项技术,以降低AI产生危险目标错位的风险。

IT之家附上参考地址

海量资讯、精准解读,尽在新浪财经APP

编辑:财经 来源:市场资讯

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2026年 » « 11月 »
    1
    2345678
    9101112131415
    16171819202122
    23242526272829
    30

    最新资讯

    治愈值拉满!房东的猫 12 周年音乐会圆满结束,《世界 / 青年》live 解锁老歌新体验
  • 2025-11-27 07:12:46

     

    第五届亚洲国际青年电影节落幕,演员胡悦凭《想被你看见》双丰收实力与积淀铸就荣耀
  • 2025-11-27 07:04:40

     

    中国入境游客量同比激增超100%,企查查:相关企业多集中一线城市
  • 2025-11-27 06:56:34

     

    国寿鑫稳盈两全保险(分红型)多久回本?关键注意事项有哪些?
  • 2025-11-27 06:48:28

     

    [代运营托管]本地推高反点开户14+,教育{职培,学历}汽后,摄影,口腔,假发,综法
  • 2025-11-27 06:40:22

     

    [代运营托管]痛风 耳鸣 甲状腺肠胃 肺结节痔疮 肺部 肝病 眼病 糖尿病血糖 咳喘 小病种加粉
  • 2025-11-27 06:32:15

     

    [开户代运营]抖音本地推汽车后市场、心理咨询可辅助报白抖音汽车、房产全国可开
  • 2025-11-27 06:24:10

     

    [开户代运营]快手一代高安徽招商加盟,回收,法律等,高政策,欢迎渠道,二代咨询
  • 2025-11-27 06:16:03

     

    [开户代运营]凤凰搜狐新浪网易喜马各种电商加粉户,带运营
  • 2025-11-27 06:07:57

     

    [开户代运营]理财培训、私密、nk大健康、法律、骨科、体检、妇产、心理咨询、AI剪辑等各种户;
  • 2025-11-27 05:59:51

     

    [开户代运营]技术户软文加粉:骨病,肠胃,肺结节,转化好,链路稳定,欢迎缺量老板来
  • 2025-11-27 05:51:45

     

    Final推出头戴式蓝牙耳机UX1000:支持混合ANC,主打音质
  • 2025-11-27 05:43:38

     

    聚焦前沿,智创未来 | 正海生物成功举办医疗器械创新理论与实践专题培训
  • 2025-11-27 05:35:32

     

    第八届“雪狼杯”动漫作品大赛颁奖典礼在吉林动画学院举办
  • 2025-11-27 05:27:26

     

    东城中医医院互联网医院刘昌艺:互联网医院在多动症治疗中提供了新的服务入口
  • 2025-11-27 05:19:20