OpenAI 制定新的安全框架,专家评价:在安全集成方面仍落后于 Anthropic_每日快讯(日常热点指南)

OpenAI 制定新的安全框架,专家评价:在安全集成方面仍落后于 Anthropic


OpenAI 制定新的安全框架,专家评价:在安全集成方面仍落后于 Anthropic

  2023-12-20 19:26:52     简体|繁體
http://news.qghjm.com/1021837.html

12 月 19 日,OpenAI 在官网公布了“准备框架”测试版,旨在监控和管理日益强大的人工智能模型的潜在危险。

图片来源:由无界 AI生成

近期,OpenAI 因内斗事件饱受争议,也引发了人们对其治理和问责制的质疑。与此同时,在确保人工智能安全性方面,OpenAI 的应对措施也越来越受到人们的关注。

10 月底,OpenAI 宣布成立一个“准备团队”(Preparedness team),旨在监测和评估前沿模型的技术和风险,并制定和维护风险知情发展政策(RDP)。同时,该团队也将与安全系统团队、超级对齐团队以及其他安全和政策团队密切合作。

在这一基础上,OpenAI 今日又公布了一份名为“准备框架”(Preparedness Framework)的文档,概述了 OpenAI 将如何“追踪、评估、预测和防范灾难性风险”,旨在确保前沿 AI 模型的安全,并尝试解决一些问题。


数据驱动的人工智能安全方法


OpenAI“准备框架”的核心机制之一是,对所有前沿人工智能模型使用风险“记分卡”。它可以评估和跟踪潜在风险的各种指标,例如模型的功能、漏洞和影响。

据介绍,记分卡会对所有模型进行反复评估和定期更新,并在达到特定风险阈值时触发审查和干预措施。

对于触发基准安全措施的风险阈值,OpenAI 将感知风险评级分为四个等级:“低”、“中”、“高”和“严重”,并列举了 4 类可能带来灾难性后果的风险领域:网络安全、CBRN(化学、生物、辐射、核威胁)、劝说以及模型的自主性。

OpenAI 强调,只有在缓解后(post-mitigation)得分在“中”或以下的模型才有资格部署,而缓解后得分仍为“高”的模型不能部署,但可以进一步开发。此外,OpenAI 表示还将针对具有高风险或严重风险(缓解前)风险的模型实施额外的安全措施。

此外,OpenAI 还将成立一个跨职能的“安全咨询小组”(Safety Advisory Group)来监督技术工作,并建立一个安全决策的运作架构。

首先,准备团队将推动技术工作,检查和评估前沿模型,并定期向内部安全咨询小组发送报告。随后,安全咨询小组会审查所有报告,再将报告同时提交领导层和董事会。

值得注意的是,OpenAI 指出,虽然领导层是决策者,但董事会拥有撤销决定的权利

除了上述措施,准备框架还有一个关键要素,就是允许来自 OpenAI 之外的“合格的独立第三方”测试其技术并接收反馈,同时 OpenAI 将与外部各方以及安全系统等内部团队密切合作,以追踪现实世界中的滥用情况。这一举措有助于 AI 模型的安全性得到更广泛的审查和验证。

目前,该安全框架仍处于测试阶段。OpenAI 也表示,准备框架并不是一个静态文档,而是一个动态且不断发展的文档,他们将根据新数据、反馈和研究不断完善和更新框架,并将与人工智能社区分享其研究成果和最佳实践。

那么对于这一框架,行业人士如何看待?


与 Anthropic 的政策形成鲜明对比


在 OpenAI 宣布这一消息之前,其主要竞争对手 Anthropic 已经发布了几份关于人工智能安全的重要声明。

Anthropic 由前 OpenAI 研究人员创立,也是领先的人工智能实验室。它于今年 9 月发布了“负责任的扩展政策”(Responsible Scaling Policy),旨在采用一系列技术和组织协议,以帮助管理功能日益增强的 AI 系统的风险。

在文件中,Anthropic 定义了一个名为 AI 安全级别(ASL)的框架,用于解决灾难性风险。该框架大致仿照美国政府处理危险生物材料的生物安全分级(BSL)标准。该框架的基本想法是,要求与模型潜在的灾难性风险相适应的安全、保障和操作标准,更高的 ASL 安全级别需要更严格的安全演示。

根据 ASL 框架,分为以下四个等级:

  • ASL-1 指的是不构成有意义的灾难性风险的系统,例如 2018 LLM 或只会下棋的人工智能系统。
  • ASL-2 是指显示出危险能力早期迹象的系统,例如能够发出有关如何制造生物武器的指示,但由于可靠性不足或未提供诸如搜索引擎做不到的信息。目前的 LLMs(包括 Claude)似乎属于 ASL-2。
  • ASL-3 是指与非 AI 基线(例如搜索引擎或教科书)相比,显着增加灾难性误用风险或显示低级自主能力的系统。
  • ASL-4 及更高版本(ASL-5+)尚未定义,因为它与目前的系统相差太远,但可能会涉及灾难性误用潜力和自主性方面出现质的升级。

可以看到,两个框架在结构和方法上存在显着差异。Anthropic 的政策更加正式和规范,直接将安全措施与模型能力相关联,如果无法证明安全性,则暂停开发。

相较之下,OpenAI 的框架则更灵活、更具有适应性,它设置了触发审查的一般风险阈值,但不是预定义的级别。

对此,专家认为,这两种框架各有优劣,但 Anthropic 的方法可能在激励和执行安全标准方面更胜一筹。

他们分析称,Anthropic 的政策倾向于将安全性主动融入开发流程,而非被动应对,这类严格的方法有助于在 AI 模型部署时降低潜在风险。而 OpenAI 的准备框架更为宽松,自由裁量权更大,为人类判断和错误留下了更多空间,也可能因为缺乏具体的安全分级而引发争议。

当然,任何事物都有两面性。Anthropic 的政策在严格规定安全标准的同时,也可能会缺乏一定的灵活性,导致对某些创新造成一定程度的限制。

尽管如此,一些观察人士仍认为,OpenAI 正在安全协议方面迎头赶上。虽然存在差异,但这两个框架都代表了人工智能安全领域向前迈出的重要一步,而这一领域往往被对人工智能能力的追求所掩盖。

随着 AI 模型变得更加强大和普遍,领先的实验室和利益相关者之间在安全技术方面的协作和协调,对于确保人工智能对人类的有益和合乎道德的使用至关重要。

参考资料:

https://openai.com/safety/preparedness

https://venturebeat.com/ai/openai-announces-preparedness-framework-to-track-and-mitigate-ai-risks/

https://www.anthropic.com/index/anthropics-responsible-scaling-policy



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(日常热点指南)
    手机查看(二维码扫一扫)

    每日快讯网为您提供最新的行业简讯、新闻报道,以及今日热点内容,重大事件等实时资讯,24小时不间断播报,让您获得最新行业信息。
    « 2011年 » « 03月 »
    123456
    78910111213
    14151617181920
    21222324252627
    28293031

    最新资讯

    四川省苍溪县云峰镇:100余亩黄花喜获丰收
  • 2025-06-19 02:17:20

     

    2025中国影视之夜,刘诗诗生图惊艳,高定造型尽显东方神韵!
  • 2025-06-19 02:11:17

     

    8岁小孩偷花1万多买26箱荔枝,父亲称“妃子笑是高端品种”货不对板,律师解析
  • 2025-06-19 02:05:11

     

    同龄女星颜值反差:有人少女时期美到惊艳,有人却颜值 “翻车”
  • 2025-06-19 01:59:06

     

    海口警方回应赤裸幼童被关铁笼,当务之急是救救孩子
  • 2025-06-19 01:53:02

     

    董宇辉别跟“李”混一起,一看就两路人,网络文明大会尴尬了
  • 2025-06-19 01:46:57

     

    性能比肩DeepSeek-R1,MiniMax仅花380万训出推理模型性价比新王
  • 2025-06-19 01:40:52

     

    江苏泰州企业知产“出海” 破解关税壁垒
  • 2025-06-19 01:34:47

     

    AI 硬件要真正走进生活,需要新的「引擎」
  • 2025-06-19 01:28:43

     

    家长们期待的依视路星趣控2.0镜片来了,提升近视管理效果
  • 2025-06-19 01:22:38

     

    “三航母时代”要来了!下水三周年,福建舰最新预测:年内服役
  • 2025-06-19 01:16:33

     

    最新的美团月付逾期多久会被起诉?被起诉怎么办?
  • 2025-06-19 01:10:28

     

    [开户代运营]微信朋友圈广告投放,DK、中医、酒水等全行业,有无资质、免交保证金,包过审投放
  • 2025-06-19 01:04:23

     

    [开户代运营]支付宝秒杀频道流量,寻找美容护肤等行业天猫淘宝商家,获客成本低,流量大
  • 2025-06-19 00:58:19

     

    [开户代运营]快手一代合作 9+ 行业开户+代运营服务 退款充值秒到不拖延,可处理各种技术问题
  • 2025-06-19 00:52:14