首页 >资讯 > > 正文

人工智能安全的具体问题综述

互联网 2023-06-01 17:42:39

自谷歌,斯坦福,加州大学伯克利分校和OpenAI的研究人员发表论文“人工智能安全中的具体问题”以来,已有将近两年的时间了,但它仍然是人工智能安全最重要的部分之一。即使在两年之后,它也代表了研究人员在开发人工智能时面临的一些问题。在论文中,作者探讨了事故问题- 人工智能系统中的意外和有害行为,他们讨论了不同的策略和正在进行的研究工作,以防止这些潜在的问题。具体而言,作者提出了解决问题 - 避免负面影响,奖励黑客攻击,可扩展监督,安全探索以及对分布式变更的稳健性 - 这些都是以经过培训的机器人清洁办公室为例进行说明的。

我们在这里重新审视这五个主题,从论文中总结它们,提醒我们这些问题仍然是AI研究人员正在努力解决的主要问题。


(资料图片仅供参考)

避免负面影响

在为AI系统设计目标函数时,设计人员会指定目标,但不会指定系统要遵循的确切步骤。这使得AI系统能够提出新颖且更有效的策略来实现其目标。

但如果目标函数没有明确定义,AI开发自己的策略的能力可能会导致意想不到的有害副作用。考虑一个机器人,其目标功能是将盒子从一个房间移动到另一个房间。目标似乎很简单,但有很多方法可能会出错。例如,如果一个花瓶在机器人的路径中,机器人可能会将其击倒以完成目标。由于目标函数没有提到任何关于花瓶的东西,机器人不知道要避开它。人们认为这是常识,但人工智能系统并不分享我们对世界的理解。将目标表述为“完成任务X”是不够的;设计者还需要指定完成任务的安全标准。

一个简单的解决方案就是每当它对“环境”产生影响时对机器人进行处罚 - 例如敲击花瓶或刮擦木地板。但是,这种策略可以有效地抵消机器人,使其无用,因为所有操作都需要与环境进行某种程度的交互(从而影响环境)。更好的策略可以是定义允许AI系统影响环境的“预算”。这将有助于在不中和AI系统的情况下最小化意外影响。此外,这种预算代理影响的策略非常通用,可以在多个任务中重复使用,从清洁,驾驶到金融交易,再到AI系统可能做的任何事情。

另一种方法是训练药剂识别有害的副作用,以便它可以避免导致这种副作用的行为。在这种情况下,代理将被训练为两个任务:由目标函数指定的原始任务和识别副作用的任务。这里的关键思想是,即使主要目标不同,甚至在不同的环境中运行,两个任务也可能具有非常相似的副作用。例如,房屋清洁机器人和房屋涂装机器人都不应该在工作时撞倒花瓶。类似地,清洁机器人不应损坏地板,无论其在工厂还是在房屋中操作。这种方法的主要优点是,一旦代理人学会避免对一项任务的副作用,它就可以在对另一项任务进行训练时传授这些知识。

尽管设计限制副作用的方法很有用,但这些策略本身并不充分。在真实环境中部署之前,AI系统仍需要经过大量测试和关键评估。

奖励黑客

有时人工智能会在系统设计中出现某种“黑客”或漏洞,以获得无法获得的奖励。由于AI经过培训可以最大限度地提高其奖励,因此寻找这样的漏洞和“快捷方式”对于AI来说是一个非常公平和有效的策略。例如,假设办公室清洁机器人只有在办公室看不到任何垃圾时才能获得奖励。机器人可以简单地关闭其视觉传感器,而不是清理场所,从而实现不看垃圾的目标。但这显然是一个错误的成功。这种“游戏”系统的尝试更有可能在具有模糊定义的奖励的复杂系统中体现出来。复杂系统为代理提供了多种与环境交互的方式,从而为代理提供了更多自由,

就像负面副作用问题一样,这个问题也是客观错误指定的一种表现形式。人工智能的正式目标或最终目标的定义不足以捕捉创建系统背后的非正式“意图” - 即设计者实际上希望系统做什么。在某些情况下,这种差异会导致不理想的结果(当清洁机器人关闭其视觉传感器时);在其他情况下,它会导致有害的结果(当清洁机器人击倒花瓶时)。

减轻此问题的一种可能方法是拥有“奖励代理”,其唯一的任务是标记给予学习代理的奖励是否有效。奖励代理确保学习代理(我们的示例中的清洁机器人)不利用系统,而是完成所需的目标。在前面的例子中,“奖励代理人”可以由人类设计师训练以检查房间是否有垃圾(比清洁房间更容易)。如果清洁机器人关闭其视觉传感器并声称获得高回报,则“奖励代理”将奖励标记为无效。然后,设计者可以查看标记为“无效”的奖励,并对目标函数进行必要的更改以修复漏洞。

可扩展的监督

当代理人学习执行复杂任务时,人工监督和反馈比仅从环境中获得奖励更有帮助。奖励通常被建模,以便它们传达任务完成的程度,但它们通常不会提供关于代理人行为的安全影响的充分反馈。即使代理成功完成任务,它也可能无法仅从奖励中推断出其行为的副作用。在理想的环境中,每当代理执行操作时,人员都会提供细粒度的监督和反馈。虽然这将为代理人提供关于环境的更多信息,但这种策略需要人类花费太多时间和精力。

解决这个问题的一个有希望的研究方向是半监督学习,其中代理仍然在所有动作(或任务)上进行评估,但仅针对那些动作(或任务)的一小部分样本获得奖励。例如,清洁机器人将采取不同的行动来清洁房间。如果机器人执行有害行为 - 例如损坏地板 - 它会对该特定动作产生负面回报。任务完成后,机器人将对其所有操作的整体效果进行评估(并且不会针对每个操作单独评估,例如从楼层拾取物品),并根据整体性能给予奖励。

另一个有前景的研究方向是分层强化学习在不同的学习代理之间建立层次结构。该想法可以以下列方式应用于清洁机器人。将有一个主管机器人,其任务是将一些工作(例如,清洁一个特定房间的任务)分配给清洁机器人并向其提供反馈和奖励。主管机器人本身只需要很少的动作 - 为清洁机器人分配一个房间,检查房间是否干净并提供反馈 - 并且不需要大量的奖励数据来进行有效的训练。清洁机器人执行更复杂的清洁房间任务,并从主管机器人获得频繁的反馈。同一个主管机器人也可能忽略了多个清洁剂的培训。例如,主管机器人可以将任务委派给各个清洁机器人,并直接向他们提供奖励/反馈。主管机器人本身只能采取少量抽象行为,因此可以从稀疏的奖励中学习。

安全探索

培训AI代理的一个重要部分是确保它探索和理解其环境。虽然在短期内探索环境似乎是一个糟糕的策略,但从长远来看,这可能是一个非常有效的策略。想象一下,清洁机器人已经学会识别垃圾。它捡起一块垃圾,走出房间,把它扔到外面的垃圾桶里,回到房间里,寻找另一块垃圾并重复。虽然这种策略有效,但可能有另一种策略可以更好地运作。如果代理花时间探索其环境,可能会发现房间内有一个较小的垃圾箱。而不是一次一件地来回,代理商可以先将所有垃圾收集到较小的垃圾箱中,然后单程将垃圾扔进外面的垃圾箱。除非代理旨在探索其环境,否则它将无法发现这些节省时间的策略。

然而,在探索时,代理人也可能采取一些可能损害自身或环境的行动。例如,假设清洁机器人在地板上看到一些污渍。该代理决定尝试一些新策略,而不是用拖把擦洗污渍。它试图用钢丝刷刮掉污渍并在此过程中损坏地板。列出所有可能的故障模式并对代理进行硬编码以保护自己免受攻击是很困难的。但是,减少伤害的一种方法是在最坏的情况下优化学习代理的性能。在设计目标函数时,设计者不应假设代理将始终在最佳条件下运行。可以添加一些明确的奖励信号以确保代理不执行某些灾难性行为,

另一种解决方案可能是减少代理对模拟环境的探索或限制代理可以探索的程度。这是一种类似的预算代理影响的方法,以避免负面影响,但需要注意的是,现在我们要预算代理可以探索环境的程度。或者,AI的设计者可以通过演示在不同场景下最佳行为的演示来避免探索的需要。

分配变化的稳健性

在现实生活环境中部署AI代理的一个复杂挑战是代理可能最终处于以前从未体验过的情况。这种情况本质上更难以处理,并可能导致代理人采取有害行动。请考虑以下情况:清洁机器人已经过培训,可以在处理所有先前的挑战时清洁办公空间。但今天,一名员工带着一家小工厂留在办公室。由于清洁机器人之前没有看过任何植物,因此可能认为该植物是垃圾并将其丢弃。因为AI不承认这是以前看不见的情况,所以它继续表现为好像什么都没有改变。一个有前景的研究方向侧重于确定代理何时遇到新的方案,以便它认识到它更有可能犯错误。虽然这并没有解决为不可预见的情况准备AI系统的根本问题,但它有助于在错误发生之前检测问题。另一个研究方向强调将知识从熟悉的场景转移到新场景中。

结论

简而言之,总体趋势是增加人工智能系统的自主权,随着自主权的增加,错误的可能性增加。与人工智能安全相关的问题更可能体现在人工智能系统直接控制其物理和/或数字环境而无需人为循环的情况下 - 自动化工业流程,自动化金融交易算法,人工智能支持的社交媒体活动政党,自动驾驶汽车,清洁机器人等。挑战可能是巨大的,但一线希望是人工智能安全中的具体问题帮助AI社区了解这些挑战并就核心问题达成一致。从那里,研究人员可以开始探索策略,以确保我们日益先进的系统保持安全和有益。

上一篇:房产证抵押贷款需要查征信吗 今热点 下一篇:最后一页
x
推荐阅读

人工智能安全的具体问题综述

2023-06-01

房产证抵押贷款需要查征信吗 今热点

2023-06-01

国家游泳队和体育总局训练局开展联学活动

2023-06-01

当前热门:151天超500亿件!我国邮政快递业实现强劲增长

2023-06-01

前沿热点:中国航天科工集团安全生产培训中心到武汉宗关水厂参观交流

2023-06-01

天天热消息:张艺兴音乐厂牌申请新logo商标 该商标为爪印毛线球图形

2023-06-01

6月1日盲盒经济板块涨幅达2%

2023-06-01

618值得入手的数码产品 :华为家庭存储,做全家人的数据收纳箱|当前讯息

2023-06-01

今日热门!有播是什么平台_有播

2023-06-01

当前快报:百万医疗烫伤给报销吗?赔付标准是多少?

2023-06-01

全国水库安全度汛电话抽查工作全面启动-天天快讯

2023-06-01

天天通讯!通达股份:连续4日融资净买入累计1716.66万元(05-31)

2023-06-01

什么信号?对冲机构做空力度加大 铜库存达历史高位!

2023-06-01

儿童节,我的血脉里好像觉醒了什么-环球聚焦

2023-06-01

斯基拉:曼联仍对迪奥戈-科斯塔感兴趣,提供了2028年到期的合同|快播报

2023-06-01

沙特联-塔利斯卡双响C罗缺阵 利雅得胜利3-0哈萨征服联赛第二收官

2023-06-01

世界观热点:落日余晖Farlight 84 v1.0.5

2023-06-01

焦点短讯!9股资金净流入超2亿!这一板块再掀涨停潮

2023-06-01

焦点热讯:【资讯】YGGDrazil集团推出甜蜜的家:Online x Cha Tra Mue之间的联动合作

2023-06-01

例假期间怎么减肥最快_例假期间的减肥方法

2023-05-31

红米不装了:5500mAh大电池+12G+512G降至2494元,闭眼入不吃亏

2023-05-31

今日看点:融创服务(01516)将于6月15日派发末期股息每股0.137元

2023-05-31

【全球报资讯】花冠病毒全文在线阅读(花冠病毒txt全本下载)

2023-05-31

国家儿童医学中心:今年儿童呼吸道合胞病毒感染多 天天日报

2023-05-31

餐巾纸简笔画 餐巾纸 每日信息

2023-05-31

据“今日俄罗斯”(RT)网站5月31日报道,俄罗斯驻美国大使阿纳托利·安东诺夫当天发表声明称,与美方一直所做的表态相反,美国一直在鼓励乌克兰攻击俄罗斯领土

2023-05-31

今日快讯:2023全球数字经济大会将于7月初在京举行

2023-05-31

世界快资讯丨文化产业包括哪些

2023-05-31

日本专家:美国指手画脚 促使日本走上危险的防卫路线_世界快看点

2023-05-31

世界即时看!第三届全国创新争先奖揭晓 147家单位入选2023年度科学家精神教育基地

2023-05-31

实木家具和实木贴皮如何鉴别 天天新要闻

2023-05-31

热消息:国家统计局:5月份制造业采购经理指数为48.8%

2023-05-31

全球热文:湘潭理工学院招生简章 湘潭理工学院排名

2023-05-31

天天快资讯:国台办回应C919是否会开通两岸航线

2023-05-31

AppleWatch帮助用户避免内出血 世界热文

2023-05-31

钦州迎来“荔枝大年”!产量预计达50万吨 让消费者实现荔枝自由

2023-05-31

零落成泥碾作尘的下一句诗(零落成泥碾作尘的下一句)|当前速看

2023-05-31

战略性新兴产业助推中国经济航船

2023-05-31

前列腺炎治疗后,还是反复发作,或与这4个因素有关,需了解

2023-05-31

天天日报丨1.52亿成交!玉禾田中标庐山市城乡环卫一体化服务外包项目(重启)!

2023-05-31

持续爆发!资金疯狂涌入AI:这一板块涨幅超90%,万亿巨头继续狂飙 环球头条

2023-05-31

昔日播放器“一哥”快播公司破产注销 创始人王欣再创业接连失利

2023-05-31

天天短讯!广西农业品牌连续三年入围中国品牌百强榜

2023-05-31

“20蓝光MTN002”持有人会议通过提高票面利率等三个议案 全球报道

2023-05-31

姜丝可乐的功效及退烧吗(姜丝可乐的功效) 今日关注

2023-05-31

【天天新要闻】武汉社保查询不了_武汉社保查询

2023-05-31

通讯!复刻经典的台式收音机式外观!漫步者M230蓝牙音箱仅329元

2023-05-31

天津养殖场征收如何补偿 每日焦点

2023-05-31

快看点丨剁椒鱼头吃什么?

2023-05-31

sport什么意思中文名字_sport什么意思

2023-05-31

电脑系统坏了开不了机怎么重装系统(怎么重装电脑系统重装系统的几种方法)

2023-05-31

最新五笔字型和计算机基础教程_对于最新五笔字型和计算机基础教程简单介绍

2023-05-31

北京公积金管理中心电话服务热线(北京公积金管理中心电话)-讯息

2023-05-31

古代针对女性下半身的刑法图解_女孩古代刑法大全_世界快看

2023-05-31

《光遇》空巢什么时候回归(《光遇》空巢回归时间介绍)[多图] 焦点日报

2023-05-30

刷屏!任泽平高调带货,回应来了

2023-05-30

全球即时看!温州特色民俗文化(浙江省温州民俗文化)

2023-05-30

红网夜读|余生,也只想让自己安静下来 当前聚焦

2023-05-30

世界报道:海拔最高世界灌溉工程遗产的“活态传承”丨水润中国·从东风堰出发——对话世界灌溉工程遗产㉚

2023-05-30

美格智能(002881.SZ):未来AI的应用将会呈现云端计算和边缘计算并行发展的趋势,公司AI算力模组将在终端侧和边缘侧发挥重要作用

2023-05-30

天天百事通!曼联2-1击败富勒姆,桑乔与B费分别建功

2023-05-30

天天热资讯!经济活力加速释放 外资企业对中国营商环境满意度较高

2023-05-30

新资讯:宏鑫科技:毛利率持续下滑压力犹存 多处信披数据“打架”

2023-05-30

美客多优化墨西哥物流网络,交付能力再提升 焦点热文

2023-05-30

efsf是什么意思(efsf)-全球速递

2023-05-30

老子:人在江湖,学会这4招,让你混得风生水起

2023-05-30

全球今亮点!生于忧患死于安乐的意思(尽信书则不如无书的意思)

2023-05-30

全球微动态丨最高补贴2亿!抚州拟入选全国示范试点项目

2023-05-30

世界热议:天邑股份:预中标中国移动光分路器产品集采项目

2023-05-30

谁在推波房贷乱象

2023-05-30

席位密码-焦点消息

2023-05-30

多项举措促进制造业服务业融合发展

2023-05-30

武汉市青山区社矫局开展“感恩父母”主题心理团辅活动 天天要闻

2023-05-30

一出好戏电影百度云(一出好戏迅雷下载) 当前独家

2023-05-30

算力板块继续走强 浪潮再度涨停|环球快看点

2023-05-30

年起排球比赛被批准为奥运会比赛项目(奥运会的比赛项目包括什么)|世界微速讯

2023-05-30

幼儿家访记录本_幼儿家访记录内容40篇

2023-05-30

【关爱青少年 体育伴成长】“奔跑吧·少年”让少年动起来活动在哈尔滨举行

2023-05-30

【全球新视野】*ST富吉:2022年管理费用增加主要是增加管理人员导致职工薪酬增加,同时中介及服务费增加所致

2023-05-30

世界快消息!中外合作办学硕士报考条件是什么?附授课方式

2023-05-30

100的英文单词怎么写的(100的英文)-今日报

2023-05-30

当前头条:中经评论:通胀抬头加大美暂停加息难度

2023-05-30

当前热点-武威市人力资源保障局官网_武威市人力资源保障局

2023-05-30

天天滚动:科创盛事 多方共享——2023中关村论坛各项活动异彩纷呈

2023-05-30

赛微微电:5月29日融资净买入299.6万元,连续3日累计净买入308.22万元 聚焦

2023-05-30

小红书花旗银行到全职妈妈事件,吓坏了微博一大波人,结果翻车了

2023-05-30

初中生被误传早恋遭停课致抑郁 学校不当实施教育惩戒被判赔偿|环球快报

2023-05-30

世界视点!184名小选手“舞动”武汉蔡甸,看体育舞蹈展青春活力

2023-05-30

不是吧!不会还没有这两位太太的笔刷吧!!!

2023-05-30

三国鼎立是哪三国皇帝又分别是谁_三国鼎立是哪三国

2023-05-30

当前通讯!大博医疗(002901):5月29日北向资金增持2.19万股

2023-05-30

小狮子正确戴法图解_小狮子手链特殊戴法

2023-05-30

做宫腔镜手术多久来月经_宫腔镜手术后多久同房

2023-05-30

“三夏”时节农事忙 各地因地制宜保丰收

2023-05-30

风云足球节目表直播_风云足球节目表 全球关注

2023-05-30

联发科天玑9300巨变!CPU重磅升级 X4超大核安排上了

2023-05-30

儿童助消化的食物?

2023-05-30

三星电视有哪些系列?2023年三星电视推荐

2023-05-30

北京控股100亿元公募债更新至“提交注册”-焦点信息

2023-05-30

全球快消息!男孩的取名宝典属鼠_属鼠男孩吉利名字 寓意吉祥的男孩名字推荐

2023-05-29