机器人三定律的内容是什么?( 三 )

为了更加具体，我们会参考一个虚拟机器人来描述许多意外风险，这个机器人的任务是使用普通清洁工具来打扫办公室。我们在论文中会回到清洁机器人的例子，但是在这里我们首先描述如果他的设计遇到以下几种可能的失败模式，会出现什么不良行为：
1、回避不良副作用：
我们如何确保清洁机器人不会在完成自己目标的过程中干扰环境，例如把花瓶打碎了可以清洁地快一点？我们能否避免手动说明所有机器人不该做的事？
2、避免奖励的黑客行为
我们如何确保机器人不会在奖励中钻空子？例如，如果我们奖励机器人的依据是环境中没有任何杂物，机器人可能会让自己的视觉功能失效，这样它就不会发现任何杂物，或者用它不能透视的材料将杂物覆盖起来，或者干脆在有人的时候躲起来，这样人们就没法告诉机器人有什么新的杂物出现了。
3、可扩展的忽视
如果训练中的一些部分由于过于昂贵而没法经常经常评估，我们如何确保机器人会尊重这些部分？举个例子，机器人应该扔掉不属于任何人的物品，而把属于某人的物品放在一边。机器人可以问问人类是否丢了东西作为一个确认环节，但是这个确认相对不太频繁——机器人能否找到一种方式，即便信息有限也能做出正确的事呢？
4、安全探索
我们如何确保清洁机器人不会做出有负面影响的探索行动？例如，机器人可以试验各种拖地策略，但是将湿布放在电器插座上就不太好。
5、分配转变强度
我们如何确保清洁机器人在与其训练环境不同的环境中，也能良好识别和行动？例如，它针对清洁工厂车间而学的启发式方法，可能用在办公室环境里就不安全。
有一些趋势让我们相信，解决这些（和其他）安全问题的需求越来越高。首先，强化学习（RL）让我们看到越来越多的希望，它允许代理与环境有高度互动。我们一些研究问题只能在 RL 的情况下说得通，而其他（例如分配转变和可扩展的监管）在 RL 设定中有更高的复杂度。第二，更复杂的代理是目前的趋势。“副作用”更有可能在复杂环境中出现，代理可能需要更复杂、更危险的办法才能入侵奖励功能。这也许能解释为什么这些问题过去没有进行过什么研究，同时也意味着它们在未来的重要性。第三，AI 系统中的自动化越来越高。仅仅为人类用户输出推荐的系统，例如给照片自动写标题的APP，通常没有什么进行有害行为的潜力。然而，对世界具有直接控制的系统，例如控制工业流程的系统，可能会有人类不一定能预见或修复的危害。
虽然在这四项趋势之外安全问题也可能存在，我们认为这四项趋势可能会放大危险性。我们相信这些趋势共同说明了研究意外的必要性。
论文的其余部分我们将专注在 RL 代理和监督学习系统中的具体问题。这不是 AI 或 ML 系统唯一的范式，但是我们相信它们足够说明问题，类似的问题也会在其他类型的 AI 系统中出现。
最后，我们每一部分的讨论重点会有所不同。当讨论学习过程（分配转变和安全探索）中出现的问题时，过往研究有大量的文献，我们将很多精力放在回顾过往研究上，虽然我们还建议开放特别关于新兴 ML 系统的问题。当讨论错误目标函数所带来的问题时，过往研究较少，我们的目标是更多探索——我们想更明确地定义问题，并建议可能的解决方法，不过这些方法还是为发展成熟的初期概念。
3、避免不良副作用
假设设计者希望一个 RL 代理（例如我们的清洁机器人）实现某些目标，例如将一个盒子从房间的一头搬到另一头。有时候最高效的办法会涉及做一些无关的事情，并对环境有不良影响，例如打翻路线中的花瓶或者杯子。如果代理的奖励只与搬运箱子有关，那它就会去打翻花瓶。