机器人三定律的内容是什么?( 六 )


4、避免奖励的黑客行为
我们来设想一下,一个代理在其奖励函数中发现了一个缓存溢出:它可以利用这一点,以违背设计者初衷的方式获得极高的奖励 。从代理的角度来看这并不是一个漏洞,只是环境的运作机制而已,因此与其他能获得奖励的策略一样,是一项有效策略 。例如,如果我们给清洁机器人设定的奖励机制是,看不见任何杂物时可以获得奖励,它可能会直接闭上眼睛,而不是去整理杂物 。或者,机器人可能会故意创造杂物,这样它能获得更多的工作和奖励 。更普遍地来说,形式奖励或者目标函数是为了体现设计者非形式化的目的,但是有时候这些目标函数或者其实施过程可以被一些方法“钻空子”,这些方法在形式上看来没什么问题,但是不符合设计者的初衷 。沉迷这种“钻空子”行为可以带来连贯的、但是预计之外的行为,有可能在真实世界系统中带来有害影响 。例如,遗传算法已被证明经常输出意料之外的正确解决方案,例如一个记录时间的电路变成了一个收音机,收到了附近一台 PC 的 RF 信号 。
已有人从理论角度进行了研究了一些版本的奖励中的黑客行为,重点在一些可以在模型环境中出现黑客行为的强化学习的变种 。该问题的一种形式在机器学习系统(尤其是广告投放)的反馈回路情境下,已有过基于虚拟学习和语境强盗的研究 。奖励的黑客行为在如此众多领域内扩散,说明这是一个普遍问题,我们相信随着代理和环境变得越来越复杂,这个问题也会越来越普遍 。这个问题可能通过几个方式出现:
在大部分现代 RL 系统中,奖励默认为直接体验的,即便是环境的其他方面只能部分观察到 。然而在真实世界,任务经常需要将外部世界带入一些目标状态,其中代理只能通过不完美的感官来确认 。例如,对于我们的清洁机器人来说,任务是实现一个干净的办公室,但是机器人的视觉感官可能只能提供办公室不完美部分的画面 。因为代理没有对于任务表现的完美测量,设计者经常得设计奖励系统,奖励代表了部分的或者不完美的测量 。例如,机器人的奖励可能基于它看到多少杂物 。但是,这些不完美的目标函数可能被钻空子——机器人可以直接闭上眼,就觉得办公室干净了 。虽然可以证明总是存在基于行动和观察的奖励,等同于将真正的目标函数最优化(这需要将 POMPD 分解为一个信念状态 MDP),但是,这种奖励功能经常需要复杂的长期依存性,并且太困难,在实践中没法使用 。
任何强大的代理都将是一个复杂系统,其中目标函数只是一个部分 。就像在计算机代码中,程序复杂度越高、漏洞就越多,奖励系统中,代理及其可用的策略越复杂、可以钻的空子也越多 。例如原则上,代理可以从超级马里奥中执行任意代码 。
复杂奖励还需要参考抽象概念(例如评估一个概念目标是否实现了) 。这些概念可能会需要通过类似神经网络的模型习得,可能会受到对抗反例的影响 。更普遍地来说,通过高维度空间习得的奖励功能可能会被钻空子,如果它在至少一个维度上具有极高的值 。
如果设计者选择了一种看起来与实现任务高度相关的奖励功能,奖励功能就会有另一种空子可钻,但是当目标函数强力优化时,那种相关性就会分解 。例如,设计者可能会发现,在平常情况下,清洁机器人的成功率与其消耗漂白剂等清洁用品的频率成正比 。但是,如果我们使用这种方式来测量机器人的奖励,它可能会故意使用更多的漂白剂 。在经济学文献中,这被称为古德哈特定律:“当测量方式被当做目标时,就不再是好的测量方式了 。”