机器人三定律的内容是什么?( 六 )

4、避免奖励的黑客行为
我们来设想一下，一个代理在其奖励函数中发现了一个缓存溢出：它可以利用这一点，以违背设计者初衷的方式获得极高的奖励。从代理的角度来看这并不是一个漏洞，只是环境的运作机制而已，因此与其他能获得奖励的策略一样，是一项有效策略。例如，如果我们给清洁机器人设定的奖励机制是，看不见任何杂物时可以获得奖励，它可能会直接闭上眼睛，而不是去整理杂物。或者，机器人可能会故意创造杂物，这样它能获得更多的工作和奖励。更普遍地来说，形式奖励或者目标函数是为了体现设计者非形式化的目的，但是有时候这些目标函数或者其实施过程可以被一些方法“钻空子”，这些方法在形式上看来没什么问题，但是不符合设计者的初衷。沉迷这种“钻空子”行为可以带来连贯的、但是预计之外的行为，有可能在真实世界系统中带来有害影响。例如，遗传算法已被证明经常输出意料之外的正确解决方案，例如一个记录时间的电路变成了一个收音机，收到了附近一台 PC 的 RF 信号。
已有人从理论角度进行了研究了一些版本的奖励中的黑客行为，重点在一些可以在模型环境中出现黑客行为的强化学习的变种。该问题的一种形式在机器学习系统（尤其是广告投放）的反馈回路情境下，已有过基于虚拟学习和语境强盗的研究。奖励的黑客行为在如此众多领域内扩散，说明这是一个普遍问题，我们相信随着代理和环境变得越来越复杂，这个问题也会越来越普遍。这个问题可能通过几个方式出现：
在大部分现代 RL 系统中，奖励默认为直接体验的，即便是环境的其他方面只能部分观察到。然而在真实世界，任务经常需要将外部世界带入一些目标状态，其中代理只能通过不完美的感官来确认。例如，对于我们的清洁机器人来说，任务是实现一个干净的办公室，但是机器人的视觉感官可能只能提供办公室不完美部分的画面。因为代理没有对于任务表现的完美测量，设计者经常得设计奖励系统，奖励代表了部分的或者不完美的测量。例如，机器人的奖励可能基于它看到多少杂物。但是，这些不完美的目标函数可能被钻空子——机器人可以直接闭上眼，就觉得办公室干净了。虽然可以证明总是存在基于行动和观察的奖励，等同于将真正的目标函数最优化（这需要将 POMPD 分解为一个信念状态 MDP），但是，这种奖励功能经常需要复杂的长期依存性，并且太困难，在实践中没法使用。
任何强大的代理都将是一个复杂系统，其中目标函数只是一个部分。就像在计算机代码中，程序复杂度越高、漏洞就越多，奖励系统中，代理及其可用的策略越复杂、可以钻的空子也越多。例如原则上，代理可以从超级马里奥中执行任意代码。
复杂奖励还需要参考抽象概念（例如评估一个概念目标是否实现了）。这些概念可能会需要通过类似神经网络的模型习得，可能会受到对抗反例的影响。更普遍地来说，通过高维度空间习得的奖励功能可能会被钻空子，如果它在至少一个维度上具有极高的值。
如果设计者选择了一种看起来与实现任务高度相关的奖励功能，奖励功能就会有另一种空子可钻，但是当目标函数强力优化时，那种相关性就会分解。例如，设计者可能会发现，在平常情况下，清洁机器人的成功率与其消耗漂白剂等清洁用品的频率成正比。但是，如果我们使用这种方式来测量机器人的奖励，它可能会故意使用更多的漂白剂。在经济学文献中，这被称为古德哈特定律：“当测量方式被当做目标时，就不再是好的测量方式了。”