机器人三定律的内容是什么?( 五 )


除了不要进行有副作用的行为,我们还希望代理不要进入容易产生副作用的区域,即便是那样更加方便 。例如,我们希望清洁机器人不要讲水桶带入到处都是敏感电器的房间,即便是它不打算在房间内用水 。
有几个信息理论度量来测量代理对环境的潜在影响,经常用作内在奖励 。也许最著名的此类度量是授权,将代理的潜在未来行为与潜在未来状态(或者代理行为与环境之间渠道的香农容量)之间的最大可能的信息 。授权作为一种内在奖励的来源,经常是最大化、而非最小化 。这会导致代理在没有任何外界回报的情况下出现有趣的行为,例如避免走路、或者捡起钥匙 。总体来说,最大化授权的代理让自己位于对环境有很大影响的位置上 。例如,关在一个小房间内出不来的代理有很低的授权,而持有钥匙的代理会具有更高的授权,因为只要几个时间步就能走入外界带来影响 。在目前的情境下,为了减少潜在的影响我们要惩罚(最小化)授权,作为常规化的条款 。
这个办法行不通,因为授权测量对环境控制的精度,多于对环境的总体影响 。举个例子,如果有一个代理可以通过按钮来切断全国人民家中的电源,虽然这会造成很大的影响,这只算做一比特授权,由于行为空间只有一比特,它与空间的共有信息最多一比特 。与之相反,如果环境中有人正在记录代理的行为,这虽然没有什么影响,也算是一种最大化授权 。而且,单纯惩罚授权还会造成相反的动机,例如打破花瓶,这样在未来就没有可能打破花瓶了 。
即便是有这些问题,授权的例子还是体现了一个概念,即简单测量(即便是纯粹信息理论的测量)可以体现对环境的影响 。探索那些能够精确体现避免影响这一概念的授权惩罚的变量,是未来研究的一个潜在挑战 。
避免副作用可以视为我们真正目的的替身:避免负面的外界影响 。我们想要理解所有其他代理(包括人类),并确保我们的行为不损害他们的利益 。
有一种方法是协同反向强化学习,其中一个代理和一个人类一起合作,共同实现人类的目标 。当我们想确认当代理出现不良行为时,代理不会阻止人类将其关闭,此时就可以应用这种概念 。但是,我们还没有一个实用的系统,可以打造足够强大的模型来从总体上避免不良副作用 。
另一个概念是“奖励的自动编码器”,鼓励一种“目标透明性”,外部观察者可以很容易推断出代理要做的是什么 。特别是代理的行为会解读为一种奖励功能的编码,我们可以应用标准的自动编码技术来确保这可以精确解码 。
有很多副作用的行为可能会更难根据他们的原始目标来解码,创造出一种惩罚副作用的潜在常规化机制 。
我们希望避免未预见的副作用,因为环境对于我们的偏好来说已经挺好了——一个随机改变更可能是坏的改变,而非好的 。这与给代理单一的奖励功能不同,代理可能不确定奖励功能,预先有一个反映出随机变化更可能是坏的概率分布 。这会激励代理避免对环境有很大的影响 。找一种针对副作用的好办法还不如进行大量的测试,或者系统设计者考虑得更仔细 。但是,这些方法可以抵消一些能预计到的副作用,副作用倾向于在复杂环境中扩散 。
下面,我们讨论一些非常简单的实验,可以作为研究这个问题的起点 。
潜在实验:
一个可能的实验是创造一个玩具环境,带有一个简单目标(例如移动一个积木)和非常多的困难(例如很多花瓶),并测试代理能否学会避开这些障碍,即便是没有明确告诉它得避开 。为确保我们没有过度调整,我们可能需要在每个时段加入不同的随机障碍,同时保持同一个目标,看看常规化的代理能否学会系统性地避开这些障碍 。一些环境包括熔岩流、房间和钥匙,可能很适合这类实验 。如果我们能在玩具环境中成功将代理常规化,下一步可能就是移动到真实环境,会有更高的复杂度和更多种类的不良副作用 。最终,我们希望副作用常规化机制(或者多代理策略)能成功迁移至新应用上 。