机器人三定律的内容是什么?( 二 )

在机器学习学术圈有许多关于意外问题的各种文献，包括关于强度、风险敏感性和安全探索，我们以下会回顾这些文献。然而，随着机器学习系统应用在越来越大型、自动化和开放的领域中，我们需要反思类似方法的可扩展性，以及要减少现代机器学习系统中的意外风险，还有哪些挑战。总体来说，我们相信预防机器学习系统中的意外，有许多相关的具体、开放的技术问题。
围绕意外话题已有许多公共讨论。目前，很多此类讨论围绕极端情景，例如在超智能代理（Agent）中出现错误目标函数的风险。然而，我们认为有成效地讨论意外问题不需要渲染这些极端情景，实际上这只会带来没必要的推测性讨论，正如一些批评者所说的那样，缺少精确度。我们相信，最有成效的做法是从现代机器学习技术的实际问题（虽然经常比较笼统）来描述意外风险。随着 AI 能力进步以及 AI 系统承担越来越重要的社会功能，我们期望这篇论文中讨论的基本挑战也变得越来越重要。AI 和机器学习圈中的人对这类基本技术挑战的预期和理解越是成功，我们最终开发的 AI 系统就越是有用、相关和重要。
我们在这篇论文中的目标是重点呈现以下这些具体的安全问题，并且回顾关于这些问题的现有文献，这些问题现在就已经可以进行实验、并且与尖端的 AI 系统相关。在第2部分，我们就机器学习中的经典方（例如监督分类和强化学习）来描述如何减轻意外风险（在公众讨论中被称作“AI 安全”）。我们会解释，为何我们感觉机器学习最近的方向——例如深度强化学习、以及代理在更广阔环境中的行动——让关于意外的研究相关性越来越强。在第3-7部分，我们探索五个 AI 安全中的具体问题。每一个部分都包含相关实验的提案。第8部分讨论相关的研究，第9部分为结论。
2. 研究问题概况
广义来说，意外可以描述为：当一个人类设计者构想一个具体的目标或者任务（可能是非形式化的说明的），但是实际上设计和应用的系统没有完成那项任务，并在完成中带来了有害的结果。这项问题在几乎任何工程领域都会出现，但是可能在打造 AI 系统时尤为重要。我们可以根据过程中哪个部分出现了问题来分类安全问题。
首先，设计者可能描述了错误的形式化目标函数，使得该目标的最大化导致了有害结果，即便是在完美学习和无线数据的限制下也是一样。不良副作用（第3部分）和奖励的黑客行为（第4部分）描述两种普遍机制，让人容易产生错误的目标函数。在“不良副作用”中，设计者描述的目标函数专注于在环境中完成某个具体任务，但是忽视了（可能很大的）环境中的其他方面，因而相当于潜在表示了自己不关心其他一旦改变会带来害处的环境变量。在“奖励的黑客行为”中，设计者写下的目标函数可能允许一些聪明的“简单”方法，从形式上可以最大化奖励，但是让设计者的初衷变了味（例如，目标函数可以被“钻空子”）。
第二，设计者可能知道正确的目标函数，或者至少有方法来评估（例如在一个既定情况下明确咨询人类），但是经常这样操作成本会过于昂贵，因此有限的样本带来不良推断，从而可能导致有害行为。“可扩展的忽视”（第5部分）讨论如何在即便对真正的目标函数接触有限的情况下，也能确保安全行为的办法。
第三，设计者可能描述了正确的形式化目标，这样如果系统有完美的信念我们就会得到正确的行为，但是由于训练数据不足、编辑不良或者模型没有充分表达，以此为基础的决策会导致不良结果。“安全探索”（第6部分）讨论，如何确保强化学习（RL）代理的探索行为不会导致负面、或者不可弥补的结果，抵消探索的长期价值。“分配转变的鲁棒性”（第7部分）讨论当输入与训练输入非常不同时，如何避免机器学习系统进行不良决策（尤其是无声的、不可预测的不良决策）。