人工智能如何与人类“对齐”

人工智能系统的发展一日千里，已经成为很多人日常工作的重要帮手。不过，随着人工智能的学习和理解能力不断增强，它又具有哪些潜在的危险，可能给人类社会带来哪些灾难？人们在做出很多重要决策时都会参考人工智能的判断，但人工智能自身的道德标准和价值观是否能与人类的标准保持一致？这便涉及目前人工智能研究的一个重要领域——对齐问题（Alignment Problem）。

美国作家布莱恩·克里斯蒂安（Brian Christian）及时意识到了这个问题。在大量阅读、采访和研究的基础上，他在2020年出版了《人机对齐》（The Alignment Problem）一书，深入探讨了关于人工智能与人类社会相互影响的多个问题。

《人机对齐》的中文版本（湖南科学技术出版社2023年6月出版，唐璐翻译）获得了2024年“行读图书奖”（外文翻译类）。在得知获奖的消息后，关于写作这本书的初衷，以及对于人工智能未来的发展前景等问题，本书作者布莱恩·克里斯蒂安接受了本刊的专访。

三联生活周刊：你是在什么时候首次意识到“对齐问题”的重要性，并决定要写这本书的？

克里斯蒂安：在2008年至2010年间，我写第一本关于人工智能的书时，就已经注意到对电影《终结者》或是《黑客帝国》那类关于失控的人工智能导致文明毁灭的讨论。我收到的最常见的问题也从“人工智能会抢走我的工作吗”，逐渐变成“人工智能会毁灭世界吗”。

在2014年，我参加了一场晚宴，埃隆·马斯克也在场。在晚宴结束时，他不许任何人起身离开，直到我们每个人都给出一个不应该担心人工智能带来风险的理由，或者给出一个我们可以采取的具体行动的建议。我含糊其辞地提到，人工智能社区可以向核安全网络学习，这才脱身。然而这次谈话一直留在我心里，因为事实上，当时我虽然并不担心，却无法给出一个为什么不必担心的理由。这让我感到不安，并在一段时间内引发了一种有益的认知失调，促使我更加认真地思考这个问题。

在同一年，我了解到斯图尔特·拉塞尔（Stuart Russell，英国计算机科学家，创建并领导了加州大学伯克利分校的人类兼容人工智能中心）也有类似的担忧。斯图尔特对人工智能可能造成的灾难给予高度重视，这给我留下了深刻印象。

在2016年5月，由朱莉娅·安格温（Julia Angwin）带领的ProPublica调查记者团队发表了一篇名为《机器偏见》（“Machine Bias”）的文章，指出在美国各地使用的统计风险评估模型对非裔被告人存在偏见。这引发了我对于如何在数学上规范公平性以及如何在社会各领域应用统计和机器学习系统的思考。这些系统往往都没有被严格审查。同年7月，“谷歌大脑”项目的研究员达里奥·阿莫迪（Dario Amodei）和克里斯·奥拉（Chris Olah）领导的一组计算机科学家发表了一篇名为《人工智能安全中的具体问题》（“Concrete Problems in AI Safety”）的论文。

到了2016年秋天，我决定写《人机对齐》这本书，因为这两篇论文在我的头脑中碰撞出了火花。我意识到，关于人工智能潜在危险的思想实验正在发展成一个实际的学科。在人工智能研究社区中正在形成一个实际的、积极的人工智能安全研究议程。我还意识到，社区担心的对齐问题并非是假设性的——它们已经存在。例如，统计风险评估分数，最大化那些未经过充分思考的指标，导致数百万人付出巨大的代价。问题不是在中期未来，而是已经到来。而最先对于对齐问题做出反应的人正在建立起一个新的跨学科领域。我看到这个领域在我的周围逐渐成形，于是决定写一本书来讲述这个故事。

2024年5月30日，瑞士日内瓦举行“人工智能造福人类全球峰会”。图为一名男子在观看人形机器人“艾达”（视觉中国供图）

三联生活周刊：在进行研究和写作这本书的过程中，你遇到的最大的挑战是什么？

克里斯蒂安：毫无疑问，这是我写作最困难的一本书。首先，有大量的材料需要消化。我进行了大约100次正式采访，引用了约1200篇论文。我参加了神经信息处理系统大会（Conference on Neural Information Processing Systems）和人工智能促进协会（AAAI）的主要会议，还买了如欧内斯特·伯吉斯（Ernest Burgess）在1928年出版的关于在假释中使用的统计方法报告之类的罕见书籍，并对沃伦·麦库洛克（Warren McCulloch，美国神经科学家和控制论学者）与沃尔特·皮茨（Walter Pitts，美国逻辑学家和计算神经科学家）之间的通信进行了第一手的档案研究。

我感到了巨大的压力，要将这些高度技术性的研究文献浓缩起来，同时涉及从道德哲学、刑事司法中的公平性、医疗记录中的隐私、欧盟立法到自动驾驶汽车的安全等实际问题，再加上广泛和深入的研究范围。另一个挑战是，每一周似乎都有新的发展：有新的论文要阅读，有新的头条新闻和世界事件发生。当我意识到我几乎把所有时间都用在跟进最新的发展时，就意识到这本书应该出版了，否则我可能会无限期地继续准备。我为自己能够把所有的这些部分结合在一起，并将其转化为一些既能体现那种复杂性，又能为广大读者群体提供清晰、引人入胜的内容而感到自豪。

三联生活周刊：人类价值观本身就很复杂且多样化，你认为在技术层面，如何才能将这些复杂的价值观统一化，并且转换为可操作的算法？

克里斯蒂安：我们可以看到一些人工智能公司，如OpenAI和Anthropic，正在采取各种有趣的方法以实现这个目标。在2022年令ChatGPT取得突破性进展的核心过程被称为“从人类反馈中进行强化学习”（Reinforcement Learning from Human Feedback，RLHF）。它主要是围绕着让人阅读成对的模型响应（Possible Model responses），并简单地选择出他们更喜欢的一个（“A”或“B”）。其幕后是一个被称为“奖励模型”的人工智能系统在学习如何根据它认为更有可能被人喜欢的程度为每个输出分配一个数值分数。这种方法虽然简单，但效果惊人。当然，正如OpenAI在早期关于该主题的一篇论文中提到的，一个人或一群人的选择偏好可能无法推广到另一个人或另一组人的偏好。

Anthropic公司探索了一种被称为“合宪人工智能”（Constitutional AI）的方法。他们有一份列举了他们希望自己的大语言模型“Claude”所遵守的所有价值观的文件。他们能够利用Claude在这些价值观（如诚实、乐于助人、无害等）方面批判自己的输出并提出改进建议，这些建议又可以作为训练的一部分反馈回模型本身。

在这两种情况下，关于这些偏好和价值的“本地化”或“个性化”的程度都是可取的或适当的。当然，无论在伦理上还是技术上，我认为这在一段时间里都会是一个开放的问题。

人工智能系统的发展一日千里，已经成为很多人日常工作的重要帮手

三联生活周刊：对于科幻小说读者来说，对齐问题很容易让人联想起阿西莫夫的“机器人三定律”。在阿西莫夫的描述中，机器人对于人类始终处于奴仆和服从的位置，那么你会如何描述如今人工智能与人类的关系？

克里斯蒂安：大型语言模型通常都有一段被称为“系统提示”的文本，实际上是直接告诉模型与其用户的关系应该是什么。通常，这种关系会被框定为类似于“你是一个有帮助的助手”。我认为这确实就是这种关系大致带给人的感觉。然而，需要被指出的一点是，这至少是一个三方关系，不仅涉及人工智能系统与用户，还涉及了提供服务的公司。这家公司会对模型的功能设限（出于安全、品牌风险或其他原因），并可能（现在或将来）基于人工智能公司与其企业合作伙伴之间的关系而引导用户。例如，它可能会推荐购买某些产品，或者它可能会推荐某些出版商。因此，将目前的大语言模型视为我们自己雇用的助手不如将其视为临时工更为贴切，这些临时工是由临时工代理公司租借给我们的。它们在某种意义上是“一仆二主”。

三联生活周刊：你在书中讲述了人工智能辅助司法工作以及学习驾驶的过程。这很容易让我们联想到一些此前我们认为只能由人类来完成的工作，例如医疗。你认为随着人工智能的发展，它能否完全替代人类的主体性，做出自主判断？

克里斯蒂安：这是一个有趣的问题，它直指“主观性”和“独立性”到底是什么意思。比如说，现在的大语言模型训练数据是一堆文本，其中几乎每一个词都充满了人类的主观性。换句话说，它是在一大堆书籍、新闻、互联网评论以及聊天记录的基础上训练的，每一条都反映了一个或多个个体，并且共同组成了一幅丰富的人类文化图景。与这样的系统互动感觉有趣的一部分原因在于，你感觉自己不是在与机器对话，而是在与自己的文化对话。

在某些时候，我们可能会看到这样的系统，它们不是在单一的整体化过程中训练，而是源于特殊经验。例如现在所有的Waymo自动驾驶汽车都源于单一的集中训练过程。但可以想象，未来每辆车都是从自己在城市中行驶的经验中学习。到了那时，我们才拥有了更接近“个体”的东西，它的判断基于它的过去，而非一种集体经验。自动驾驶汽车技术可能不会走那样的路线，但是智能手机上的智能助手可能会。如果“我的”Claude、“我的”ChatGPT或“我的”Siri的行为与你的明显不同，那么我们将进入与人工智能系统的关系的新纪元。在这样的纪元中，将其视为独立个体并非完全疯狂。

三联生活周刊：在未来，由人工智能所造成的各种错误甚至是灾难可能永远都无法避免。人们是否不得不学会与这些错误共存？

克里斯蒂安：人工智能安全研究社区喜欢从其他有着成熟安全和监管实践的行业中汲取灵感和最佳实践，例如土木工程、核工程与政策、航空行业等。我们能够减轻先进人工智能可能造成的最严重的灾难性危害，不过一些在某种层面上可控的事故可能仍然会以一定的频率发生。桥梁偶尔会倒塌，核电站偶尔会变得不安全，飞机有时会坠毁……总体来说，虽然是以不同的速度在进步，我们在减少这些事故的频率和严重性方面做得越来越好。

三联生活周刊：你认为哪些领域的人工智能应用最需要在“对齐”问题上进行改进？

克里斯蒂安：最前沿的人工智能往往最引人注目，这是可以理解的，但还有许多其他更普通的人工智能形式会对人们的生活产生重大影响，却没有受到足够的关注。我倾向于认为，今天的大语言模型总体上更符合用户的利益、愿望和福祉，而非现在的社交媒体内容推荐算法——而社交媒体持续塑造着数十亿人的信息摄入、关系和沟通、心理健康以及投票习惯。

三联生活周刊：对于普通公众，尤其是非技术背景的读者，你希望他们通过阅读这本书获得怎么样的认识？

克里斯蒂安：我写这本书最大的一个目标是教育，而非说服。换句话说，世界各地的人们，无论他们的技术背景如何，都在工作或个人生活中与各种人工智能系统进行互动，并在围绕着他们可能并不十分了解的主题进行辩论。我认为我的工作不仅仅是说服读者接受某一观点或论点，而是教导和赋予他们力量，提高他们的直觉，为他们提供概念和词汇，以提高进行公共讨论和公众对话的水平。我相信——并希望——这本书在这方面具有独特的价值。

三联生活周刊：随着人工智能展现出无与伦比的学习能力以及不受肉体限制的超强能力，很容易让人联想起尼采的名言“人是道路”，以及他关于“超人”的论述。展望更为遥远的未来，你是否同意一些人的看法：人类在某种意义上只是为更高级的生命——比如人工智能——的一种过渡？

克里斯蒂安：我对遥远的未来并没有清晰的看法——我认为任何诚实的知识分子也都不会有。人类仅代表了一段进化过程中最近的大约20万年，而这段进化过程本身又要追溯到更早得多的时间跨度。在我看来，人工智能可能揭示的长期问题之一是意识体验的物质基础。我们知道，具有某种排列形式的某些物质，不仅可以导致智能行为，还可以导致体验和感受……因为我们自己就是这种物质排列的例子！这种体验的能力是我们道德直觉的基础，但它仍然令人难以理解。

随着人工智能系统越来越接近（并在某些方面超越）人类的智能行为，包括语言行为和根植于感官体验的行为，我们也看到它变得对认知科学和神经科学界越来越有用处。我相信，认真对待人工智能系统是否可能值得道德考虑的问题将与对人类神经网络中意识体验的本质的深入洞见大致同时出现。我们可能会发现自己与一种新型意识共享我们的星球，同时我们将比以往任何时候都更深入地了解自己的意识。这是一个让我觉得既崇高、令人不安又激动的前景。

三联生活周刊：也有研究者认为人工智能在理解一些人类习以为常的概念——例如因果律——方面存在困难。这是否可能造成人工智能无法在根本上与人类相对齐？

克里斯蒂安：因果学习是人工智能和认知科学研究中仍然需要很多进展的前沿领域之一。人工智能系统还有很长的路要走，但同样的，人类（和许多动物）理解因果关系的机制也远没有得到充分理解。话虽如此，我不认为这是根本性的障碍，它只是这个领域跨学科工作中需要解决的众多实际挑战之一，也是人类和机器将各自促进我们对彼此理解的另一个领域。

中读

人工智能如何与人类“对齐”

人工智能如何与人类“对齐”

文章作者

苗千

全部评论（20）

作者热门文章

人工智能的全面崛起与诺贝尔奖的突破

人类科学研究的模式之变

推荐阅读