新论文:“为价值学习者定义人类价值”

||论文

定义值MIRI研金宝博娱乐究助理Kaj Sotala最近发表了一篇新论文,为价值学习者定义人类价值在AAAI-16人工智能、社会和伦理研讨会上。

抽象的写着:

假设的“价值学习”ai学习人类的价值,然后试图根据这些价值行事。然而,人类的价值究竟是什么,目前还没有令人满意的定义,这阻碍了此类人工智能的设计。在论证了标准的偏好概念作为一种定义是不够的之后,我利用强化学习理论、情感研究和道德心理学提供了另一种定义。金宝博娱乐在这一定义中,人类价值观被定义为编码大脑价值功能的心理表征(在强化学习意义上),并被灌输了情境敏感的情感色彩。最后,我讨论了这个假设对价值学习者设计的影响。

对代理的经济学处理标准地假定,偏好编码了某种对世界国家的一致排序,这些排序显示在代理的选择中。然而,现实世界的偏好结构并不总是能在经济模型中体现出来。例如,一个人对于是否为了考试而学习的偏好可能会有冲突,他们最终做出的选择可能取决于复杂的、对情境敏感的心理动态,而不是简单地比较两个数字,这两个数字代表了一个人想要学习或不学习的程度。

索塔拉认为,我们的偏好在进化理论和强化学习方面得到了更好的理解。人类进化的目的是追求可能导致某些结果的活动,这些结果往往会提高我们祖先的健康水平。我们更喜欢这些结果,即使它们实际上不再最大化适合度;我们也喜欢我们已经了解到的事情,这些事情往往会产生这样的结果。

根据索塔拉的说法,情感和情感在心理上调节着我们的偏好。在进化的奖赏功能中,我们享受和渴望高度奖赏的状态。随着时间的推移,我们也学会了享受和渴望似乎会带来高回报的状态。从这个角度来看,我们的偏好会将那些因类似原因而产生类似回报预期的事件组合在一起;在我们的一生中,我们形成了一种内在的、能带来高回报的价值状态,而不是仅仅以工具的方式来评价这种状态。我们的偏好不是直接映射到我们的奖励上,而是映射到我们对奖励的期望上。

Sotala建议价值的学习系统金宝博官方通过这种人类心理学模型可以更可靠地重建人类的价值观。例如,在这个模型中,我们可以预期,当我们找到向高回报状态移动的新方法时,人类的偏好会发生变化。新的体验可以改变我的情绪归类为“可能导致奖励”,因此它们可以改变我喜欢和渴望的状态。将这些关于人类心理动态的事实考金宝博官方虑在内的价值学习系统可能更适合考虑我们未来可能的偏好,而不是只优化我们当前的偏好。