在神经网络中实现持续学习

学习执行任务的计算机程序通常也会很快忘记它们。我们表明,学习规则可以修改,这样程序在学习新任务时可以记住旧任务。这是迈向更智能程序的重要一步,这些程序能够逐步适应学习。


深度神经网络是目前最成功的机器学习技术,可以解决包括语言翻译在内的各种任务。图像分类和图像生成。然而,它们通常被设计成只在同时显示所有数据的情况下学习多个任务。作为一个特定任务的网络训练,它的参数被调整来解决该任务。当引入新任务时,新的适应覆盖了神经网络先前获得的知识。这种现象在认知科学中被称为“灾难性遗忘”,并且被认为是神经网络的基本局限之一。

相比之下,我们的大脑工作方式完全不同。我们可以逐步学习,在学习新任务时,一次学习一项技能,并应用我们以前的知识。作为我们最近的起点美国国家科学院学报,其中我们提出了一种克服神经网络中灾难性遗忘的方法,我们从基于神经科学的理论中获得灵感,这些理论是关于巩固哺乳动物和人类大脑中先前获得的技能和记忆的。

神经科学家已经区分了大脑中发生的两种巩固:系统巩固和突触巩固。系统整合是一个过程,通过这个过程,大脑中快速学习的部分所获得的记忆被印在缓慢学习的部分。这种印记是由有意识和无意识的回忆介导的,例如,这可能发生在做梦的时候。在第二种机制中,突触巩固,如果神经元之间的连接在以前学习的任务中很重要,那么它们就不太可能被覆盖。我们的算法特别从这个机制中获得灵感来解决灾难性遗忘问题。

神经网络由多个连接组成,与大脑的连接方式大致相同。学习任务后,我们计算每个连接对该任务的重要性。当我们学习一项新任务时,每一个连接的修改量都与它对旧任务的重要性成比例。因此,学习新任务时,不必重写在上一个任务中学习到的内容,也不需要花费大量的计算成本。用数学术语来说,我们可以把我们在新任务中附加到每个连接上的保护看作是通过弹簧连接到旧的保护值,其刚度与连接的重要性成正比。因此,我们称之为弹性重量合并(EWC)算法。

EWC GIF2 全屏幕 全屏移动
使用EWC演示两个任务的学习过程

为了测试我们的算法,我们把一个特工按顺序暴露在阿塔里游戏中。单单从分数中学习个人游戏是一项具有挑战性的任务,但是顺序学习多个游戏更具挑战性,因为每个游戏都需要一个单独的策略。如下图所示:没有EWC,代理在停止玩游戏后很快就会忘记每一个游戏(蓝色)。这意味着平均而言,探员几乎不学一个游戏。然而,如果我们使用EWC(棕色和红色),经纪人不会那么容易忘记,可以学会打几场比赛,一个接一个。

全屏幕 全屏移动

今天,计算机程序不能适应和实时地从数据中学习。然而,我们已经证明灾难性遗忘并不是神经网络无法克服的挑战。我们希望这项研究代表着向以更灵活和高yabo网球效的方式学习的项目迈出了一步。

我们的研yabo网球究也使我们对人类大脑如何发生巩固的理解不断进步。我们的工作基于的神经科学理论,事实上,主要用非常简单的例子证明。通过证明这些理论可以应用于更现实和更复杂的机器学习环境中,yabo曲棍球我们希望进一步强调这样一个观点,即突触巩固是保持记忆和诀窍的关键。

全屏幕 全屏移动

要了解更多信息,读我们的论文在这里.