无监督学习:好奇的学生

一系列文章中的一篇解释了支持我们研究的理论yabo网球

在过去的十年里,机器学习在图像识别等领域取得了前所未有的进步,自动驾驶汽车,玩一些复杂的游戏。这些成功在很大程度上是通过使用两种学习范式之一来训练深层神经网络来监督学习和强化学习来实现的。这两种模式都要求训练信号由人设计并传递给计算机。在监督学习的情况下,这些是“目标”(例如图像的正确标签);在强化学习的情况下,它们是成功行为的“奖励”(例如在阿塔里游戏中获得高分)。因此,学习的极限是由人类训练者定义的。

一些科学家认为,例如,一个足够包容的培训制度,完成各种各样任务的能力应足以产生一般智力,其他人认为真正的智力需要更多的独立学习策略。想想一个幼儿是如何学习的,例如。她的祖母可能会和她坐在一起,耐心地指出鸭子的例子(作为指导学习的信号)。或者用掌声奖励她解决木块拼图(如强化学习)。但幼儿的大部分时间都是幼稚地探索世界,通过好奇了解她的周围环境,玩耍,和观察。无监督学习是一种通过奖励代理人(即计算机程序),用于了解他们观察到的数据,而不需要考虑特定的任务。换言之,代理人学习是为了学习。

无监督学习的一个关键动机是,虽然传递给学习算法的数据在内部结构中非常丰富(例如,图像,视频和文本)用于培训的目标和奖励通常非常少(例如,标签“狗”指的是特别是变形的物种,或者一个1或0表示游戏中的成功或失败)。这表明,算法所学到的大部分内容必须包括理解数据本身,而不是将这种理解应用于特定的任务。

解码视觉元素

2012年是深度学习的里程碑年,当Alexnet(以其首席建筑师Alex Krizhnevsky的名字命名)横扫图像网分类竞赛.Alexnet识别图像的能力是前所未有的,但更引人注目的是在引擎盖下发生的事情。当研究人员yabo网球分析Alexnet在做什么时,他们发现它通过构建越来越复杂的图像来解释图像。其输入的内部表示.低级功能,比如纹理和边缘,在底层表示,然后将它们结合在一起,形成高级概念,如更高层次的轮子和狗。

这与我们大脑中处理信息的方式非常相似,在初级感官加工区,简单的边缘和纹理被组装成复杂的物体,比如更高区域的表面。因此,复杂场景的表示可以用视觉原语构建,在很大程度上,意义是从组成一个句子的单个词中显现出来的。如果没有明确的指导,Alexnet的各个层次已经发现了一种基本的视觉词汇,以解决它的任务。从某种意义上说,它学会了演奏维特根斯坦所说的'语言游戏'它迭代地从像素转换为标签。

全屏幕 全屏移动
卷积神经网络的视觉词汇。对于网络的每一层,产生的图像最大限度地激活特定的神经元。这些神经元对其他图像的反应可以解释为没有视觉“词语”:纹理,书架,狗鼻子,鸟。从功能可视化,奥拉等。(2017)。

转移学习

从一般情报的角度来看,关于Alexnet的词汇表最有趣的是它可以被重用,或转让,除了接受过培训的任务外,比如识别整个场景而不是单个对象.在一个不断变化的世界里,转移是必不可少的,人类擅长于此:我们能够快速地适应我们从经验(我们的“世界模型”)中收集到的技能和理解,以适应手头的任何情况。例如,一个受过古典训练的钢琴家可以相对轻松地学会爵士乐钢琴。形成世界正确内部代表的人工因素,理由是,应该能够做同样的事情。

尽管如此,像Alexnet这样的分类器学习的表示有局限性。特别地,因为网络只接受过用一个类(cat,狗,汽车,火山)任何不需要推断标签的信息,无论它对其他任务有多有用,都可能被忽略。例如,如果标签总是指向前景,则表示可能无法捕获图像的背景。一种可能的解决方案是提供更全面的训练信号,喜欢描述图像的详细说明:不只是“狗”,而是“一只在阳光充足的公园里捉飞盘的柯基犬”。这些目标很难提供,尤其是在规模上,但仍然不足以获取完成一项任务所需的所有信息。无监督学习的基本前提是学习致富的最佳方式,广泛可转移的表示是试图学习关于数据的所有知识。

如果通过表示学习来传递的概念过于抽象,想想一个学会了把人画成棍形的孩子。她发现了一种高度紧凑和快速适应性的人类形态的表现。通过增加每个木棍的细节,她可以为所有同学制作肖像:给她最好的朋友戴眼镜,她的同桌穿着他最喜欢的红色T恤。她发展这种技能不是为了完成一项特定的任务或获得奖励,而是为了回应她反映周围世界的基本愿望。

创造学习:生成模型

也许无监督学习最简单的目标是训练一个算法来生成自己的数据实例。所谓的生成模型不应该简单地复制他们所训练的数据(一种无趣的记忆行为)。但更确切地说,要建立一个绘制数据的底层类别的模型:不是马或彩虹的特定照片,但所有马和彩虹的照片集;不是特定演讲者的特定讲话,但口语的一般分布。生成模型的指导原则是,能够构建一个令人信服的数据示例是理解它的最有力证据:正如Richard Feynman所说,“我无法创造的,我不明白。”

对于图像,迄今为止最成功的生成模型是生成对抗网络(简称gan)其中两个网络——一个发生器和一个鉴别器——进行类似于艺术伪造者和侦探的鉴别力竞赛。发生器产生图像的目的是诱使鉴别器相信它们是真实的;鉴别器,与此同时,因为发现假货而受到奖励。生成的图像,首先是杂乱无章,经过多次反复的改进,而网络之间不断变化的动态会产生更加逼真的图像,在许多情况下与真实照片无法区分.生成的对抗性网络也可以梦见景观的细节。由用户的草图定义.

看一眼下面的图片就足以让我们相信,网络已经学会了代表他们接受培训的照片的许多关键特征,比如动物的身体结构,草的质地,以及光线和阴影的详细效果(即使通过肥皂泡折射)。仔细检查发现轻微异常,比如白狗明显的额外的腿和喷泉中奇怪的直角喷射流。虽然生成模型的创建者努力避免这种缺陷,它们的可见性突出了重现熟悉数据(如图像)的好处之一:通过检查样本,yabo网球研究人员可以推断出这个模型有什么,没有学到什么。

全屏幕 全屏移动
Biggan(布鲁克,Donahue和Simonyan,2018)。

通过预测创建

无监督学习中的另一个显著家族是自回归模型,其中数据被分割成一系列小块,每一个都是依次预测的。这些模型可以通过连续猜测接下来会发生什么来生成数据,以猜测作为输入,再进行猜测。语言模型,每个单词都是从前面的单词中预测出来的,也许是最著名的例子:这些模型为一些电子邮件和消息应用程序上弹出的文本预测提供了动力。语言建模的最新进展使人们产生了惊人的似是而非的段落,如下图所示OpenAI的GPT-2.

全屏幕 全屏移动

文本中一个有趣的矛盾是独角兽被描述为“四角兽”:再次,探究网络理解的局限性是令人着迷的。

通过控制用于调节输出预测的输入序列,自回归模型也可用于将一个序列转换为另一个序列。这个演示使用条件自回归模型将文本转换为真实的手写体。波文把文字转换成自然的声音,现在习惯了为谷歌助手生成声音.类似的调节和自回归生成过程可以用来从一种语言翻译到另一种语言.

自回归模型通过尝试以特定的顺序预测数据的每一部分来了解数据。通过预测任何其他数据的任何部分,可以建立一个更通用的无监督学习算法类。例如,这可能意味着从句子中删除一个单词,和试图从任何残余物中预测它.通过学习做出许多局部的预测,系统被迫从整体上了解数据。

关于生成模型的一个关注点是它们被滥用的可能性。当用照片操纵证据时,视频,音频编辑已经有很长一段时间了,生成模型可以使恶意编辑媒体更加容易。我们已经看到了所谓的“深海生物”的演示——例如,这伪造的奥巴马总统视频.令人鼓舞的是,解决这些挑战的几项主要努力已经开始,包括使用统计技术来帮助发现合成培养基验证真实媒体,提高公众意识,以及关于限制训练生成模型可用性的讨论。此外,生成模型本身可用于检测合成介质和异常数据,例如检测假语音或识别付款异常以保护客户免受欺诈。yabo网球研究人员需要研究生成模型,以便更好地理解它们并减轻下游风险。


重新想象智能


生成模型本身就很吸引人,但我们在DeepMind对它们的主要兴趣是作为迈向一般智能的垫脚石。亚搏体育投注赋予代理生成数据的能力是赋予它想象力的一种方式,因此有能力关于未来的计划和理由.即使没有明确的一代,我们的研究表明学习预测不同的环境方面丰富代理的世界模型,从而提高其解决问题的能力。


这些结果与我们对人类思维的直觉产生了共鸣。我们在没有明确监督的情况下了解世界的能力是我们所认为的情报的基础。在火车上,我们可能无精打采地透过窗户凝视,把我们的手指放在座位的天鹅绒上,注意坐在我们对面的乘客。我们在这些研究中没有议程:我们几乎不能不收集信息,我们的大脑不断地努力去了解我们周围的世界,以及我们在其中的位置。