当前位置:主页 > 游戏APP >  对抗网络的拉普拉斯金字塔
对抗网络的拉普拉斯金字塔
时间:2016-10-04 16:58  作者:admin  来源:app市场  点击:
     业界领袖回溯60年AI历史,全球对话人工智能未来挑战,权威发布2016世界人工智能名人堂及中国人工智能产业发展报告;? 国际大咖“视频”远程参会, Bengio 和李飞飞联袂寄语中国人工智能;? 探秘讯飞超脑及华为诺亚方舟实验室,最强CTO与7大研究院院长交锋;? 滴滴CTO与百度首席架构师坐镇智能驾驶论坛,新智元三大圆桌阵容史无前例;? 中国“大狗”与"X-Dog"震撼亮相,龙泉寺机器僧“贤二”卖萌。
  【新智元导读】Yann LeCun曾说:“对抗训练是切片面包发明以来最令人激动的事情”。这篇文章中,作者回顾基于 Ian Goodfellow 在2014 年的开创性工作的 3篇论文。这3篇论文都是过去一年来在arXiv.org上讨论十分热烈的论文,包括Twitter Cortex团队几周前发表的论文。在新智元后台输入1003下载论文。
  生成对抗网络概述
  我在此前的一篇博文(9 Deep Learning Papers You Should Know About)中简要地提到过Ian Goodfellow有关生成式对抗网络的论文。这些网络的要点是:有两个模型,一个是生成模型(generative model),一个是判别模型(discriminative model)。判别模型的任务是判断给定的图像看起来是自然的还是人为伪造的(图像来源于数据集)。生成模型的任务是生成看起来自然真实的、和原始数据相似的图像。这可以看做一种零和或两个玩家的纸牌游戏。本文采用的类比是生成模型像“一个造假团伙,试图生产和使用假币”,而判别模型像“检测假币的警察”。生成器(generator)试图欺骗判别器(discriminator),判别器则努力不被生成器欺骗。模型经过交替优化训练,两种模型都能得到提升,直到到达一个“假冒产品和真实产品无法区分”的点。
  对抗网络的拉普拉斯金字塔(Laplacian Pyramid)
  对抗网络最重要的用法之一是经过充分训练生成器之后生成看起来自然的图像。下面这些是Goodfellow在2014年的论文中生成器输出的一些样本。
   根据对抗文本生成图像
  这篇论文发表于去年6月,探讨的是将如何文本表征转换为图像。例如,向网络中输入的可以是“粉色花瓣的花”,输出的是具有这些特征的合成图像。所以这项任务涉及两个主要组件。一个是利用自然语言处理来理解输入的描述,另一个是能输出准确、自然的图像表征的生成网络。作者提出需要注意的点是,从文字到图像的任务要比从图像到文字困难得多(Karpathy的论文也提过)。这是因为像素构造的量多得难以置信,以及我们也没法真的把任务分解成只是预测下一个单词(这是图像到文字的方式)。
  方法
  作者采用的方法是训练一个由循环文本编码器创建的、基于文本特征的GAN。生成器和判别器在各自的网络架构中都利用这些特征。这是使GAN在输入描述和生成图像之间产生联系的关键。
  网络架构
  让我们先看生成器。我们用噪声矢量z以及一个文本编码作为这个网络的输入。文本编码是压缩输入描述的信息的一种方式,它接着会与噪声矢量串联到一起(如下图所示)。然后,Deconv层被用于把输入矢量转换为合成图像。
  判别器接收图像,使其通过一系列的conv层(包括BatchNorm和leaky ReLUs)。当空间维度终于到达4×4时,网络就执行我们前面提到的文本编码的深度串联。然后,经过另外2个conv层,输出的(仍然是)对图像真实性的评分。
  如图所见,生成器在生成数据和人脸时效果很好,但使用CIFAR-10数据集时,生成的图像就十分模糊。
  为了解决这个问题,Emily Denton, Soumith Chintala, Arthur Szlam 以及Rob Fergus合作发表了论文《利用对抗网络拉普拉斯金字塔的深度生成图像模型》(Deep Generative Image Models using Lapalacian Pyramid of Adversarial Networks)。这篇论文的主要贡献一种网络架构,它制作的高质量合成图像由人类检查时,40%的时候与真实图像难以区分。
  方法
  在介绍论文前,让我们回顾一下在GAN中生成器的任务。生成器需要生成大型、复杂,还要真实度能骗过经过训练的判别器的图像。这可不是简单的任务。为了解决这个问题,该论文的作者们使用多个CNN模型在扩大的规模中连续生成图像。论文作者之一的Emily Denton在LAPGAN的演讲中说:
  “生成低分辨率的图像很简单。根据低分辨率图像生成分辨率高一点的图像也不算难。”
  该论文的方法是建一个拉普拉斯金字塔生成模型。拉普拉斯金字塔是由连续疏密度的一系列滤波图像组成的图像表征。这个金字塔表征的每一层包含特定规模的图像信息。它是一种原始图像的分解。
  让我们回顾一下一个样本GAN的输入和输出。生成器接收分布的噪声矢量输入,然后输出图像。判别器得到这张图像(或一张来自训练数据的真实图像),然后输出一个判断该图像“真实度”的标量。现在让我们看看附条件的GAN(conditional GAN,CGAN)。其它内容都相同,不过判别器和生成器得到的输入是另外一些信息,这些信息的形式是一些分类标签,或另一张图像。
  网络架构
  论文作者提出一套convnet模型,金字塔的每一层都包含与之关联的convnet。这和传统GAN结构的变化是,传统GAN只能由一个生成器CNN生产整个图像,而新的模型由一系列的CNN通过渐渐增加分辨率(即经过金字塔)连续生成图像,把图像由粗糙变精致。每一层都有独自的CNN,由两个部分训练。一个是低分辨率图像,另一个是噪声矢量(这是传统GAN的唯一输入)。这就是多种输入的CGAN的原理。输出的图像会被作为样本再次输入给金字塔的下一层。这种方法很有效,因为每一层的生成器都能利用不同的分辨率信息,以在连续的层里合成更精细的图像。