图像风格转换是最近新兴起的一种基于深度学习的技术,它的出现一方面是占了卷积神经网络的天时,卷积神经网络所带来的对图像特征的高层特征的抽取使得风格和内容的分离成为了可能。另一方面则可能是作者的灵感,内容的表示是卷积神经网络所擅长,但风格却不是,如何保持内容而转换风格则是本文所要讲述的。
本篇属于论文阅读笔记系列。论文即[1].
风格转换属于纹理转换问题,纹理转换问题在之前采用的是一些非参方法,通过一些专有的固定的方法来渲染。
传统的方法的问题在于只能提取底层特征而非高层抽象特征。随着CNN的日渐成熟,终于,这个领域被渗透了进来。
最近的很多应用型的研究成果都是将CNN渗透进各个领域,从而,在普遍意义上完成一次技术的升级。
可以进行风格转换的基本就是将内容和风格区分开来,接下来我们来看CNN如何做到这一点。
和之前类似,内容就是采用CNN的某一层或者某几层来表示,一般来说,层级越高,表示就越抽象。这里,需要有几个形式化的表达:
因而,我们就得到了内容的loss。
求导即为:
有了这个公式之后要怎么做呢? 使用现在公布的训练好的某些CNN网络,随机初始化一个输入图片大小的噪声图像x,然后保持CNN参数不变,将原始图片P和x输入进网络,然后对x求导,这样,x就会在内容上越来越趋近于P。
而风格的转换则是这篇论文的神来之笔,论文使用相关矩阵来表示图像的风格。当然,风格的抽取仍然是以层为单位的。
其中,Glij的值是l层第i个feature map和第j个feature map的内积。
从而,我们得到了风格损失函数。
单独某层的损失函数:
各层综合的损失函数:
求偏导:
与内容表示类似,如果我们用随机初始化的x,保持CNN参数不变,将风格图片A和x输入进网络,然后对x求导,x就会在风格上趋近于A。
不考虑风格转换,只单独的考虑内容或者风格,可以看到如图所示:
图的上半部分是风格重建,由图可见,越用高层的特征,风格重建的就越粗粒度化。下半部分是内容重建,由图可见,越是底层的特征,重建的效果就越精细,越不容易变形。
有了内容与风格,风格转换就呼之欲出了,即两种loss的加权。
也可如图示:
即同时将三张图片(a, p, x)输入进三个相同的网络,对a求出风格特征,对p求出内容特征,然后对x求导,这样,得到的x就有a的风格和p的内容。
实验使用的是训练好的19层VGG,并通过调整权重使得每一层的激活值得均值为0。权重的调整并不会影响VGG的输出。在试验中没有使用全连接层。
实验调整了一些参数,相对其他论文而言,本论文的参数其实并不多,有:
比例越大,内容就越强势。
固定住风格的层级,变动内容的层级,可以看到,内容层级越低,结果图片中的内容就越明显。
可以看到,初始化的不同似乎对最后结果影响不大。
一张图片对应到各种风格:
照片风格转换:
最后一个优势我觉得充分体现作者的视野。
说了那么多,为何相关矩阵可以提取风格?我百思不得其解。
[1]. Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2414-2423.
原文:http://blog.csdn.net/stdcoutzyx/article/details/53771471