Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

AAAI 2018,以人体关节为图的顶点,构建空间上的图,然后通过时间上的关系,连接连续帧上相同的关节,构成一个三维的时空图。针对每个顶点,对其邻居进行子集划分,每个子集乘以对应的权重向量,得到时空图上的卷积定义。实现时使用Kipf & Welling 2017的方法实现。原文链接:Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

Read More

Perceptual Losses for Real-Time Style Transfer and Super-Resolution

ECCV 2016,实时风格迁移与超分辨率化的感知损失,这篇论文是在cs231n里面看到的,正好最近在研究风格迁移。一作是Justin Johnson,2017春的cs231n的主讲之一。这篇论文的主要内容是对Gatys等人的风格迁移在优化过程中进行了优化,大幅提升了性能。
主要原理就是,之前Gatys等人的论文是利用已经训练好的VGG19,求loss并利用VGG的结构反向求导更新图片。由于VGG结构复杂,这样反向更新速度很慢,改进方法是再另外设计一个神经网络,将内容图片作为输入,输出扔到VGG中做两个loss,然后反向传播更新当前这个神经网络的参数,这样训练出来的神经网络就可能将任意的内容图片扔进去,输出为风格迁移后的图片,这也就解决了速度的问题。这也就是将Feed-forward image transformation与style transfer结合在一起。原文链接:Perceptual Losses for Real-Time Style Transfer and Super-Resolution

Read More

Image Style Transfer Using Convolutional Neural Networks

CVPR 2016,大体原理:选择两张图片,一张作为风格图片,一张作为内容图片,任务是将风格图片中的风格,迁移到内容图片上。方法也比较简单,利用在ImageNet上训练好的VGG19,因为这种深层次的卷积神经网络的卷积核可以有效的捕捉一些特征,越靠近输入的卷积层捕捉到的信息层次越低,而越靠近输出的卷积层捕捉到的信息层次越高,因此可以用高层次的卷积层捕捉到的信息作为对风格图片风格的捕捉。而低层次的卷积层用来捕捉内容图片中的内容。所以实际的操作就是,将内容图片扔到训练好的VGG19中,取出低层次的卷积层的输出,保存起来,然后再把风格图片放到VGG19中,取出高层次的卷积层的输出,保存起来。然后随机生成一张图片,扔到VGG19中,将刚才保存下来的卷积层的输出的那些卷积层的结果拿出来,和那些保存的结果做个loss,然后对输入的随机生成的图片进行优化即可。原文链接:Image Style Transfer Using Convolutional Neural Networks

Read More