Derivations of Neural Style Transfer
Style Transfer를 수행하기 위해 이미지에서 크게 두 정보를 추출하게 된다. 하나는 Style 이며, 다른 하나는 Content 이다.
Style은 어떤 이미지의 (Artistic Image로 한정하면)화풍을 의미한다. 고흐와 피카소의 그림에는 명확한 화풍의 차이가 있듯, Artistic Image에는 구별할 수 있는 Style이라는 정보가 존재한다고 가정하며 이를 모델링하는 기법을 Visual Style(Texture) Modelling 이라고 한다. 이런 Style을 다양한 이미지에 입히는 것이 Style Transfer의 목적이므로, 가장 중요한 요소라고 할 수 있다.
Content는 어떤 이미지의 내용을 의미한다. 예시로 강가의 주택가 사진에 고흐의 화풍을 입힌 Style Transfer 결과물을 보면, 생성된 이미지에서 고흐의 Style 뿐 아니라 원래 이미지의 내용이었던 강가, 주택 등이 남아있음을 볼 수 있다. 이미지의 Content는 유지한 채 Style만 Transfer하는 것이 Style Transfer의 목표이며, 이렇게 Image의 Content를 유지하는 방법을 Image Reconstruction 라는 이름으로 다루고 있다.
Visual Texture Modelling
이미지의 Style은 Texture와 매우 깊게 연관되어 있으며, 그에 따라 예전부터 Visual Style Modelling 보다는 Visual Texture Modelling이라는 이름으로 연구가 진행되어왔다 여기에는 두 가지 연구 방향이 있는데, 바로 Parametric Texture Modelling with Summary Statistics, 그리고 Non-parametric Texture Modelling with Markov Random Fields (MRFs) 이다.
Parametric Texture Modelling with Summary Statistics
Parametric Texture Modelling with Summary Statistics(이하 PTM) 는 이미지의 한 부분에서 통계적인 정보들을 뽑아내어 그 부분의 Texture를 대표하는 값으로 정하는 방법이다. 예를 들어, 굉장히 균일하고 매끈한 Texture 부분에서 Pixel들의 분산을 구한 것과, 울퉁불퉁하고 거친 Texture 부분에서 Pixel들의 분산을 구하면 대체로 전자의 값이 작을 것이다. 이처럼 통계적인 값을 Texture를 모델링하기 때문에 with Summary Statistics 라는 말이 붙었다.
Parametric이라는 접두사가 붙은 이유는 Parametric vs. Nonparametric Test의 차이에서 기인한 듯 한데, 구체적으로 왜 이런 이름이 붙었는지는 아직 이해를 하지 못했으므로 대신 Parametric과 Nonparametric test에 대한 아래 글을 첨부한다.
글: Difference Between Parametric and Nonparametric Test
Gram-based representation은 Neural Style Transfer에서 가장 많이 쓰이는 방법 중 하나이지만, 이는 이미지의 전체적인 Style만 관측 가능하다는 문제점이 있어 반복적인 패턴이나 가로/세로로 긴 패턴의 Style에 대해서는 적합하지 않다. 그리하여 이를 개선하기 위해 Transformed Gramian을 적용하여 Long-range symmertric structure에 대해 문제점을 개선했다(Berger and Memisevic, 2016).
Gram matrix(Gatys et al.)와 Transformed Gram matrix(Ours)의 비교
Non-paramatric Texture Modelling with Markov Random Fields(MRFs)
Non-paramatric Texture Modelling with Markov Random Fields(MRFs)는 MRFs Model에 기반하여 이미지의 각 픽셀을 주변 픽셀의 정보에 따라 charaterize하는 방식으로 Modelling을 한다. 본 리뷰 페이퍼에서 이 부분에 대한 자세한 설명은 하지 않아 Efros와 Leung의 논문으로 설명을 대체한다.
Image Reconstruction
이미지의 content, 즉 abstract representation을 추출하는 것은 많은 Computer Vision 분야에서 중요하게 다뤄지는 이슈이다. 그것의 역과정으로 잘 추출된 content를 바탕으로 다시 Image를 생성하는 과정을 Image Reconstruction(IR)이라고 한다. abstract representation을 CNN representation으로 한정하면, IR은 IOM-IR, MOB-IR 두 갈래로 나뉜다.
Image-Optimisation-Based Online Image Reconstruction(IOB-IR)
IOM-IR은 일반적으로 Random Noise 이미지에서 시작하여 원하는 Style과 Content가 나올 때 까지 iterative하게 gradient descent를 하는 방식으로 이미지를 생성한다. 이미지를 하나 하나 가내수공업 하듯이 iterate하며 만들기 때문에 Image Quality는 상대적으로 높지만, inference time이 상당히 오래 걸린다는 단점이 있다.
Model-Optimisation-Based Offline Image Reconstruction(MOB-IR)
Inference time의 문제를 해결하기 위해, MOB-IR은 네트워크를 미리 학습시켜놓아 실제로 이미지를 생성할 때는 네트워크에 통과시키기만 하면 되는 방식이다. IOM-IR이 가내수공업이었다면 MOB-IR은 주물(鑄物)을 미리 만들어놓고 찍어내는 것이다. 이미지를 생성하는데 걸리는 시간과 부하를 Training time에 전가하는데에 의미가 있으며, 최근에는 GAN과 결합하여 좋은 성능을 보여주고 있다.
올해 초 공개되어 큰 반향을 불러일으켰던 NVIDIA의 GauGAN Style Transfer
Summary
Style Trasfer의 두 가지 축이라고 할 수 있는 Style과 Content에 대해 알아 보았다.
Neural Style Transfer의 Taxonomy는 크게 IOB-IR, MOB-IR 두 축으로 나뉘는데, 두 방법 모두 다양한 연구들을 통해 발전이 이루어지고 있다. 다음 포스트에서는 NST의 Taxonomy에 대해 좀 더 구체적으로 다루면서 최근에 어떤 연구들이 있었는지에 대해 이야기 할 예정이다.