(CVPR 2019) A Style-Based Generator Architecture for Generative Adversarial Networks

(CVPR 2019) A Style-Based Generator Architecture for Generative Adversarial Networks

StyleGAN — Official TensorFlow Implementation

Material related to our paper is available via the following links:

Paper: https://arxiv.org/abs/1812.04948
Video: https://youtu.be/kSLJriaOumA
Code: https://github.com/NVlabs/stylegan
FFHQ: https://github.com/NVlabs/ffhq-dataset

Additional material can be found on Google Drive:

[결론] "하나의 이미지는 여러개의 스타일로 구성된 피처들의 모임" 아주 훌륭한 논문임 ^^;

[의견] 굳이 정리 하자면, 특정 범위의 해상도, 단일 그리고 뚜렸한 윤곽(색상)의 이미지에 한정된 일부 속성 값을 실시간 변경 가능 하다? 라는 논문으로 보면 될까?

해상도에 대한 제약과 Traditional 과 관련된 제안 네트워크의 구성에 대한 몇 가지 드는 의구심은 별도로 정리할 필요가 있을 것 같다. - INSUNG LEE-

목 차

Abstract
1. Introduction
2. Style-based generator

2.1. Quality of generated images
2.2. Prior art

3. Properties of the style-based generator

3.1. Style mixing
3.2. Stochastic variation
3.3. Separation of global effects from stochasticity

4. Disentanglement studies

4.1. Perceptual path length
4.2. Linear separability

5. Conclusion
6. Acknowledgements

A. The FFHQ dataset
B. Truncation trick in W
C. Hyperparameters and training details
D. Training convergence
E. Other datasets

Abstract

생성 적대적 네트워크를 위한 대체 발전기 아키텍처를 제안
새 아키텍처는 자동으로 학습
scale-specific control of the synthesis
발전기 아키텍처에 적용할 수 있는 두 가지 새로운 자동화된 방법을 제안함

1. Introduction

논문에서 제안하는 Generator 는 학습된 일정한 입력에서 시작하여 잠재 코드를 기반으로 각 컨볼레이션 레이어에서 이미지의 Style 를 조정 함
서로 다른 축척에서 이미지 피처의 강도를 직접 제어
discriminator or the loss function 을 직접 수정 하지 않음
generator 는 latent code 를 intermediate latent space 에 포함 시킴

2. Style-based generator

일반적으로 잠재 코드는 입력 계층, 즉 피드포워드 네트워크의 첫 번째 레이어를 통해 생성기에 제공됩니다
입력 잠복 공간 Z에잠복 코드 z가 주어지면 비선형 매핑 네트워크 f : Z → W는 먼저 w ∈ (그림 왼쪽)를 생성
각 컨볼레이션 레이어의 적응 인스턴스 정규화(AdaIN )를 통해 생성기를 제어
여기서 "A"는 학습된 관계 변환을 의미하며, "B"는 채널당 학습 된 크기 조정 요소를 노이즈 입력에 적용
매핑 네트워크 f는 8개의 레이어로 구성되며 합성 네트워크 g는 18개의 레이어로 구성
벡터 w에서 공간적으로 고정되지 않은 (변이체)스타일 y를 계산
유사한 네트워크 아키텍처가 피드포워드 스타일 전송에 이미 사용되어 있으므로 y에 대해 "스타일"이라는 단어를 다시 사용하기로 결정
명시적 노이즈 입력을 도입하여 수선적 세부 정보를 생성하는 직접적인 수단을 발전기에 제공
이미지는 연관되지 않은 가우시안 노이즈로 구성된 단일 채널 이미지이며, 합성 네트워크의 각 레이어에 전용 노이즈 이미지를 공급

Figure 1. While a traditional generator

2.1. Quality of generated images

재설계가 이미지 품질을 손상시키지 않는다는 것을 실험적으로 입증하지만 실제로는 상당히 개선 됨
합성 네트워크가 AdaIN 작업을 제어하는 스타일을 통해서만 입력을 수신하더라도 의미있는 결과를 생성 할 수 있다는 것에 주목
결과를 더욱 향상 시키는 노이즈입력(E)과 주변 스타일을 장식하고 생성된 이미지에 대한 보다 미세한 제어가 가능한새로운 혼합 정규화(F)
loss function. 을 수정 하지 않음
truncation trick 을 사용하여 극단 적인 영역에서의 샘플링을 피함

2.2. Prior art

몇몇 저자는 잠복 코드의 일부를 여러 발전기 계층으로 공급하는 것을 고려했음
하지만 AdaIN을 사용하여 발전기를 사용하지만 중간 잠복 공간이나 소음 입력을 고려하지 않았음

3. Properties of the style-based generator

3.1. Style mixing

이미지를 생성할 때 는 합성네트워크에서 무작위로 선택된 지점에서 style mixing이라고 하는 작업인 한 잠재 코드에서 다른 코드로 전환하기만 하면 됨

3.2. Stochastic variation
3.3. Separation of global effects from stochasticity

4. Disentanglement studies

4.1. Perceptual path length
4.2. Linear separability

5. Conclusion
6. Acknowledgements

A. The FFHQ dataset
B. Truncation trick in W
C. Hyperparameters and training details
D. Training convergence
E. Other datasets

논문 리뷰 동영상

Comments