StyleGAN — Official TensorFlow Implementation
Material related to our paper is available via the following links:
- Paper: https://arxiv.org/abs/1812.04948
- Video: https://youtu.be/kSLJriaOumA
- Code: https://github.com/NVlabs/stylegan
- FFHQ: https://github.com/NVlabs/ffhq-dataset
Additional material can be found on Google Drive:
[결론] "하나의 이미지는 여러개의 스타일로 구성된 피처들의 모임" 아주 훌륭한 논문임 ^^;
[의견] 굳이 정리 하자면, 특정 범위의 해상도, 단일 그리고 뚜렸한 윤곽(색상)의 이미지에 한정된 일부 속성 값을 실시간 변경 가능 하다? 라는 논문으로 보면 될까?
해상도에 대한 제약과 Traditional 과 관련된 제안 네트워크의 구성에 대한 몇 가지 드는 의구심은 별도로 정리할 필요가 있을 것 같다. - INSUNG LEE-
목 차
- Abstract
- 1. Introduction
- 2. Style-based generator
- 2.1. Quality of generated images
- 2.2. Prior art
- 3. Properties of the style-based generator
- 3.1. Style mixing
- 3.2. Stochastic variation
- 3.3. Separation of global effects from stochasticity
- 4. Disentanglement studies
- 4.1. Perceptual path length
- 4.2. Linear separability
- 5. Conclusion
- 6. Acknowledgements
- A. The FFHQ dataset
- B. Truncation trick in W
- C. Hyperparameters and training details
- D. Training convergence
- E. Other datasets
- Abstract
- 생성 적대적 네트워크를 위한 대체 발전기 아키텍처를 제안
- 새 아키텍처는 자동으로 학습
- scale-specific control of the synthesis
- 발전기 아키텍처에 적용할 수 있는 두 가지 새로운 자동화된 방법을 제안함
- 1. Introduction
- 논문에서 제안하는 Generator 는 학습된 일정한 입력에서 시작하여 잠재 코드를 기반으로 각 컨볼레이션 레이어에서 이미지의 Style 를 조정 함
- 서로 다른 축척에서 이미지 피처의 강도를 직접 제어
- discriminator or the loss function 을 직접 수정 하지 않음
- generator 는 latent code 를 intermediate latent space 에 포함 시킴
- 2. Style-based generator
- 일반적으로 잠재 코드는 입력 계층, 즉 피드포워드 네트워크의 첫 번째 레이어를 통해 생성기에 제공됩니다
- 입력 잠복 공간 Z에잠복 코드 z가 주어지면 비선형 매핑 네트워크 f : Z → W는 먼저 w ∈ (그림 왼쪽)를 생성
- 각 컨볼레이션 레이어의 적응 인스턴스 정규화(AdaIN )를 통해 생성기를 제어
- 여기서 "A"는 학습된 관계 변환을 의미하며, "B"는 채널당 학습 된 크기 조정 요소를 노이즈 입력에 적용
- 매핑 네트워크 f는 8개의 레이어로 구성되며 합성 네트워크 g는 18개의 레이어로 구성
- 벡터 w에서 공간적으로 고정되지 않은 (변이체)스타일 y를 계산
- 유사한 네트워크 아키텍처가 피드포워드 스타일 전송에 이미 사용되어 있으므로 y에 대해 "스타일"이라는 단어를 다시 사용하기로 결정
- 명시적 노이즈 입력을 도입하여 수선적 세부 정보를 생성하는 직접적인 수단을 발전기에 제공
- 이미지는 연관되지 않은 가우시안 노이즈로 구성된 단일 채널 이미지이며, 합성 네트워크의 각 레이어에 전용 노이즈 이미지를 공급
- 2.1. Quality of generated images
- 재설계가 이미지 품질을 손상시키지 않는다는 것을 실험적으로 입증하지만 실제로는 상당히 개선 됨
- 합성 네트워크가 AdaIN 작업을 제어하는 스타일을 통해서만 입력을 수신하더라도 의미있는 결과를 생성 할 수 있다는 것에 주목
- 결과를 더욱 향상 시키는 노이즈입력(E)과 주변 스타일을 장식하고 생성된 이미지에 대한 보다 미세한 제어가 가능한새로운 혼합 정규화(F)
- loss function. 을 수정 하지 않음
- truncation trick 을 사용하여 극단 적인 영역에서의 샘플링을 피함
- 2.2. Prior art
- 몇몇 저자는 잠복 코드의 일부를 여러 발전기 계층으로 공급하는 것을 고려했음
- 하지만 AdaIN을 사용하여 발전기를 사용하지만 중간 잠복 공간이나 소음 입력을 고려하지 않았음
- 3. Properties of the style-based generator
- 3.1. Style mixing
- 이미지를 생성할 때 는 합성네트워크에서 무작위로 선택된 지점에서 style mixing이라고 하는 작업인 한 잠재 코드에서 다른 코드로 전환하기만 하면 됨
- 3.2. Stochastic variation
- 3.3. Separation of global effects from stochasticity
- 4. Disentanglement studies
- 4.1. Perceptual path length
- 4.2. Linear separability
- 5. Conclusion
- 6. Acknowledgements
- A. The FFHQ dataset
- B. Truncation trick in W
- C. Hyperparameters and training details
- D. Training convergence
- E. Other datasets
논문 리뷰 동영상