(CVPR 2019) A Style-Based Generator Architecture for Generative Adversarial Networks

 

StyleGAN — Official TensorFlow Implementation


Material related to our paper is available via the following links:

Additional material can be found on Google Drive:

[결론] "하나의 이미지는 여러개의 스타일로 구성된 피처들의 모임" 아주 훌륭한 논문임 ^^;

[의견] 굳이 정리 하자면, 특정 범위의 해상도, 단일 그리고 뚜렸한 윤곽(색상)의 이미지에 한정된 일부 속성 값을 실시간 변경 가능 하다? 라는 논문으로 보면 될까? 

해상도에 대한 제약과 Traditional 과 관련된 제안 네트워크의 구성에 대한 몇 가지 드는 의구심은 별도로 정리할 필요가 있을 것 같다.  - INSUNG LEE-



목    차

  • Abstract
  • 1. Introduction
  • 2. Style-based generator
    • 2.1. Quality of generated images
    • 2.2. Prior art
  • 3. Properties of the style-based generator
    • 3.1. Style mixing
    • 3.2. Stochastic variation
    • 3.3. Separation of global effects from stochasticity
  • 4. Disentanglement studies
    • 4.1. Perceptual path length
    • 4.2. Linear separability
  • 5. Conclusion
  • 6. Acknowledgements

  • A. The FFHQ dataset
  • B. Truncation trick in W
  • C. Hyperparameters and training details
  • D. Training convergence
  • E. Other datasets


  • Abstract
    • 생성 적대적 네트워크를 위한 대체 발전기 아키텍처를 제안
    • 새 아키텍처는 자동으로 학습
    • scale-specific control of the synthesis
    • 발전기 아키텍처에 적용할 수 있는 두 가지 새로운 자동화된 방법을 제안함
  • 1. Introduction
    • 논문에서 제안하는 Generator 는 학습된 일정한 입력에서 시작하여 잠재 코드를 기반으로 각 컨볼레이션 레이어에서 이미지의 Style 를 조정 함
    • 서로 다른 축척에서 이미지 피처의 강도를 직접 제어  
    • discriminator or the loss function 을 직접 수정 하지 않음 
    • generator 는  latent code 를  intermediate latent space 에 포함 시킴
  • 2. Style-based generator
      • 일반적으로 잠재 코드는 입력 계층, 즉 피드포워드 네트워크의 첫 번째 레이어를 통해 생성기에 제공됩니다
      • 입력 잠복 공간  Z잠복 코드 z주어지면 비선형 매핑 네트워크  f : Z → W먼저 w ∈ (그림    왼쪽) 생성
      • 각 컨볼레이션 레이어의 적응 인스턴스 정규화(AdaIN )를 통해 생성기를 제어
      • 여기서 "A"는 학습된 관계 변환을 의미하며, "B"채널당 학습 된 크기 조정 요소를 노이즈 입력에 적용
      • 매핑 네트워크 f 8개의 레이어로 구성되며 합성 네트워크 g   18개의 레이어로 구성
      • 벡터 w에서 공간적으로 고정되지 않은 (변이체)스타일 y를 계산
      • 유사한 네트워크 아키텍처가 피드포워드 스타일 전송에 이미 사용되어 있으므로 y에 대해 "스타일"이라는 단어를 다시 사용하기로 결정
      • 명시적 노이즈 입력을 도입하여 수선적 세부 정보를 생성하는 직접적인 수단을 발전기에 제공
      • 이미지는 연관되지 않은 가우시안 노이즈로 구성된 단일 채널 이미지이며, 합성 네트워크의 각 레이어에 전용 노이즈 이미지를 공급

Figure 1. While a traditional generator 
    • 2.1. Quality of generated images
      • 재설계가 이미지 품질을 손상시키지 않는다는 것을 실험적으로 입증하지만 실제로는 상당히 개선 됨
      • 합성 네트워크가 AdaIN 작업을 제어하는 스타일을 통해서만 입력을 수신하더라도 의미있는 결과를 생성 할 수 있다는 것에 주목
      • 결과를 더욱 향상 시키는 노이즈입력(E)과 주변 스타일을 장식하고 생성된 이미지에 대한 보다 미세한 제어가 가능한새로운  혼합 정규화(F)
      • loss function. 을 수정 하지 않음
      • truncation trick 을 사용하여 극단 적인 영역에서의 샘플링을 피함 


    • 2.2. Prior art
      • 몇몇 저자는 잠복 코드의 일부를 여러 발전기 계층으로 공급하는 것을 고려했음
      • 하지만 AdaIN을 사용하여 발전기를 사용하지만 중간 잠복 공간이나 소음 입력을 고려하지 않았음
  • 3. Properties of the style-based generator
    • 3.1. Style mixing
      • 이미지를 생성할 때 는 합성네트워크에서 무작위로 선택된 지점에서 style mixing이라고 하는 작업인 한 잠재 코드에서 다른 코드로 전환하기만 하면 됨


    • 3.2. Stochastic variation
    • 3.3. Separation of global effects from stochasticity
  • 4. Disentanglement studies
    • 4.1. Perceptual path length
    • 4.2. Linear separability
  • 5. Conclusion
  • 6. Acknowledgements

  • A. The FFHQ dataset
  • B. Truncation trick in W
  • C. Hyperparameters and training details
  • D. Training convergence
  • E. Other datasets



논문 리뷰 동영상