(CVPR 2020 (Best Paper Award).) Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild

 Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild



Shangzhe Wu Christian Rupprecht Andrea Vedaldi

Visual Geometry Group, University of Oxford

{szwu, chrisr, vedaldi}@robots.ox.ac.uk

Abstract

  1. Introduction

  2. Related Work

  3. Method

3.1. Photo geometric autoencoding

3.2. Probably symmetric objects

3.3. Image formation model

3.4. Perceptual loss

4. Experiments

4.1. Setup

4.2. Results

4.3. Comparison with the state of the art

4.4. Limitations

5. Conclusions

Reference

Demo | Project Page | Video | Paper

Shangzhe WuChristian RupprechtAndrea Vedaldi, Visual Geometry Group, University of Oxford. In CVPR 2020 (Best Paper Award).

_________________________________________________________________________________________

바쁘다는 핑계로 이제 서야 2번째 논문 리뷰를 올리게 되었습니다.


본 논문의 내용 소개에 앞서, 전체적 내용을 간략히 소개해 드리고자 합니다. 


이번 논문은 단일 뷰 이미지 그리고 비지도 학습 조건에서 3D 변형 가능한 방법을 제안 하고 있습니다. 다른 2D -> 3D 관련 논문 보다 해당 논문의 Review 를 선택한 배경은

(CVPR 2020 (Best Paper Award). 사실 하나 입니다. ^^


저자가 제안하는 Method 를 간략히 소개 드리면,

  • 1. 입력 되는 2D 이미지를 depth, albedo, viewpoint and lighting 으로 요인 화하는 자동 인코더를 기반 합니다.
  • 2. Supervision 없이 3D 변형이 가능 하게 하기 위해, 많은 개체들이 원칙적으로 대칭 구조를 가지고 있다는 사실을 조건 으로 합니다.
  • 3. 또한, symmetry probability map(대칭 확률 맵) 을 predicting 하여 대칭 일 가능성이 있지만 확실히 대칭이 아닌 객체를 모델링하고, 모델의 다른 구성 요소와 함께 종단간 학습 합니다.

이를 위해, 저자가 제안하는 Autoencoder 는 입력 이미지에서 depth, albedo, viewpoint and lighting 이 네 가지 구성 요소를 결합 하여 입력 이미지를 재구성하고 Supervision 없이 재구성 손실만을 사용하여 학습 합니다. 참고로, ‘albedo’ 는 어느 물체의 표면에 도달한 단파 태양 복사량과 이로부터 반사한 단파 태양 복사량의 비율을 말합니다. (반사계수)

_________________________________________________________________________________________


Abstract

각 입력 이미지의 “깊이”, “반사율” , “관점” , “조도” 을 요소로 하는 Autoencoder 를 기반 으로 Supervision 없이 이러한 구성 요소를 분산 시키기 위해, 우리는 조명에 대한 rea-soning 이 대칭이 아니더라도 기본 개체 대칭을  이용(악용) 할 수 있음을 보여줍니다.


모델의 다른 구성 요소와 함께 대칭이 아닌 객체를 모델링, 이 방법은 supervision 이나 이전  모델 없이,  단일 보기 이미지에서 인간의 얼굴, 고양이 얼굴과 자동차의 3D 모양을 매우 정확하게 다시 커버 할 수 있음을 보여 줍니다.

또한 벤치 마크에서 2D 이미지 수준에서 supervision 을 사용하는 다른 방법에 비해 우수한 정확도를 입증합니다.


  • 1. Introduction

이미지의 3D 구조를 이해하는 것은 많은 컴퓨터 비전 응용 프로그램의 핵심 입니다.
많은 딥 네트워크가 이미지를 2D 텍스처 , 3D 모델링으로 이해하여 자연 이미지의 가변성을 설명하고 일반적으로 이미지 이해를 향상 시킬 수 있습니다

변형 개체 범주에 대한 3D 모델을 학습의 문제를 고려한  두 가지 어려운 조건 하에서 이 문제를 연구 합니다.

    • 첫 번째, 2D 또는 3D 정보(예: 키포인트, 세분화, 깊이 맵 또는 3D 모델의 사전 지식) 를 사용할 수 없음. 외부 감독 없이 학습 
    • 두 번째 조건은 알고리즘이 단일 보기 이미지 컬렉션을 사용해야 하며, 특히 동일한 인스턴스의 여러 뷰가 필요하지 않아야 한다는 것

학습 알고리즘은 변형 가능한 개체 범주의 여러 단일 뷰 이미지를 수집하고 단일 이미지를 부여한 인스턴스의 3D 모양을 추정할 수 있는 심층 네트워크를 출력하는 것으로 생성 됨  

supervision 없이 이미지를 반사율, 깊이, 조명 및 관점으로 내부적으로 분해하는 오토 인코더. 
를 제안 합니다. 이는 개체가 완벽하게 대칭이라고 가정하면 이미지를 미러링 하기만 하면 가상 두 번째 뷰 를 얻을 수 있습니다.. 


  • 2. Related Work
    • 저자는 이미지 기반 3D 재구성에 대한 제안 사항에 대한 평가는 세 가지 측면을 고려하는 것이 중요 하다고 말하고 있습니다.
      • 1) 어떤 정보가 사용되는지
      • 2) 어떤 가정이 이루어지고
      • 3) 결과가 무엇인지 입니다.
    • 본 논문은 개체 범주의 단일 뷰 이미지를 학습 데이터로 사용하고, 개체가 약하게 대칭되는 특정 클래스(예: 인간의 얼굴) 에 속한다고 가정하고, 범주의 이미지를 형상, 반사율, 조명, 관점 및 대칭 확률로 분해할 수 있는 단안 예측 변수를 출력합니다. 

    • Relation Work 로 앞에서도 잠시 소개 드린 가장 전통전인 Structure from Motion (SfM) 방법을 소개 하고 있습니다.
    • 각 장면의 입력 다중 뷰와 뷰 간의 2D 키포인트 일치로 주어진 장면의 3D 구조를 재구성 할 수 있는 전통적인 방법 입니다.
    • 크게 두가지로 구분되며
      • (1) 2D 키포인트 없이 단일 이미지에서 조밀한 3D 재구성을 수행 하는 방법으로, 훈련을 위해서는 여러 개의 뷰가 필요합니다
      • (2) 학습과 테스트 모두, 주석이 달린 2D keypoint 측면에서 감독이 필요 합니다.

  • 3. Method
    • 3-1. Photo geometric autoencoding
      • Photo-Geometric Autoencoding 의 전체 구성과 흐름도 입니다. 하나씩 살펴 보도록 하겠습니다.


  • Photo-Geometric Autoencoding 은
    •   Step 1) 2d 이미지 입력되면 view , depth , light , albedo 를 encoding 하고 depth 와 albedo 는 여기에 decoding 더 수행 합니다.
    •   Ste   2) Depth 와 light 를 통해 Shading (명암,음영) 을 만들어 냅니다. 
    •   Step 3) Step 1 과 Step 2으로 부터 canonical view 와 renderer 를 통해 입력 이미지를 재구성 합니다.
    •   step 4) 는 Input image 와 reconstruction image 로 부터 Reconstruction Loss 사용 하여 학습 합니다


  • Exploiting Symmetry (대칭 활용/악용)
    • 저자는 Supervision 없이 3D 구성을 가능하게 하기 위해 많은 객체 범주가 양방향 대칭을 가지고 있다는 사실을 이용 합니다.
    • horizontal flip 을 삽입하여, 객체의 대칭 보기를 예측하도록 모델에 적용하고, 시점 변환을 통해 동일한 입력에 대한 두 개의 재구성을 얻습니다.
      •  Step 1) Depth 와 albedo 를 수평으로 뒤집습니다.
      •  Step 2) flip 를 통해 두개의 reconstruction 을 생성 합니다.
      •  Step 3) 동시에 두 reconstruction loss 를 최소화 합니다. 



  • Confidence 를 사용한 대칭의 확률 적 모델링  (horizontal flip : 수평 반전)
    • 대칭은 3D 모양을 복구하기 위한 강력한 신호를 제공하지만 
    • 특정 개체 인스턴스는 실제로 완전히 대칭이 아닙니다.
    • 그래서,  불확실성 모델링을 사용하여 잠재적 인 비대칭 성을 설명하고, 모델은 입력 이미지에서 대칭이 아닐 수 있는 부분을 학습 해야 합니다.
      •   1) 픽셀 당 Confidence Maps 을 추가로 예측 하며
      •   2) 동시에 두 개의 Confidence 조정 재구성 손실을 최소화하고 우세한 측면을 허용 하고
      •   3) 비대칭 가중치를 사용하도록 훈련 합니다.

 

    • 3-2. Probably symmetric objects




    • 3-3. Image formation model


    • 3-4. Perceptual loss


  • 4. Experiments
    • 4.1 Setup
      • 데이터 세트.
      • 논문에서는 CelebA [33], 3DFAW [20, 25, 67, 64] 및 BFM [43]의 세 가지 사람 얼굴 데이터 세트에서 방법을 테스트합니다.
      • CelebA는 경계 상자로 주석이 달린 야생의 실제 인간 얼굴 이미지로 구성된 대규모 인간 얼굴 데이터 세트입니다.
      • 3DFAW에는 섹션 4.3에서 3D 예측을 평가하는 데 사용하는 66 개의 3D 키포인트 주석이 포함 된 23k 이미지가 포함되어 있습니다.
      • 머리 영역 주변의 이미지를 대략적으로 자르고 공식 기차 / 발 / 테스트 분할을 사용합니다.
      • BFM (Basel Face Model)은 3D 재구성의 품질을 평가하는 데 사용하는 합성 얼굴 모델입니다.

    • 4.2 Results
      • baselines 비교 입니다.
      • Table 2 는 BFM 데이터 세트를 사용하여 제안 방법과 Supervised 와 두 개의 기준으로 얻은 Depth 재구성 품질을 비교합니다.
        • (1) Supervised 은 L1 손실을 사용하여 훈련 된 모델의 버전이며
        • (2) 은 상수 즉 일정한 균일 깊이로 얻은 모델 버전
        • (3) 세 번째 기준선은 테스트 세트의 모든 실측 깊이 맵 을 평균하여 얻은 결과 입니다.

      • Ablation. 
        • 제안하는 모델의 개별 부분이 미치는 영향을 이해하기 위한 Table 3 입니다.
        • 방법은, 한 번에 하나씩 모델의 구성 요소를 제거 하여 평가 하였습니다.  
        • Albedo flip 를 제외하는 경우 SIDE 와 MAD 가 가장 크게 증가 하는 걸 확인 할 수 입니다.




      • Asymmetric perturbation (Table 4) 비대칭적 불안  (비대칭을 강제 함)
        • 논문에서는 confidence maps 를 제외 하는 경우 실험 모델의 기하학 재구성은 종종 실패 하며
        • confidence 신뢰도 추정치를 통해 모델은 손실이 거의 없이 비대칭면을 올바르게 재구성 할 수 있다고 주장 합니다.    
        • 그것을 증명하기 위해 BFM 에 Asymmetric perturbation 을 추가한 결과를 통해 확인 가능 합니다.
      • Qualitative results


    • 4-3. Comparison with the state of the art
      • Qualitative comparison to SOTA. (SOTA와의 질적 비교.)       

''



    • 4.4. Limitations
      • 시끄러운 어두운 텍스처와 음영 (그림 8b)을 분리하는 것은 종종 어렵습니다. 극단적 인 포즈의 경우 재구성 품질이 더 낮습니다
      • 이것은 정면 포즈의 정확한 재구성에서 constraints 을 부과함으로써 개선 될 수 있습니다.
  • 5. Conclusions
    • 우리는 객체 범주의 단일 뷰 이미지의, 3D 모델을 학습 할 수있는 방법을 제시 했습니다.
    • 이 모델은 개별 개체 인스턴스의 고 충실도 단안 3D 재구성을 얻을 수 있습니다. 이것은 autoencoder 와 유사한, supervision 없이 재구성 손실을 기반으로 훈련됩니다.
    • symmetry and illumination (대칭과 조명)은 shape (모양) 에 대한 강력한 단서이며, 모델이 의미 있는 재구성으로 수렴하는 데 도움이 됩니다.
구현해 보기 :