DeepFlowest

[Video Inpainting] DVI: Depth Guided Video Inpainting for Autonomous Driving 본문

논문 정리 및 리뷰

[Video Inpainting] DVI: Depth Guided Video Inpainting for Autonomous Driving

Orange57 2020. 10. 12. 15:18
728x90
반응형
SMALL

https://arxiv.org/abs/2007.08854 논문을 읽고 정리한 내용 입니다.

 


0. Abstract


  • 프레임에서 inpainting area를 채우려면, 다른 프레임의 픽셀을 올바른 occlusion을 사용하여 현재 프레임으로 변환하는 것이 간단하다.

  • 또한 3D point cloud registration을 통해 여러 비디오를 융합 할 수 있으므로 대상 비디오에 여러 소스 비디오를 inpaint할 수 있다.

  • 그 동기는 전체 비디오에서 가려진 영역이 한 번도 보이지 않았던 장기간의 가림(occlusion) 문제를 해결하는 것이다.

  • video inpainting을 위해 여러 비디오를 융합하는 최초의 논문이다.

  • 접근 방식의 효율성을 확인하기 위해 동기화 된 이미지와 Lidar 데이터 (예 : 장시간 occlusion)를 포함한 실제 도시 도로 환경에서 대규모 inpainting 데이터 세트를 구축한다.

  • 실험 결과는 제안 된 접근 방식이 모든 기준에 대해 최첨단 접근 방식을 능가하는 것으로 나타났다. 특히 RMSE (Root Mean Squared Error)가 약 13 % 감소했다.

Keywords : Video Inpainting, Autonomous Driving, Depth, Image Synthesis, Simulation

 

1. Introduction


  • 최근 몇 년간 image inpainting에서 상당한 진전이 이루어졌다.

  • mainstream approaches [4,6,21]은 patch-based method을 채택하여 알려진 영역이나 다른 소스 이미지에서 유사한 patches를 샘플링하고 붙여 넣어 누락 된 영역을 완성한다. 이 방법은 자연스럽게 공간적 일관성뿐만 아니라 시간적 일관성도 보존되는 video inpainting으로 확장되었다.


  • video inpainting의 기본 아이디어는 프레임 내의 누락 된 영역 / 픽셀이 동일한 비디오의 다른 프레임에서 관찰된다는 것이다.

  • 이러한 관찰 하에서 일부 선행 연구 [8,23,24]는 optical flow를 지침으로 사용하여 명시적 또는 암시적으로 누락 된 픽셀을 채운다.

  • 그러나, flow계산은 학습 기반이든 아니든 상관없이 textureless areas(표면에 무늬가 거의 없는 물체)에 잘 적용되지 않는다.

  • 또한 비디오의 원근 변화는 optical flow estimation의 품질을 저하시킬 수도 있다.

  • 이러한 프레임 단위 flow 오류는 일시적으로 멀리 떨어진 프레임에서 누락 된 픽셀을 채울 때 누적되어 왜곡 된 inpainting 결과가 발생하며 이는 experiment section에 나온다.


  • 딥 러닝, 특히 GAN (Generative Adversarial Network)의 출현은 우리에게 inpainting을 위한 강력한 도구를 제공했다.

  • 이미지의 경우 [9,15,25]는 inpainting을 조건부 이미지 생성 문제로 공식화한다.

  • 비록 다르게 공식화되었지만, GAN 기반 inpainting 접근법은 본질적으로 patch-based 접근법과 동일하다. 여전히 훈련 데이터에서 유사한 텍스처를 찾고 구멍을 메우기 때문이다.

  • 따라서 입력 이미지의 영역과 일치하도록 훈련 데이터를 정교하게 선택해야한다.

  • 더욱이 GAN 기반 접근 방식은 이미지의 원근 변화를 처리하는 데 부족한 patch-based 방법과 같은 문제를 가지고 있다.


  • image+depth sensors가 AD 자동차의 표준이되면서, 이 논문에서는 깊이를 안내하는 street-view videos를 inpaint하는 방법을 제안한다.

  • 작업에 따라 대상 개체는 수동으로 레이블이 지정되거나 컬러 이미지에서 자동으로 감지 된 다음 깊이 대응 대상(depth counterpart)에서 제거된다.

  • 3D map은 모든 point clouds를 연결하여 만들어지고 개별 프레임에 다시 투영된다.

  • 대부분의 프레임 픽셀에는 3D 프로젝션을 통해 깊이 값이 할당되고 나머지 픽셀은 보간(interpolation)을 통해 깊이를 얻는다.

  • 조밀 한 깊이 map과 알려진 외부 카메라 매개 변수를 사용하여, 다른 프레임의 색상을 샘플링하여 현재 프레임 내의 구멍을 채울 수 있다.

  • 이러한 색상은 누락 된 픽셀에 대한 초기 추측으로 사용 된 다음 정규화를 통해 공간 및 포토 메트릭 부드러움을 강화한다.

  • 그런 다음 색상 조화를 적용하여 부드럽고 매끄러운 블렌딩 경계를 만든다.

  • 결국, moving average이 optical flow을 따라 적용되어 최종 칠해진 비디오가 일시적으로 매끄럽게 보이도록한다.


  • learning-based methods과 달리, 이 논문에서의 접근 방식은 가려진 영역(occluded areas)이 비디오에 표시되지 않으면 inpaint할 수 없다.

  • 이 문제를 해결하기 위해 여러 비디오 클립을 사용하여 대상 영역을 칠하는 fusion inpainting을 제안한다.

  • 최첨단 inpainting 방식과 비교할 때, 우리는 정확한 원근 왜곡으로 누락 된 영역에서 더 나은 세부 사항을 보존 할 수 있다.

  • 3D map이 모든 프레임에서 일관되기 때문에 시간적 일관성이 암시적으로 적용된다.

  • 모든 프레임을 공통 3D point map에 등록하여 다른 시간에 캡처 한 여러 비디오 클립을 inpaint 할 수도 있다.

  • 우리의 실험은 자율 주행 차에서 캡처 한 데이터 세트에 대해 수행되었지만 제안 된 방법은 이 시나리오에만 국한되지 않는다.

  • image+depth 데이터를 동기화하는 한 실내 및 실외 시나리오 모두에 일반화 할 수 있다.


  • 본 논문에서는 AD 시나리오에서 3D map을 안내하는 새로운 비디오 인 페인팅 방법을 제안한다.

  • 전체 파이프 라인이 CPU에서만 실행되도록 딥 러닝 기반 방법을 사용하지 않는다.

  • 이렇게하면 GPU 및 학습 데이터의 도메인 조정이 필요하지 않기 때문에 다양한 플랫폼과 다양한 사용 사례로 쉽게 일반화 할 수 있다.

  • 3D map guided inpainting은 점점 더 많은 비디오에 깊이 데이터가 포함되어 있으므로 인 페인팅 커뮤니티가 탐색 할 새로운 방향이다.

    1. 자율 주행(autonomous driving)을 위한 depth guided video inpainting의 새로운 접근 방식을 제안한다.

    2. 오랜 occlusion 문제를 해결하기 위해 inpainting을 위한 **여러 비디오를 융합**하는 최초이다.

    3. 동기화 된 이미지와 오랜 시간 가림(occlusion)과 같은 많은 도전 inpainting장면을 포함하는 Lidar data로 도시 도로에서 새로운 데이터 세트를 수집한다.

    4. 또한 inpainting을 위한 후보 색상 샘플링 기준 및 색상 조화를 설계했다. 다른 최첨단 방법에 비해 더 작은 RMSE를 보여준다.

       

6. Conclusion


  • 본 논문에서는 영상에서 물체를 제거하고 깊이의 안내로 누락 된 영역을 합성하는 자동 영상 inpainting 알고리즘을 제안한다.

  • 정확한 텍스처 세부 사항을 유지하여 인 페인팅 데이터 세트에서 기존의 최신 인 페인팅 방법보다 성능이 뛰어난다.

  • 실험은 우리의 접근 방식이 특히 긴 폐색(occlusion) 장면이 있는 까다로운 시나리오에서 더 깨끗하고 더 나은 배경 이미지를 재구성 할 수 있음을 나타낸다.

  • 또한 학습 데이터 세트의 포괄성과 유사성에 크게 의존하는 딥 러닝 기반 접근 방식과 달리 깊이가 있는 한 모든 비디오에 대해 방법을 일반화 할 수 있습니다.

728x90
반응형
LIST
Comments