hyunjin

[CVPR 2021]NeuralRecon : Real-Time Coherent 3D Reconstruction from Monocular Video 논문 리뷰 본문

개인 공부/논문 리뷰

[CVPR 2021]NeuralRecon : Real-Time Coherent 3D Reconstruction from Monocular Video 논문 리뷰

_h.j 2021. 7. 2. 22:56
728x90

Project Page

 

Abstract


  • real-time 3D scene reconstruction from a monocular video.
  • directly reconstruct local surfaces represented as sprse TSDF volume for each video fragment sequentially by a  neural network(TSDF volume으로 표현되는 local surface를 바로 reconstruct )
  • Learning-based TDSF fusion module based on gated recurrent unit is used to guide the network to fuse features from previous fragments.
    • GRU가 current-fragment recontruction conditioned on the previously reonctructed global volume. (GRU 이용해 globally consistent with the previously reconstructed fragment. )
  • this is the first learning-based system that is able to reconstruct dense coherent 3D geometry in real-time.

 

1. Introduction


대부분의 image base realtime reconstruction pipeline[PIFu]은 KinectFusion 처럼

Kinect Fusion?

 

 

기존 depth map 방식 In depth-based methods,

- key frame depths are estimated separately from each key frame, and later fused into a TSDF volume.

Each key frame에서 Depth Estiamtion → 추정된 Depth Map 일관성, Smoothness 기준으로 filtering fused into TSDF volume → TSDF에서 Reconstructed Mesh 추출 (with Marching Cube Algorithm)

 

 

기존 depth map 방식 결함

singel-view depth map을 key frame에서 개별 추정하므로 depth estimation이 중복되더라도 이전 추정에 의해 조정되지 않고 처음부터 추정됨 → 올바른 Camera Ego-Motion 사용해도 스케일 계수가 달라질 수 있음 

→ Due to depth inconsistencies between different view, reconstruction 결과가 layered(계층화) 되거나 scattered.

 

②key-frame depth maps이 겹치더라도 별도로 추정해야하므로 동일한 3D surface 가 다른 키에서 여러번 추정

→ redundant computation

 

 

그래서 NeuralRecon 제안

In NeuraRecon,

- jointly reconstructs and fuses the 3D geometry directly in the volume TSDF representation.

TSDF volume is directly predicted with all the key frames in a local window.

→  much more coherent reconstrcution and real-time speed

given a seqence of monocular image & 상응하는 camera pose by SLAM → view-independent한 3D volume에서 local geometry를 점진적으로 reconstruct (view-dependent depth map 대신)

 

NeuralRecon Architecture

-  image features  to  3D feature volume으로 투사해(unproject) → Sparse Convolution 사용해 -> Feature Volume 처리 to sparse TSDF volume 출력

 

coares-to-fine  design(여러번한다는 의미) 통해 점진적으로 예측한 TSDF volume이 각 레벨에서 점진적 refined

 

=> directly implicit surface(TSDF)를 reconstruction 해서, network가 natural 3D surface 보다

   - local smoothness 배움

   - global shape(전체 형태) 파악 가능

 

 

learning based TSDF Fusion using GRU(Gated Recurrent Unit)

- globally consistent를 위해 이전에 reconstructed된 global volume에서 current-framgment 조건부 reconstruction

→ 함께 reconstruction 과 fusion 접근 방식 가능해짐

 

결과적으로

  • reconstructed mesh 가 dense(조밀), accurate, globally coherent
  • predicting the volumetric representation → remove redundant computation in depth-based method→ real-time에 큰 3D CNN 사용 가능

입증

- 여러 최신 multi-view depth 방식과 volume-based reconstruction method( Atlas) 크게 능가, 실시간 성능 달성 

- 대규모 3D scenes real-time reconstruction 가능

- the first learning-based system that can reconstruct dense and coherent 3D scene geometry in real-time.

 

2.Related Work


Multi-view Depth Estimation

- 가장 관련성 높은 연구라인 real-tiem methods for multi-view depth estimation

 

Deep Learning 이전 방법들

  • plane-sweeping stereo와 좋은 성능을 냈다.
  • Learning-based methods[MVDepthNet...] on real-time multi-view depth estimation은 데이터 중심 접근 방식 통해 photo-consistency (기하학적방법인가?) 가정을 완화하려 노력
  • 모바일 플랫폼의 저전력 소비 위한 연구 최적화

 

Learning-based Method on real-time multi-view depth estimation

  • try to alleviate the photo-consistency assumption with a data-drvien approach(데이터 기반 방법은 사람이 직접 알고리즘을 만드는 것이 아니라 데이터를 기반으로 모델을 만들어 문제를 해결하고자 하는 방법이다.)
  • NVDepthNet, Neural RGB-D : multi-view image features로 부터 구성된 2D depth cost volume을 process하기 위해 2D CNN 사용한다.
  • CNMNet : 실내의 평면 구조 활용해 예측한 depth map을 계산한 surface normals를 제한해 smooth한 depth 추정 가능 
  • → learning-based 방식은 real-time에 가까운 성능 유지를 위해 depth cost volume을 사용 낮은 계산량으로 처리하는 2D CNNs 사용

 

MVS ( Multiple View Stereo ) Problem (COLMAP)

input image가 고해상도에 오프라인 계산 허용되는 경우에 multi-view depth 추정

- PatchMath-based 방식뛰어난 정확성, 여전히 고해상도 이미지에 적용 가능한 가장 유명한 방식

- Learning based의 MVS 접근법은 정확도 측면에서 여러 벤치마크 지배, but Mid-resolution image로 제한( GPU memory 제약 때문)

- Real-time method와 다르게, MVSNet에서 제안한 대로 3D cost volume이 구성되고 3D CNNs가 3D cost volume 처리하는데 사용.

- 일부 최근 작업은 coarse-to-fine 접근법으로 pipeline 개선. 유사한 설계는 많은 학습 기반 SLAM 시스템에서도 찾을 수 있다.

 

→ 위의 방법 다 single-view depth maps을 intermediate representation으로

- SurfaceNet은 volumertric representation이라는 다른 접근법 사용 사용 

 

Atlas

- volumetric design 제안, direct predict TSDF, sematic labels with 3D CNN으로 예측

- 오프라닝 방법, 전체 sequence image feature를 종합해 global TSDF volume을 decoder 에서 한 번만 예측

 

NeuralRecon와 [5,18] 논문에서 recurrent networks for multi-view feature fusion과 관련있지만

- [5,18]의 recurrent fusion은 오직 global features에만 적용, single object만 reconcstruct 가능

 

 

3D Surface Reconstruction

Depth maps 추정해 point clouds로 변환 후 3D reconstruction을 위해 남은 일 → 3D surface position 추정

reconstructed mesh 생산

오프라인 MVS 파이프라인에서 ,  Poisson reconstruction and Delaunay triagulationd은 종종 이런 목적 달성 위해 사용

 

핵심 작업인 KinectFusion에 의해 제안된 TSDF fusion단순성, 병렬화 능력으로 인해 real-time reconstruction 시나리오 에서 광범위하게 채택. 확장성(scalable)과 안전성(robust) 높여 KinectFusion 개선

 RoutedFusion은 fusion op를 간단한 linear addition에서 data-dependent process로 변경

 

 

Neural Implicit Representations

- Neural Implicit Representations 최근 상당한 향상

- encoded image features로 부터 neural network에서 SDF를 예측하며 Neural Implicit Representations를 학습시킴.

- PIFu와 유사,  주요 다른 점 key difference : discete한 TSDF volume예측위해 sparse 3D convolution을 사용한다는 것, image features와 3D coordinates로 MLP 네트워크를 쿼리하는 대신

????

 

 

3. Methods


sequence of monocular image $ I_t $  +  SLAM에서 camera pose trajectory 주어지면

$S_t^g$  dense 3D scene geometry accurately in real-time 하는 것이 목표

 

$ S_t^g $ : global TSDF volume to reconstruct, where current time step

 

 

3.1 Key Frame Selection


Key Frame : 전체 정보를 갖고 있어서 가장 중심이 되는 프레임

앞의 전체 정보를 갖고 있는 화면과 비교해서 차이가 있는 정보만 담으면 되기 때문

 

To achieve real-time 3D reconstruction that is suitable for interactive applications

input 이미지가 local fragment로 순차적으로 처리되어야함.

 

seek to find a set of suitable key frames  (전체 정보를 갖고 있어서 가장 중심이 되는 프레임)

- too close  너무 가깝거나

- far from each other 서로 멀리 떨어져 있지 않아야함.

 

[13]에선 incoming frame에서 key frame으로 선택

- relative translation이 $t_{max}$ 보다 큰 경우

- relative rotation angle이 $R_{max}$ 보다 큰 경우

 

보충자료 Figure 1. Illustration for the definitions of local and global coordinate and FBV

 

 

N개의 key frame 가진 window -> local fragment로 정의.

키 프레임 선택 후 → FBV( all key frame view-frustums 둘러싼 cubic 모양  fragment bounding volume )가 각 view에서 고정된 max depth range $d_{max}$ 사용해 계산(each fragment를 reconstruction하는 동안  FBV 내 영역만 고려)

 

3.2 Joint Fragment Reconstruction and Fusion


learning-based 접근법으로 $S_t^l$(local fragment의 TSDF volume)동시에 reconstruct하고 $S_t^g$(global TSDF volime)와 그것을 합치는 방법을 제안

보충자료 Figure 1. Illustration for the definitions of local and global coordinate and FBV

joint reconstruction and fusion은  local coordinate에서 수행( 보충 자료에서 좌표 시스템 더 설명)

 

 

Image Feature Volume Construction

Key-frame images in the local fragment are first passed through the image backbone to extract the multi-level features. These image features are later back-projected along each ray and aggregated into a 3D feature volume Fl t, where l represents the level index.
Visualization of unprojection process

 

N images in local fragment → image backbone 통과해 multi-level features 뽑아냄 → 각 ray에 따라 3D feature volume 으로 back-projected →  $F_t^l$(image feature volume)는 각 voxel의 visibility weight에 따라 다른 view에서 features의 평균 구함

visibility weight : the numebr of views from which a voxel can be observed in the local fragment.

voxel : 3차원 공간에서 정규 격자 단위의 값

 

image pyramid network

 

Coarse-to-fine TSDF Reconstruction

sparse TSDF volume

  • coarse-to-fine approach 채택해 예측된 TSDF volume 점진적으로 refine
  • 효과적으로 $ F_t^l $(the feature volume) 처리하기 위해 3D Sparse Convolution 사용.
  • sparse volumetric representation도 자연스럽게 coarse-to-fine로 통합
  • 특히 , each voxel in $ S_t^l $ ( TSDF volume of local framgent) 2개의 value가짐

voxel이 갖는 value , at each level, o and x 는 MLP 의해 예측

the occupancy score o

- TSDF truncation distance λ 내에 있는 voxel의 신뢰도

- θ보다 낮은 voxel은 공백으로 정의되어 sparsified 됨.

SDF value x

SDF : 물체의 내부 볼룸

θ : sparsification threshold 

After the sparsification$S_t^l $( TSDF volume of local framgent) X2배로 upsampledconcatenated with $ F_{t}^{l+1} $(the feature volume)되어 → 다음 레벨에서 GRU Fusion module의 input으로

 

each frame의 single view depth map 추정 대신,

NeuralReconimplicit surface local fragment windowbounding volume와 함께 reconstruct 한다.

이 design은 network가 training data에서 직접 natrual surface 학습하도록 함

 

결과적으로, 이런 design

- Reconstructed surface is locally smooth and coherent in scale

- less redundant computation depth based method와 비교했을 때, 3D surface의 each area가 fragment reconstruction 동안 1번만 추정되기 때문에 

 

 

GRU Fusion

fragment 사이의 reconstruction consistent 일관성을 위해

current-fragment reconstruction을 위해 previous fragments reconstruction에 대해 조건화 한다.

- 3D convolutional variant of Gated Recurrent Unit(GRU) module 사용, 변형된 GRU 사용

 

GRU Fusion

At each level,

$F_t^l$(image feature volume) → 3D sparse convolution layer 통과 → $G_t^l$ (extract 3D geometry feature),

fragment bounding volume 내에서 $ H_{t-1}^g $(global hidden state)  → $ H_{t-1}^l $(hidden state) 추출
GRU에서 $ G_t^l $  + $ H_{t-1}^l $ fuses → $ H_t^l $(updated hidden state) 생산

$ H_t^l $는 MLP layer 통과해 $ S_t^l $(TSDF volume) 예측 
$ H_t^l $ 또, 대응하는 voxel을 바로 대체하며 $ H_t^l $ $ H_t^g$로 update

$ z_t $ : update gate

$ r_t $ : reset gate

σ : sigmoid function

$ W_* $ : weight for sparse convolution

GRU fuse $ G_t^l $ 와 hidden state $ H_{t-1}^l $를 아래 operateion 

$z_t = σ(SparseConv([H_{t−1}^l, G_t^l], W_z))$
$r_t = σ(SparseConv([H_{t−1}^l, G_t^l], W_r))$
${\widetilde{H}}_t^l= tanh(SparseConv([r_t ⊙ H_{t-1}^l, G_t^l], W_h)) $
$H_t^l= (1 − z_t) ⊙ H_{t-1}^l + z_t ⊙ {\widetilde{H}}_t^l $

 

joint reconstruction and fusion of TSDF

직관적으로, TSDF의 공동 재구성 및 융합 측면에서 $ z_t $ , $ r_t $ 는 GRU에서

이전 recosntruction (i.e. $H_{t-1}^l $ hidden state )로부터 current-fragment geometric feature $G_t^l$ 에 얼마나 융합하는지 결정

②current_fragment의 정보가 hidden state $H_t^l$로 얼마나 융합될지 여부

 

이전 재구성(즉, 숨겨진 상태 Hl)의 정보 양, 현재 조각의 정보가 숨겨진 상태 Hl로 융합되는 정도를 결정합니다

 

data-driven 접근 방식(데이터로 학습해서 모델 만들고 그런거)으로서,

GRU는 기존 TSDF fusion에서 선형 작동 평균 op를 대체하는 selective attention mechanism 제공

 

GRU 이후 $S_t^l$(TSDF volume)을 예측함으로써 

MLP network는 histroy fragment에서 축적된 context 정보를 활용해 local fragments 전체에 걸쳐 일관된 surface geometry 생성 가능

→ 개념적으로 현재 관측치와 일시적으로 결합된 depths가 Bayesian filter와 융합되는 비학습 기반 3D reconstrucion pipeline depth filter와 유사.

joint reconstruction and fusion의 효과는 ablation study에서 검증됨.

 

 

Integration to the Global TSDF Volume

At the last coarse-to-fine level,

$S_t^3$ 는 예측되고 $S_t^l$ 까지 추가로 희소화됨.

in GRU Fusion $S_t^l$ 이 Global coordinate로 변환 후 →  해당 voxel을 diretly 대체해 $S_t^g$에 fusion

 

(GRU Fusion에서 $S_t^l$ 와  $S_t^g$의 fusion융합되기 때문에

 $S_t^l$은 global coordinate로 변환 후 해당 voxel을 직접 대체해  $S_t^g$ 에 통합된다.)

각 타입스텝 t에서 , $S_t^g$를 Reconstruct 하기 위해 Marching Cubes 수행.

 

 

 

Sueprvision

- supervision은 모든 coarse-to-fine level에 적용

- two loss functions 사용

1. The occupancy loss 는 binary cross-entropy(BCE) between 예측한 occupancy values o(voxel 의 value)GT occupancy values

2. SDF loss 는 $ℓ_1$ distance between 예측한 SDF values와 GT SDF

    - $ℓ_1$loss 적용 전, SDF 값에  $log$로 변환

 

 

3.3 Implementation Details

- 3D sparse convolution 구현으로 torchsparse (TorchSparse is a high-performance neural network library for point cloud processing.) 사용

- The image backbone 은 MnasNet 변형 버전, ImageNet에서 사전 학습된 가중치로 초기화

- Feature Pyramid Network는 backbone에서 더 대표적인 multi-level features 추출 위해 사용

- 전체 network는 랜덤하게 초기화된 가중치로  end to end trained 된다.(image backbone 빼고)

- voxel의 occupancy score o는 Sigmoid layer 사용해 예측

- 마지막 level의 voxel size 4cm

- TSDF truncation distance λ 12cm로 설정

- $d_{max}$ = 3m , $R_{max}$ = 15˚ , $t_{max}$ = 0.1m   ,  

- Θ =0.5

- Nearest-neighbor interpolation은 coarse-to-fine level 사이에 upsampling에 사용됨

4. Experiments


NeuralRecon의 quality와 다양한 설계 고려 사항 평가 위한 일련의 실험 수행

4.1 Datasets,Metrics,Baseline and Protocols.

Datasets.

2개의 indoor datasets로 실험 수행

①ScanNet

- gt camera pose, surface reconstruction, semantic segmentation labels

- 공정한 비교 위해 [30][42]에서 사용한대로 ScanNet의 training and validation data 분리

②7-Scenes

- another challenging RGB-D dataset captured in indoor scenes

 

we use the model trained on ScanNet to perform the validation on 7-Scenes.

기본 방법[26]에 따라, ScanNet에서 교육받은 모델을 사용해 7-Scene에 대한 검증 수행

 

Metrics. 3D reconstruction quality 평가 위해

①3D geometry metrics (Atlas[30]에 나온) 사용

②2D depth metrics [11]

③그 중 F-score : 3D reconstruction quality 평가 위해 정확성과 안정성 모두 고려하므로 가장 적합한 metric, 3D and 2D merix

 

Baseline.

1. real-time methods for multi-view depth estimation [48,13,23,26]

2. Multi View Stereo methods [37 COLMAP,14,53,30,28]

이 Offline methods는 real-time과 비교해 더 높은 정확도 가짐

NeuralRecon도 realtime이지만 이 offline method와 비교해도 잘 reconstruct한다는 것 보이기 위함.

3. Learning-based SLAM methods[45,42,44]

 

공정한 비교를 위해

- GT camera pose 사용

- GT deoth 사용하는 depth map 예측에 scaling factor 적용

 

Evaluation Protocols

depth maps

NeuralRecon은 explicitly하게 depth maps 추정하지 않는다.

we render the reconstructed mesh to the image plane and obtain depth map estimations

Reconstructed Mesh를 image plane에 render하고 depth map 추정을 얻는다.

 

평가에 사용될 Key frame

10 frame 간격으로 얻는다.

 

3D 에서 COLMAP (depth-based method) 평가 위해 

3D Reconstruction 얻기 위해 point cloud fusion 사용 (following Atalas)

 

[31,7]에서 제시한 standard TSDF fusion 사용

 

The evaluation of 3D geometry on 7- Scenes uses the single-layered mesh.

 

We also evaluate the depth filtering operation with multi-view consistency check,

멀티뷰 일관성 검사를 통해 깊이 필터링 작업을 평가

 

4.2 Evaluation Results

ScanNet

3D geometry 평가 결과

ouer model 이 learning-based  방식보다 성능 더 좋음

- achieves slightly better results than COLMAP

We believe that the improvements come from the joint reconstruction and fusion design achieved by the GRU Fusion module.

Depth-based 방식과 비교했을 때 장점

- can produce coherent reconstruction both locally and globally

 

Volumetric baseline인 Altas 보다 accuracy, precision,F-score  능가

 

improvement는 the design of local fragment separation로 부터 옴.

-> View-selection mechanism 처럼 동작하는 : the 3D volume으로 합칠 때 상관 없는 것 피하는 매커니즘

 

depth-based method and Atlas 보다 부족한 점

Completeness , reall

 

Depth-based method

- predict pixel-wise depth maps on each view

- 그들의 예측의 범위는 높지만 정확도는 희생

 

Atlas

- TSDF completion 능력으로 인해 때때로 GT 능가 

- 지나치게 매끄러운 기하학적 구조를 예측하는 경향

- 완성된 영역이 부정확할 수 있음.

 

NeuralRecon 2D depth metrics에선 이전 최신 방법 다 능가

 

7-Scenes

2D depth metrics and 3D geometry metrics가 평가됨

 

최첨단 방법 CNNet 보다 유사한 성능 달성, 다른 모든 방법보다 우수

ScanNet에서만 훈련되기 때문에 결과는 또한 NeuralRecon

the results also demonstrate that NeuralRecon can generalize well beyond the domain of the training data

 

 

Efficiency

Only the inference time on key frames is computed.

키 프레임 추론 시간만 계산했다.

 

볼륨메트릭 방법(NeuralRecon , Atlas)의 running time은

local fragment에서 key frames의 수에 의해 local fragment의 TSDF volume을 reconstructing 시간에 의해 나눠져 얻어진다.

 

COLMAP엔 [30][55]에 나와있는 running time 사용

 

-> Volumetric 방식이 중복 계산 피하니 더 빠름

 

 

5. conclusion


The key idea is to jointly reconstruct and fuse sparse TSDF volumes for each video fragment incrementally by 3D sparse convolutions and GRU.

 

 

sparse TSDF volume reconstructed by NeuralRecon can be diretly used in downstream task like

- 3D object detection

- 3D semantic segmentation

- neural rendering

 

가능성

by jointly training with the downstream task end to end,

NerualRecon enables new possibilities in learning-based multi-view perception and recognition systems.

 

 

나의 논문에 인용한다면 어떻게 표현하는 것이 좋을까?


사전 공부

Kinect Fucsion

Kinect Fusion

 

TSDF volume 7번 논문

TSDF 정리, Reconstruction 정리

Reconstruct 핵심 요소

reconstruction 접근법

 

Marching Cube Algorithm

스칼라장 다각화 하기-마칭큐브 알고리즘

Polygonising a scalar field 

3차원 스칼라장의 등고표면에 대한 다각화된 표면 표시를 생성하기 위한 알고리즘

.......?

 

 

 

Ego-Motion

움직임 추적(Motion Tracking)

차량의 에고 모션 추정을 위한 센서 융합

에고 모션 추정 시스템 및 방법

- 에고모션(egomotion)은 환경 내에서 카메라의 3차원 이동을 의미하며, 에고모션 추정이란 환경내에서 카메라의 이동을 카메라에 의해 캡쳐된 일련의 이미지들에 기초하여 추정하는 것을 말한다.

- 에고모션 추정은 3차원 장면들을 이해하고 재구성하는데 있어서 매우 중요한 작업이다

- 에고모션 추정은 이미지 스퀀스에서 특징점 인식해 추적하고 이를 대조하는 방법 사용, 이런 방법은 특징점들 추적 및 처리를 위한 계산에 많은 비용 소요

- 카메라가 이미지를 사용해 카메라의 모션 결정, 카메라의 이미지를 분석해 위치와 방향을 확인하거나 결정

- Depth Map 과 Parallax Map(시차 지도) 생성해 움직임 추정

- 대표적으로 Visual Odometry(시각적 주행 측정법)

- Actuator의 움직임 데이터를 활용 가능

 

 

Sparse Convolution

Sparse Conv 정리

sparse convolution neural network 논문

sparse convolution 설명

딥러닝에 사용되는 여러 유형의 conv 

딥러닝에 사용되는 여러 conv2

 

plane-sweeping stereo algorithm

임베디드 GPU에서의 병렬처리를 이용한 모바일 기기에서의 다중뷰 스테레오 정합

Real-time Plane-sweeping Stereo with Multiple Sweeping Directions

Plane sweeping

- a way to perform matching across multiple images simultaneously without the need for rectification(수정 없이 여러 영상에서 동시에 매칭 수행 가능)

- on plane-sweeping which correctly handles slanted surfaces(경사면). 

Multiview stereo matching algorithm : 시점이 다른 복수의 2차원 영상으로부터 3차원 형상을 복원하기 위해 사용

단계별로 많은 계산량을 포함하는 복잡한 구조 때문에 고성능 하드웨어에서만 주로 구현되

 

Photo-Consistency

Photo-Consistency

- Photo-consistency is a scalar function that measures the visual compatibility of a 3D reconstruction with a set of calibrated images.

- 지정된 voxel이 사용 중인지 여부 결정

- Voxel의 색이 voxel을 볼 수 있는 모든 카메라와 유사한 것으로 보일 때 photo-consistency 있는 것을 간주

 

On-line learning method

On-line learning in the said project is about learning on the go. 이동 중에도 학습

Whenever there is a new situation the network will improve its knowledge by learning the additional knowledge

 to handle a new situation. 새로운 상황 발생할 때마다 새로운 상황에 대처하기 위한 추가 지식 학습해 지식 개선

Off-line learning method

is more about static where a model is trained in the start with all the possible/available situations of the enviroment and then it is deployed. 모델이 처음부터 가능한/사용 가능한 모든 환경에서 train 후 배포

 

In other words, post-deployment need-based (re)training of model during its lifetime, as the new situations arise, is termed as on-line training. The aim is to make a model adopt autonomously to cope with such cases. 

 

 

MVS ( Multiple View Stereo )

 

PatchMatch

-  PatchMatch algorithm quickly finds correspondences between small square regions (or patches) of an image.

- 이미지의 작은 사각 영역간 대응관계를 빨리 찾는 알고리즘

- can be used in various applications such as object removal from images, reshuffling or moving contents of images, or retargeting or changing aspect ratios of images, optical flow estimation, or stereo correspondence.

- 알고리즘은 영상에서 객체 제거, 영상의 내용 재구성 또는 이동, 영상의 대상 지정 또는 변경, 광학적 흐름 추정 또는 스테레오 통신과 같은 다양한 애플리케이션에서 사용

- The goal of the algorithm is to find the patch correspondence by defining a nearest-neighbor field (NNF) 

 더 자세한 것은 링크 참고

 

 

Signed Distance Field

SDF 유투브, SDF used to detect overlapping objects

- SDF is short for signed distance field and describes the interior volume of an object

부호화된 거리 필드의 줄임말로 물체의 내부 볼륨을 나타낸다.

- 물체 내부의 어느 지점에서나 SDF를 사용해 물체 표면까지의 거리를 쉽게 잡을 수 있어 깊이를 알 수 있다.

- 객체의 특정 P 위치에 대한 SDF 값을 쿼리하고 반환 결과는 객체 표면으로부터의 거리를 설명하는 숫자

 

 

Point Cloud 

Point Cloud 정리

Poisson reconstruction and Delaunay triagulationd

 

 

Neural Implicit Representations

  기존의 컴퓨터비전 연구에서는 이미지를 다룰 때, 보통 픽셀 위치마다 RGB값을 가지는 하나의 행렬로 표현하는 게 일반적이었는데, 결과적으로 이미지의 해상도에 따라 저장에 필요한 용량과 이미지를 다룰 수 있는 모델의 크기가 좌우됐습니다.

  하지만 요새는 이미지를 픽셀 위치인 (x,y)좌표에서 (r,g,b)값으로 변환해주는 하나의 함수로 표현하는 아이디어가 떠오르고 있습니다. 이 함수를 신경망으로 표현해 학습하는 것이 Implicit neural representations의 핵심 아이디어. 이미지를 이렇게 함수로 표현하면 이미지를 해상도와 관계없이 저장하고 컴퓨터비전 모델에 적용할 수 있게 됩니다. 또한 이미지를 고화질로 변환해주는 super-resolution(초해상도) 기술도 굉장히 단순해집니다. 이 아이디어를 통해 컴퓨터비전 분야에서 큰 트렌드의 변화가 생길 것이라고 예상합니다

-  Nerf가   implicit neural representation의 아이디어의 위력을 가장 잘 보여준 논문

이 연구는 특정 scene을 하나의 함수(scene function)로 모델링 하는데, 그 scene의 공간좌표인 (x,y,z) 좌표와 그 공간좌표를 바라보는 카메라 앵글 (theta,phi)를 그 공간좌표의 RGB값과 투명도 sigma로 변환해주는 신경망을 학습합니다. 이를 통해 어떤 특정한 scene을 다각도에서 찍은 이미지들로 이 scene function을 학습하면 임의의 각도에서 원하는 해상도로 그 scene을 보여주는 게 가능해집니다. 위 링크를 보시면 굉장한 정확도로 scene을 보여주는 걸 확인하실 수 있습니다

 

 

MLP

Multi-Layer Perceptron

MLP CNN 차이

이미지 출처 : https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53

 

 

 

 

이미지 출처 : https://towardsdatascience.com/a-comprehensive-guide-to-convolutional-neural-networks-the-eli5-way-3bd2b1164a53

 

- CNN은 커널 밸리드 패딩과 풀링으로 특징점 추출 후 신경망 거쳐 이미지 분류

- MLP(완전연결신경망)과 CNN(합성곱 신경망)의 차이는 특징점 추출 유무

- MLP는 이미지 행렬을 1차원 배열로 만들고 신경망에 입력으로 넣어 가중치 계산해 정보 손실 큼

- CNN은 사람이 보는 것 처럼 이미지 행렬 2차원 배열에서 가로,세로 축 전부 합성곱 연산과 풀링 연산으로 특징점을 추출하기에 정보 손실 적음. 또 pooling으로 추출된 특징점에 대한 가중치만 연산하기 때문에 연산량이 MLP보다 적다.

 

 

 

 

upsampled(Transposed Convolution) 설명

upsampling

neural network 사용해 저해상도 이미지에서 고해상도 이미지로 만들기위해 사용 

sampling을 통해 데이터의 크기를 키우는 것이다.

 

크게 3가지 보간법 사용

 

 

GRU gate recurrent unit

게이트 순환 유닛

LSTM의 장기 의존성 문제에 대한 해결책 유지하며 , hidden state 업데이트 계산 줄임.

LSTM cell, GRU cell

LSTM의 핵심은 장기 상태에서 저장,버릴것,읽어들일 것 학습

GRU는 LSTM 간소화 버전, 유사하게 동작

두 상태 벡터가 하나의 벡더 $h_{(t)}$로 합쳐짐

하나의 게이트 제어기 $z_{t}$가 삭제와 입력 게이트를 모두 제어, 출력 게이트 없음

데이터 양이 적을 때는, 매개 변수의 양이 적은 GRU가 조금 더 낫고, 데이터 양이 더 많으면 LSTM이 더 낫다고 알려져 있습니다. GRU보다 LSTM에 대한 연구나 사용량이 더 많은데, 이는 LSTM이 더 먼저 나온 구조이기 때문

 

 

selective attention mechanism

728x90

'개인 공부 > 논문 리뷰' 카테고리의 다른 글

NeuralRecon code 공부  (0) 2021.07.25
논문 읽는 법  (0) 2021.07.03