논문 Review/Video Action Recognition

Video 관련 논문 리스트 간단 정리

SooHyun2i 2022. 2. 16. 03:38

연구 주제를 정하기 위해 Video 관련 논문을 읽고 정리하고 있다.

모든 논문을 자세히 정리하기 힘들어 여기에 관련된 논문을 간단히 요약해서 정리하려고 한다.

 

SpeedNet: Learning the Speediness in Videos In CVPR 2020 oral 

Sagie Benaim1,2∗ Ariel Ephrat1 Oran Lang1 Inbar Mosseri1 William T. Freeman1 Michael Rubinstein1 Michal Irani1,3 Tali Dekel

 

사람은 물체의 움직임이 빨라지고 느려지는걸 쉽게 알 수 있습니다. 

이 논문에서는 물체의 움직임에 대한 그러한 개념과 prior을 학습하기 위해 기계를 얼마나 잘 훈련시킬 수 있는지 연구하고자 합니다. 기본 binary classification task 이고 L-fps vidoe에 L frame이 input으로 들어오고 predict합니다.

 

regression은 매우 불필요하게 어려우니까 주어진 목표 최종 목표는 주어진 비디오가 자연스러운지 아닌지를 결정하는 것입니다. 모델은 natural video of human actions 의 large corpus Kinetics로 self-supervised 방식으로 해결했습니다. manual label 없이! 

 

Spped Net

Speed Net의 핵심 요소는 비디오에서 물체가 움직이는 속도가 정상속도보다 빠르게 움직이는지를 판단 할 수 있게 하는 deep neural network입니다. 학습 자체는 normal speed랑 오리지날의 2배 되는 스피드에 해당 되는 두 비디오를 구별 할 수 있게 학습합니다. L-fps vidoe의 L frame을 추출한걸 input으로 하고 SpeedNet은 이러한 frame들이 1초의 movement(normal speed) 2초의 movement(speed-up)인지 예측합니다.

 

주의할 점은 원래 속도의 두 배 속도로 재생된 동영상에 항상 부자연스러운 동작이 포함되어 있는 것은 아니라는 것입니다. 예를 들어 slow walking을 sped up 해서 fast walking으로 하면 여전히 자연스럽게 보입니다. 또한 비디오의 아무런 무빙이 없으면 비디오를 2배로 돌려도 여전히 아무런 motion이 없습니다. 따라서 1배와 2배 속도를 구별하는 항상 속도 예측의 주요 목표를 정확하게 반영하지는 않는다. 결론적으로 논문의 저자들이 모델이 퍼펙트한 accuracy를 달성하는걸 기대하고 바라지 않는다고 합니다.

 

주요한 포인트 중 하나는 video의 playback rate를 regressing 하는 것 보다 binary classification 문제로 해결하는 점인데이 motivation은 비디오의 움직임이 자연스러운지 아닌지를 결정하는 것이기 때문에 굳이 regression objective는 불필요한 학습이라고 얘기합니다. 대신 binary classification으로 해결을 하는 거죠. 두 개의 다른 스피드를 구별하는게 더 인간과 비슷하다라고 얘기합니다. 

 

Data, supervision, and avoiding artificial cues

 

Speed Net은 어떠한 manually labeled video 없이 self-supervised 방식을 사용합니다. training 이랑 testing set은 모든 video segment의 두 버전이 있는데 하나는 normal speed version이고 하나는 temporally 하게 subsampling으로 video frame을 구성한 sped-up version입니다. 이전의 work는 task를 해결하기 위해 artificail한 cues를 사용을 했었는데 이 논문에서도 이러한 cue에 의해 취약해서 몇가지 전략을 사용해서 잠재적인 shortcut문제를 해결하려고 합니다.

 

Spatial augmentations

 

base 네트워크가 fully convolutional로 정의 되어 있는데 그래서 inpu이 임의의 차원일 수 있다. training 동안 input video clip을 64에서 336 pixel사이의 spatial dimension으로 랜덤하게 reszie합니다. 이 resize process동안 발생하는 blurring은 각 프레임의 MPEG 또는 JPEG 압축으로 인한 나타나는 잠재적인 픽셀 intensity jitter를 줄이는데 도움이 된다고 합니다.base network를 통해 input이 passing 하고 spatial global max pooling을 모든 region에 해줘서 space-time feature를 얻습니다. 입력의 크기가 가변적이기 때문에, 이 영역들은 원래의 크기 미지정 입력에 있는 다른 영역에 해당한다.이는 SpeedNet 네트워크가 모션 크기와 같은 크기에 의존하는 요소에만 의존하지 않도록 만듭니다.

 

Temporal augmentations

 

normal speed 랑 normal speed의 2배인 video를 샘플링하고 싶은데 시간 영역에 대해서 가변성을 도입하려고 normal speed의 경우 프레임을 1*-1.2* 속도로 샘플링하고 sped up 버전은 1.7*-2.2*. 로 샘플링합니다

주어진 영상에서 3T 연속 프레임을 선택합니다. 정상 속도의 경우 확률 1 - 1/f인 프레임과 1-1.2 사이의 건너뛰기 인자 f를 랜덤하게 선택합니다. 그런 다음 나머지 프레임 중에서 T 연속 프레임을 선택합니다. 속도 증가 버전의 경우, f는 1.7 - 2.2 사이에서 선택됩니다.

 

Same-batch training

 

(3T 연속 프레임의) 각 클립에 대해, 우리는 위에서 설명한 방식으로 각각 길이 T의 정상 속도와 속도 증가 비디오를 구성하고 각 배치에 각 비디오 클립의 normal 속도 버전과 sped-up 버전이 모두 포함되도록 모델을 훈련합니다. 이 방법이 artificial cues에 덜 의존적이게 만든다고 합니다. 이러한 augmentation 전략의 정량적인 효과를 뒤에 section에서 얘기합니다.

 

SpeedNet architecture

 


Self-Supervised Learning by Cross-Modal Audio-Video Clustering, in NeurlPS 2020 spotlight - Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, Du Tran

 

Action Recognition을 위해 vison modal 하나만 이용하는 건 성능 향상에 한계가 있음

Audio feature는 spatio-temporal 적으로 visual 해석에 많은 도움을 줌 

ex) visual 쪽으로 변화가 없지만 action을 할 때 나오는 소리나(음악관련), object가 움직일때 나는 소리를 이용

 

Challenge

1) Action recogntion 문제를 풀기 위해선 많은 labeled dataset 필요

2) Pre-train model들이 Label space가 다름 ex) Sports action 이나 Kitchen activities 등 label 도메인이 달라서 transfer learning의 한계점이 있음

 

Single-modality deep clustering

 

기존의 DeepCluster 방법 착안 하지만 변화? 좀 다르게 사용하는게 있음

 

클러스터링 = K-means clsutering

FC-layer 파라미터 = Epoch 마다 cluster 수행하는데 이때 Fc-layer 파라미터는 SUpervision-taxonomy가 스위치 되면 reset하면서 학습

Encoder는 2D CNN인 RestNet-50 사용하고 처음에만 랜덤하게 초기화하고 에폭마다 기존 파라미터는 유지합니다.

 

Multi-modal deep clustering