CVPR 2021 Video Representation Learning 정리
CVPR 2021에 accepted된 video representation learning 관련 5개의 논문을 간단하게 정리해보려고 한다.
일단 빠르게 훑어보고 정리하고 관련이 있고 필요하다고 생각하면 자세히 리뷰하려고 한다.
SSAN: Separable Self-Attention Network foro Video Representation Learning
중국인이 쓴 논문이다.......
modeling long range dependencies의 효과적이기 때문에 Self-attention은 성공적으로 video representation learning에 적용할 수 있다. 기존 접근 방식은 공간 및 시간 차원을 따라 쌍별 상관 관계를 동시에 계산함으로써 dependencies를 구축한다. 하지만 spatial 및 temporal correlations은 장면과 시간적 추론의 다른 contextual한 정보를 나타낸다. 직관적으로 spatial contextual 정보를 먼저 학습하는 것이 temporal modeling에서 이득이다. 그래서 이 paper에서는 separable self-attention module(SSA) 를 제안하는데 이 모듈은 spatial and temporal correlations을 순차적으로 models합니다. 그 결과 spatial context가 효과적으로 temporal modeling에 사용이 된다고 합니다.
task는 Video action recognition이랑 visual-langugage task of video retrieval 두개를 진행합니다. 각각의 dataset은 something something v2랑 Kinetics-400 , MSR-VTT랑 Youcook2 데이터셋을 이용했다.
공간과 시간의 상관관계는 다른 상황 정보를 나타낸다.
전자는 종종 장면과 사물과 관련이 있고, 후자는 종종 행동(단기 활동)과 사건(장기 활동)에 대한 시간적 추론과 관련이 있다.
Human cognition은 항상 action을 보기전에 scene이랑 object를 알아채린다. 그래서 spatial and temporal dimension의 correlation을 함께 학습하는 건 관련이 없는 정보를 cpature할지도 모르고 action understanding에 애매모호함을 이끈다고 합니다. 이런 단점이 video의 activites가 복잡해질수록 심해진다는거고 그래서 효과적으로 비디오의 correlation을 capture 하려면 spatial 이랑 temporal dimension의 decoupling은 필수라고 합니다. 반면에 short-term temporal dependencies는 복잡한 activites episode를 capture하기 위해 반드시 고려해야 한다고 얘기합니다.
나머지는 그림 그대로고 좀 특이한 점이 Spatial attention을 먼저해서 이를 바탕으로 temporal한 information을 구하는 점이고 설명을 조금 하자면 T 는 Frame H는 spatial size, W는 temporal size C는 channel number이다. 전형적인 3D self-attention/3D NL block maps은 1*1*1* convolution을 사용해 query,key,value로 embedding을 합니다. 그 다음 size를 reshape해주고 similarity matrix M이