Study/개인 연구

Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

SooHyun2i 2022. 6. 7. 13:54

이번에 리뷰할 논문은 독일에 아주 유명한 대학교인 튀빙겐? 대학교 에서 나온 CVPR 2021에 accepted된 Distilling Audio-Visual Knowledge by Compositional Contrastive Learning이다. 

 

1. Introdcution

 

Video는 informative 한 multi-modal cues를 가지고 있습니다. visual obejct나 motion, auditory event등이 이에 해당하고요. 이와 같은 것들이 representation learning을 위한 rich하고 transferrable한 semantices을 제공합니다.

논문에 목표는 video represenations을 위해 spatial 이미지 데이터와 temporal한 오디오 데이터로 pre-train된 network에 풍부한 multi-modal knowledge를 distill하는 것입니다.

기존의 모델은 같은 modality만 transfer knowledge를 하는데 이 논문에서 모델은 multi-modal distilation 은 multiple data modalities로 부터 학습된 걸 이용함. 그 전의 work에도 cross-modal distillation을 고려했지만 일반적으로 두 modalities 사이의 pairwise semantic correspondence을 가정한다. 하지만 제한이 없는 시나리오에서 cross-modall content는 항상 semantically 하게 correlated or temporraly aligned 일 수 없다.