-
연구주제 관련 Top tier conference 논문 정리Study/개인 연구 2022. 4. 11. 00:41
Self-Supervised Method로 video represenation learning을 한다.
여기서 pretext task로 실제 Video에서 visual 정보랑 audio 정보랑 연관이 없는 경우가 있다?아니면 실제 audio 정보가 의미가 없는 경우가 있다.. 이걸 구분해주는 모듈?내용의 idea로 self-supervised learning을 한다.
CVPR 2021, ICCV 2021, ECCV 2020 이렇게 3개의 컨퍼런스에 Video 관련 논문을 다 찾아보자.그리고 마지막으로 검색으로 찾기
CVPR 2021
1. Weakly Supervised Video Salient Object Detection
-> 이건 좀 Weakly Supervised 관련 흥미로운 내용이라 체크해보자.
Video Object Segmentation
비디오 관련 Object Detection이랑 Segmentation
Robust Consistent Video Depth Estimation -> video depth estimation 이거 oral 논문이라는데..
2. No Frame Left Behind: Full Video Action Recognition
-> 효율적으로 모든 Frame을 다 보면서 계산 비용 아끼는 방법 같은데 흠...일단 체크
3. Self-Supervised Video GANs: Learning for Appearance Consistency and Motion Coherency
-> 성균관대학교 허재필 교수님 연구실 분들이 쓰신 논문이다.. 자세히는 읽어보지 않았지만 Specifically, the dual discriminators for image and video individually learn to solve their own pretext tasks; 이거 좀 체크해볼 필요가 있다고 생각해서 체크합니다.
4. Spatiotemporal Contrastive Video Representation Learning
-> 이건 저번에도 체크해서 아이패드에도 있는 논문인데 읽자.
5. Unsupervised Visual Representation Learning by Tracking Patches in Video
-> In the proposed pretraining framework, we cut an image patch from a given video and let it scale and move according to a pre-set trajectory Visul 쪽 정보 patcb를 이용한 pretext-task라 한번 체크해봄
6. Removing the Background by Adding the Background: Towards Background Robust Self-Supervised Video Representation Learning , Skip-Convolutions for Efficient Video Processing
-> 이건 성능 항상 하는데 도움이 될 것 같은? 일종의 테크닉으로 보면 좋아보일 논문임
7. Anomaly Detection in Video via Self-Supervised and Multi-Task Learning , MIST: Multiple INstance Self-Training Framework for Video Anomaly Detection
-> Anomaly Detection 흥미로운 task라고 생각함, 심지어 self-supervised learning , multi-task learning을 다쓴다고?..
해당 proxy가 궁금해서 체크해놓기
8. Self-Supervised Video Representation Learning by Context and Motion Decoupling
-> 이건 최근 video-specific pretext task를 알 수 있을 것 같은 논문임 context랑 motion으로 한다...궁금합니다.
9. GLAVNet: Global-Local Audio-Visual Cues for Fine-Grained Material Recognition
-> visual이랑 audio 를 연관지어 유의미한 정보를 뽑는 논문은 다 체크해보자. 아이디어를 얻을 수도...
10. Positive Sample Propagation Along the Audio-Visual Event Line
-> visual-audio 유의미한 정보 얻는 아이디어 같은데?...읽어보자 꼭
11. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning
12. Can Audio-Visual Integration Strengthen Robustness Under Multimodal Attacks
9~12가 video랑 audio 연관 지은 내용인데 이거 다 읽어봐야겠다...2
ICCV 2021
1. Composable Augmentation Encoding for Video Representation Learning
-> contrastive methods for self-supervised learning 적용 한거
2. Contrast and Order Representations for Video Self-Supervised Learning
-> videro 에서는 여러 frame/clips 사이에 temporal dimension 관계의 explore가 중요함, 이를 위한 CORP framework 제안.. 이건 좀 복잡해 보임 내 연구 주제랑은 직접적인 관계는 x
3. Adaptive Focus for Efficient Video Recognition
-> computational efficiency 적인 면에서 좋아보입니다.
4. CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations
-> Multi-modal 접근인데 video랑 text이다. 근데 임베딩 측면에서 관련성이 높은 sample의 set을 정의하는데 잘못된 negative는 샘플에서 제외하는데 이걸 video랑 audio에 할 수는 없을까?
5. Broaden Your Views for Self-Supervised Video Learning, Time-Equivariant Contrastive Video Representation Learning
6. ASCNet: Self-Supervised Video Representation Learning With Appearance-Speed Consistency
-> 일반적인 Self-supervised learning에서 negative pairs의 단점을 언급하면서 이를 positive samples간의 consistency 을 통해 해ㅔ결하는데 appearnace랑 speed를 이용한다. The appearance consistency task aims to maximize the similarity between two clips of the same video with different playback speeds. The speed consistency task aims to maximize the similarity between two clips with the same playback speed but different appearance information
7. ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning
-> 서울대에서 발표한...내가 주제로 하고 있는 관련 없는 visual-audio를 체크해주는 내용인데 일단 데이터셋을 만든다? 이런 식으로 이해했는데 이거 봐야겠음...여태까지 본 것 중에 가장 유사함
8. Self-Supervised Video Representation Learning With Meta-Contrastive Network
-> Meta Learning + Self-supervised learning
9. Temporal Cue Guided Video Highlight Detection With Low-Rank Audio-Visual Fusion
-> 다른 task 즉 Video highlight Detection이긴 한데 Audio-Visual을 같이 쓰는 audio-visual tensor fusion mechanism
that efficiently models the complex association between two modalities.라 체크해 보았음.
기타 & 검색
1. Self-Supervised Learning of Audio-Visual Objects from Video (ECCV 2020)
- Self-supervised learning으로 비디오를 a set of discrete audio-visual object로 변환하는것, 이를 위해 sound sources를 localize and gropu하는데 attnetion하고 시간에 대한 정보를 위해 optical flow를 aggregate하는 모델 사용
2. Move2Hear: Active Audio-Visual Source Separation
-> Audio-Visual separation 하는 논문, 근데 approach로 강화학습을 사용했음
3. VisualVoice: Audio-Visual Speech Separation With Cross-Modal Consistency
-> 전체적으로 Audio-Visual separation이나 두개의 연관성을 이용해 실생활에 적용한 논문들이 좀 있음ex) Navigation, speech, Fashion, Floorplan Reconstruction 등
Base 논문
ACTIVE CONTRASTIVE LEARNING OF AUDIO-VISUAL VIDEO REPRESENTATIONS (ICLR,2021)
ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning (ICCV,2021)
Enhancing audio-visual association with self-supervised curriculum learning (AAAI,2021)
'Study > 개인 연구' 카테고리의 다른 글
audio-visual 파악 (0) 2022.07.29 논문 정리 (0) 2022.06.08 Distilling Audio-Visual Knowledge by Compositional Contrastive Learning (0) 2022.06.07 DataSet (0) 2022.05.26