논문 Review/Video Representations learning

개인 연구 아이디어 정리

SooHyun2i 2022. 12. 19. 16:16

개인 연구에 적용할 아이디어를 정리하는 글입니다.

 

Temporal Alignment Networks for Long-term Video(CVPR 2022 oral)

 

다양한 정보를 취합하여 얻은 복합적인 similarity와 개별 정보를 통해 얻은 단순한 similarity의 유사성을 비교하여, 두 similarity가 비슷할 경우 pseudo-label을 믿도록 학습하는 방식

 

 

문제가 무엇인지?
-> long term video sequences 나 associated text sentences를 가지고 잇는 temporal alignment network임
-> HowTo100M 같이 연관된 text sentences가 상당한 noise가 있거나 relevant할때 약하게 aligned 되어 있는 경우


해결방법이 어떻게 되는지?

  • alignability score가 의미 있어 보임, frames이랑 given sentences 사이의 similarity matrix도 있음
  • Joint Encoder를 사용하는데 video를 이용해 visual feature, textual feature를 extracts하고 concat해서 Multimodal Transformer에 들어가고 이를 linear head classifies를 통해 alignability를 체크하는 거 같음
  • alignment matrix가 cosine similarity 인데?..
  • dual encoder가 1개 더 있음 그리고 이걸 이용해 co-training을 함 왜 할까?
  • noise를 다룬다. training 쪽에서
  • pseudo-label은 alignability랑 timestamps을 위해 둘다 생성
  • 두개의 alignment matrics를 이용해 timestamps infer 해서 iOU구해서 높은거를 체크 -> Pseudo Labels

체크 해 볼 것

  • Multimodal Transformer 코드 구성 (input은 어떻게 되는지)
  • 내가 사용하면 이를 visual, audio를 넣어야 될듯
  • Filter Alignability 부분에서 pseudo labeling 바탕으로 cross-entropy loss 해서 trained하는 부분이 있는데 이거 코드 구현 체크, hyper-parameter 알파로 positive,negative도 나눔
  • training 체크해보자

위의 말 무슨 말인지 이해함 visual,text 두 개를 input으로 받는 multimodal transformer 로 부터 나오는 복합적인 similarity와 visual 만 받는 단순한 transformer 모델 과의 유사성을 비교함(alignment matrix) 인듯? 그리고 이를 co-training 하는듯 각각의 장.단점이 다르니까

 

contribution이 뭔지?

-> Abstract에 4가지 나와있음


1) 상당한 noise가 있음에도 불구하고 annotation 없이 raw 한 video train하고 denoise하는 novel한 co training methods
2) alignment performance benchmark 제안

 

내 연구에 어떻게 활용이 가능할까?

 

 


FrePGAN: Robust Deepfake Detection Using Frequency-level Perturbations(AAAI 2022)

 

가상의 perturbation network 구축입니다. 즉, 어떤 특징을 발견했다면 그 특징을 무시하도록 도와주는 perturbation map을 생성하는 네트워크를 학습하고, 이 네트워크와 기존 baseline을 동시에 경쟁적으로 학습시킵니다.

 

해결하려고 하는 문제가 무엇인가?

GAN 모델마다 Frequency Artifacts가 있는데 생성된 영상의 주파수 레벨 스펙트럼을 평균하여 주파수 레벨 아티팩트를 추출할 수 있습니다. 아티팩트의 외관은 분명하지만 GAN 모델 또는 객체 범주의 유형에 따라 고유하게 다른데 이를 활용함 

 

위에서 말한 특징이 Frequency Artifacts임

 

해결방법이 어떻게 되는지?

 

체크 해 볼 것

 

contribution이 뭔지?

 

내 연구에 어떻게 활용이 가능할까?

 


 

만약 Changable Sample의 특징에 기반하여 특정 Augmentation에 강인하다면, 입력되는 하나의 sample에 해당 augmentation을 다양하게 적용했을 때 prediction이 안정적으로 출력될 겁니다.

 

혹은 반대로 특정 augmentation에 취약하다면 반대로 생각하면 될거구요.

 

이렇게 sample을 선택하는 방법입니다.