개인 연구 아이디어 정리

논문 Review/Video Representations learning

개인 연구 아이디어 정리

SooHyun2i 2022. 12. 19. 16:16

개인 연구에 적용할 아이디어를 정리하는 글입니다.

Temporal Alignment Networks for Long-term Video(CVPR 2022 oral)

다양한 정보를 취합하여 얻은 복합적인 similarity와 개별 정보를 통해 얻은 단순한 similarity의 유사성을 비교하여, 두 similarity가 비슷할 경우 pseudo-label을 믿도록 학습하는 방식

문제가 무엇인지?
-> long term video sequences 나 associated text sentences를 가지고 잇는 temporal alignment network임
-> HowTo100M 같이 연관된 text sentences가 상당한 noise가 있거나 relevant할때 약하게 aligned 되어 있는 경우

해결방법이 어떻게 되는지?

alignability score가 의미 있어 보임, frames이랑 given sentences 사이의 similarity matrix도 있음
Joint Encoder를 사용하는데 video를 이용해 visual feature, textual feature를 extracts하고 concat해서 Multimodal Transformer에 들어가고 이를 linear head classifies를 통해 alignability를 체크하는 거 같음
alignment matrix가 cosine similarity 인데?..
dual encoder가 1개 더 있음 그리고 이걸 이용해 co-training을 함 왜 할까?
noise를 다룬다. training 쪽에서
pseudo-label은 alignability랑 timestamps을 위해 둘다 생성
두개의 alignment matrics를 이용해 timestamps infer 해서 iOU구해서 높은거를 체크 -> Pseudo Labels

체크 해 볼 것

Multimodal Transformer 코드 구성 (input은 어떻게 되는지)
내가 사용하면 이를 visual, audio를 넣어야 될듯
Filter Alignability 부분에서 pseudo labeling 바탕으로 cross-entropy loss 해서 trained하는 부분이 있는데 이거 코드 구현 체크, hyper-parameter 알파로 positive,negative도 나눔
training 체크해보자

위의 말 무슨 말인지 이해함 visual,text 두 개를 input으로 받는 multimodal transformer 로 부터 나오는 복합적인 similarity와 visual 만 받는 단순한 transformer 모델 과의 유사성을 비교함(alignment matrix) 인듯? 그리고 이를 co-training 하는듯 각각의 장.단점이 다르니까

contribution이 뭔지?

-> Abstract에 4가지 나와있음

1) 상당한 noise가 있음에도 불구하고 annotation 없이 raw 한 video train하고 denoise하는 novel한 co training methods
2) alignment performance benchmark 제안

내 연구에 어떻게 활용이 가능할까?

FrePGAN: Robust Deepfake Detection Using Frequency-level Perturbations(AAAI 2022)

가상의 perturbation network 구축입니다. 즉, 어떤 특징을 발견했다면 그 특징을 무시하도록 도와주는 perturbation map을 생성하는 네트워크를 학습하고, 이 네트워크와 기존 baseline을 동시에 경쟁적으로 학습시킵니다.

해결하려고 하는 문제가 무엇인가?

GAN 모델마다 Frequency Artifacts가 있는데 생성된 영상의 주파수 레벨 스펙트럼을 평균하여 주파수 레벨 아티팩트를 추출할 수 있습니다. 아티팩트의 외관은 분명하지만 GAN 모델 또는 객체 범주의 유형에 따라 고유하게 다른데 이를 활용함

위에서 말한 특징이 Frequency Artifacts임

해결방법이 어떻게 되는지?

체크 해 볼 것

contribution이 뭔지?

내 연구에 어떻게 활용이 가능할까?

만약 Changable Sample의 특징에 기반하여 특정 Augmentation에 강인하다면, 입력되는 하나의 sample에 해당 augmentation을 다양하게 적용했을 때 prediction이 안정적으로 출력될 겁니다.

혹은 반대로 특정 augmentation에 취약하다면 반대로 생각하면 될거구요.

이렇게 sample을 선택하는 방법입니다.

저작자표시 변경금지 (새창열림)