개인 연구 아이디어 정리
개인 연구에 적용할 아이디어를 정리하는 글입니다.
Temporal Alignment Networks for Long-term Video(CVPR 2022 oral)
다양한 정보를 취합하여 얻은 복합적인 similarity와 개별 정보를 통해 얻은 단순한 similarity의 유사성을 비교하여, 두 similarity가 비슷할 경우 pseudo-label을 믿도록 학습하는 방식
문제가 무엇인지?
-> long term video sequences 나 associated text sentences를 가지고 잇는 temporal alignment network임
-> HowTo100M 같이 연관된 text sentences가 상당한 noise가 있거나 relevant할때 약하게 aligned 되어 있는 경우
해결방법이 어떻게 되는지?
- alignability score가 의미 있어 보임, frames이랑 given sentences 사이의 similarity matrix도 있음
- Joint Encoder를 사용하는데 video를 이용해 visual feature, textual feature를 extracts하고 concat해서 Multimodal Transformer에 들어가고 이를 linear head classifies를 통해 alignability를 체크하는 거 같음
- alignment matrix가 cosine similarity 인데?..
- dual encoder가 1개 더 있음 그리고 이걸 이용해 co-training을 함 왜 할까?
- noise를 다룬다. training 쪽에서
- pseudo-label은 alignability랑 timestamps을 위해 둘다 생성
- 두개의 alignment matrics를 이용해 timestamps infer 해서 iOU구해서 높은거를 체크 -> Pseudo Labels
체크 해 볼 것
- Multimodal Transformer 코드 구성 (input은 어떻게 되는지)
- 내가 사용하면 이를 visual, audio를 넣어야 될듯
- Filter Alignability 부분에서 pseudo labeling 바탕으로 cross-entropy loss 해서 trained하는 부분이 있는데 이거 코드 구현 체크, hyper-parameter 알파로 positive,negative도 나눔
- training 체크해보자
위의 말 무슨 말인지 이해함 visual,text 두 개를 input으로 받는 multimodal transformer 로 부터 나오는 복합적인 similarity와 visual 만 받는 단순한 transformer 모델 과의 유사성을 비교함(alignment matrix) 인듯? 그리고 이를 co-training 하는듯 각각의 장.단점이 다르니까
contribution이 뭔지?
-> Abstract에 4가지 나와있음
1) 상당한 noise가 있음에도 불구하고 annotation 없이 raw 한 video train하고 denoise하는 novel한 co training methods
2) alignment performance benchmark 제안
내 연구에 어떻게 활용이 가능할까?
FrePGAN: Robust Deepfake Detection Using Frequency-level Perturbations(AAAI 2022)
가상의 perturbation network 구축입니다. 즉, 어떤 특징을 발견했다면 그 특징을 무시하도록 도와주는 perturbation map을 생성하는 네트워크를 학습하고, 이 네트워크와 기존 baseline을 동시에 경쟁적으로 학습시킵니다.
해결하려고 하는 문제가 무엇인가?
GAN 모델마다 Frequency Artifacts가 있는데 생성된 영상의 주파수 레벨 스펙트럼을 평균하여 주파수 레벨 아티팩트를 추출할 수 있습니다. 아티팩트의 외관은 분명하지만 GAN 모델 또는 객체 범주의 유형에 따라 고유하게 다른데 이를 활용함
위에서 말한 특징이 Frequency Artifacts임
해결방법이 어떻게 되는지?
체크 해 볼 것
contribution이 뭔지?
내 연구에 어떻게 활용이 가능할까?