논문 Review/Video Retrieval
-
Audio-Visual Mismatch-Aware Video Retrievalvia Association and Adjustment논문 Review/Video Retrieval 2023. 1. 6. 16:18
짧게 필요한 부분만 정리해보자(타임 어택, 집중) 15:00 ~ 16:30 해당 Problem - 해당 Method video의 각각의 frame을 spatial encoder(CNN) 모델에 넣어서 spatial features를 뽑고 이를 위의 fsp로 표현함 이 feature를 visual context embedder의 input으로 넣는데 일반적인 transformer 형태임 이를 통해 overall spatio-temporal context of visual feature를 encode 할 수 있다고 얘기함 (attention mechanism의 장점임) 여기서 차이점은 multi-head attention의 last part 부분이 not feed-forward라고 하는데 이는 multi-h..
-
ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning논문 Review/Video Retrieval 2022. 3. 7. 12:55
오늘 리뷰 할 논문은 DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval 에 basic이 되는 ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning 입니다. 프로그래밍용어 Fine-Grained 하나의 작업을 작은 단위의 프로세스로 나눈뒤, 다수의 호출을 통해, 작업 결과를 생성해내는 방식 Flexible System 상에서 유용하게 쓰일 수 있음 Coarse-Grianed 하나의 작업을 큰 다위의 프로세스로 나눈 뒤, Single Call 을 통해, 작업 결과를 생성해내는 방식 Distributed System 상에서 유용하게 쓰일 수 있음 1. Intro..
-
Self-supervised Video Retrieval Transformer Network논문 Review/Video Retrieval 2021. 12. 9. 01:57
Video Retrieval 관련 논문 2번째 입니다. Self-supervised랑 Transformer task에 관심이 많아 이 논문을 보기로 했습니다. 중국회사인 Alibaba 의 DAMO Academy에서 나온 논문이고 링크는 다음과 같습니다. Self-supervised Video Retrieval Transformer Network 1. Introduction 최근에 인터넷을 통해 생성되는 비디오의 양이 증가하는 것을 확인할 수 있고 동시에 다른 사람의 contents를 steal하는 수많은 동영상을 관찰해 비디오 저작권 보호를 만들고 필터링을 중요한 요구로 삼았습니다. Content-based video retrieval은 주어진 query video와 similar한 contest를 공유..
-
SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval논문 Review/Video Retrieval 2021. 12. 5. 14:31
연구실에서 Video Retrieval 과제를 시작해서 관련된 논문을 읽으면서 정리를 해보려고 한다. 이 글은 순수히 내가 공부하고 이해한 내용을 정리 하기 위한 글이므로 틀린 내용이 있을 수도 있습니다... 과제에서 Dataset을 SVD을 쓰기 때문에 이 논문을 먼저 보고 그 다음은 이제 DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval 논문을 보려고 한다. 1. Introduction 지난 수십년에 걸쳐, 우리는 비디오 데이터의 YouTube1, Instagram2, TikTok 같은 비디오 공유 웹 사이트의 다양한 자산의 폭발적인 성장세를 구가하고 있다. 논문에서는 large-scale short vide..