-
SVD: A Large-Scale Short Video Dataset for Near-Duplicate Video Retrieval논문 Review/Video Retrieval 2021. 12. 5. 14:31
연구실에서 Video Retrieval 과제를 시작해서 관련된 논문을 읽으면서 정리를 해보려고 한다.
이 글은 순수히 내가 공부하고 이해한 내용을 정리 하기 위한 글이므로 틀린 내용이 있을 수도 있습니다...
과제에서 Dataset을 SVD을 쓰기 때문에 이 논문을 먼저 보고 그 다음은 이제
DnS: Distill-and-Select for Efficient and Accurate Video Indexing and Retrieval 논문을 보려고 한다.
1. Introduction
지난 수십년에 걸쳐, 우리는 비디오 데이터의 YouTube1, Instagram2, TikTok 같은 비디오 공유 웹 사이트의 다양한 자산의 폭발적인 성장세를 구가하고 있다. 논문에서는 large-scale short video에 대해서 설명합니다.
NDVR(near-duplicate viedo retrieval)은 대규모 비디오 데이터베이스에서 거의 중복된 비디오를 검색하는 것을 목표로 하며, 여기서 거의 중복된 비디오는 원래 비디오에 시각적으로 가까운 비디오로 정의됩니다.
예를 들어 user는 detection을 bypass하기 위해 video를 수정할 수 있고 이러한 수정사항에는 caption insertion, border insertion등이 있습니다.
기존 NDVR 방식은 video-level methods and frame-level methods으로 나눌 수 있다.
video-level method : layer-wise convolutional neural network, vector-wise convolutional neural networks, deep metric learning 은 각각의 video를 global feature로 나타냈습니다.
Frame-level method : spatio-temporal post-filtering, circulant temporal encoding, temporal matching k-ernel 은 비디오의 각 프레임에 대해 기능을 추출합니다.
그 동안 NDVR은 이러한 연구와 함께 데이터셋을 long viedo with average duration longer than 60 seconds) 사용했습니다. 최근에 60초 보다 작은 길이의 short video가 social media platform에서 인기가 많아졌습니다.
short video로 detect-ing near-duplicate를 하는건 difficutie와 challenge가 나타났습니다.
- 대부분의 긴 비디오는 카메라를 가진 전문 사진작가가 생성하는 반면, 짧은 비디오는 모바일 기기를 가진 아마추어가 생성합니다. -> 따라서 short video 는 수평/수직 화면 비디오 및 카메라 흔들림 비디오와 같은 일부 새로운 유형의 near-duplicate을 포함할 수 있습니다.
- 짧은 비디오를 편집하는 비용이 저렴하기 때문에 사용자는 짧은 비디오를 편집하는 것을 선호할 수 있습니다. -> 따라서 near-duplicate short video가 long video보다 많습니다.
그래서 이 논문에서는 NDVR을 위한 새로운 large-scale short video dataset (SVD)을 소개합니다.
- The introduced SVD dataset contains over 500,000 short videos and over 30,000 labeled videos for NDVR task.
- With hard labeled positive/negative videos mined by multiple strategies, SVD dataset is challenging for NDVR. Furthermore, we design some temporal and spatial transformations to mimic user behavior in real applications and construct more difficult and challenging variants of SVD.
- We perform two categories of retrieval to evaluate the performance of existing state-of-the-art NDVR methods on SVD dataset, i.e., real-value based retrieval and hashing based retrieval. Experiments demonstrate that these NDVR methods cannot achieve satisfactory retrieval performance on SVD dataset.
2. Related Work
NDVR task에 사용되는 dataset(CCWEB [32], UQ VIDEO [29], VCDB [9], MUSCLE VCD [14], and TRECVID [22] datasets.)을 소개합니다.
CCWEB dataset
- 24 Query videos , 12,790 labeled videos
- The returned videos contain 27% redundant videos
- over half of the queries are about dancing and singing, which is lack of diversity.
UQ_VIDEO dataset
- UQ VIDEO is an extended dataset of CCWEB.
- The videos in background distraction set are usually treated as negative, but the labels are not verified by humans.
- for all background distraction videos, this dataset only provides HSV features and LBP features of all key frames, and the original videos are not publically available.
VCDB dataset
- VCDB utilizes the same 528 videos to construct both query set and labeled set.
- provide 100,000 background distraction videos. 100,528 in videos in total.
- VCDB dataset is originally proposed for copyright detection task, and only provides 9,236 copied segment labels.
- filter redundant copied segment pairwise labels and get 6,139 video-level pairwise labels for NDVR task.(NDVR은 video-level pair-wise label이 필요하기 떄문에)
MUSCLE_VCD dataset
- 18 videos to construct query set.
- utilize query videos to generate 101 videos as labeled set based on some predefined transformations.
TRECVID dataset
- utilizes 11,256 query videos to construct query set.
- use query videos to generate 11,503 videos as labeled set based on some predefined transformations.
이러한 dataset들은 long video dataset이고 다른 shortcomings을 가진다고 말합니다.
또한 어떤 데이터셋은 not publicy available하다고 말하고 samll-scale을 가지며 labeled video가 authors에 의해 많들어졌기 때문에 real video platform에서 user들의 video와 비교를 하기도 합니다.
VCDB dataset은 positive pairwise label만 존재합니다.(NDVR task는 pair-wise label이 필요)
Table 1로부터 저자들은 기존의 NDVR dataset이 60초 보다 average duration이 긴 video라는 걸 찾을 수 있다고 말합니다.
3.SVD: A Large-Scale Short Video Dataset
이 파트에서는 저자들이 SVD를 구성하기 위한 data coolection strate-gies를 얘기합니다.
SVD dataset의 모든 video들은 large video website인 Douyin에서 가져온 것이고 video format은 mp4입니다.
(Douyin을 찾아보니 tiktok이네요...역시 China 논문...)
SVD dataset은 3개의 subset으로 divided 되어 있는데 Query set, labeled set, the probable negative unlabled set입니다. query set으로 1206 video를 collect합니다. 기존의 dataset은 candidate-data video를 randomly crawled 하는 반면 SVD는 multiple strategies를 사용 해서 crawled합니다. 그래서 candidate video를 hard positive/negative candidate video라고 부릅니다. human annotation, we collect 34,020 labeled videos to get the labeled set, which includes 10,211/26,927 labeled positive/negative video pairs. pairwise similarity filtering strategy을 사용해 526,787 video( probable negative unlabeled set rather than background distraction set)을 collect 합니다.
filtering strategy을 사용했기 때문에 negative unlabled set이 background distraction set 보다 negative를 다루기 더 적합하다고 합니다. 나머지 부분은 Table1와 Figure1을 통해 다른 dataset와 비교하면서 SVD의 장점을 얘기합니다...
Query Set
'논문 Review > Video Retrieval' 카테고리의 다른 글
Audio-Visual Mismatch-Aware Video Retrievalvia Association and Adjustment (0) 2023.01.06 ViSiL: Fine-grained Spatio-Temporal Video Similarity Learning (0) 2022.03.07 Self-supervised Video Retrieval Transformer Network (0) 2021.12.09