'분류 전체보기' 카테고리의 글 목록

5월 4주차

Study/GeekNews 2024. 5. 23. 17:39

필요한 GeekNews를 읽고 내가 필요한 내용들만 블로그에 다시 정리참고자료 : GeekNewsChatGPT, 데이터 분석 기능 개선링크 : https://openai.com/index/improvements-to-data-analysis-in-chatgpt/ 데이터 파일을 업로드하면 ChatGPT가 사용자를 대신해 Python 코드를 작성하고 실행하여 데이터를 분석대규모 데이터 세트 병합 및 정리, 차트 생성, 인사이트 발견과 같은 다양한 데이터 작업을 알아서 처리구글 드라이브와 OneDrive에서 파일을 직접 업로드테이블과 차트를 볼때 풀스크린 뷰에서 인터랙티브하게 지원특정 영역을 잡아서 추가 질문을 하거나, ChatGPT의 프롬프트 제안에 따라 더 깊은 분석 가능차트를 개인화하고 다운로드 가능막..

Machine-Learning

Study/tech-interview 2024. 2. 19. 13:47

AI-tech-interview를 위한 머신러닝 파트입니다. 전체적인 내용과 질문은 https://github.com/boost-devs/ai-tech-interview/blob/main/answers/2-machine-learning.md 해당 사이트를 참고했습니다. #1 알고 있는 metric에 대해 설명해주세요. (ex. RMSE, MAE 분류를 위한 평가지표 vs 회귀를 위한 평가지표 분류 작업에 적용할 수 있는 평가지표 정확도(accuracy) 정확도는 모델의 예측이 얼마나 정확한지를 의미한다. 예측 결과가 동일한 데이터 개수 / 전체 예측 데이터 개수로 계산 가능, 해당 방법은 그냥 맞춘거/전체 데이터 이렇게 생각하면 될듯...

Audio-Visual Mismatch-Aware Video Retrievalvia Association and Adjustment

논문 Review/Video Retrieval 2023. 1. 6. 16:18

짧게 필요한 부분만 정리해보자(타임 어택, 집중) 15:00 ~ 16:30 해당 Problem - 해당 Method video의 각각의 frame을 spatial encoder(CNN) 모델에 넣어서 spatial features를 뽑고 이를 위의 fsp로 표현함 이 feature를 visual context embedder의 input으로 넣는데 일반적인 transformer 형태임 이를 통해 overall spatio-temporal context of visual feature를 encode 할 수 있다고 얘기함 (attention mechanism의 장점임) 여기서 차이점은 multi-head attention의 last part 부분이 not feed-forward라고 하는데 이는 multi-h..

개인 연구 아이디어 정리

논문 Review/Video Representations learning 2022. 12. 19. 16:16

개인 연구에 적용할 아이디어를 정리하는 글입니다. Temporal Alignment Networks for Long-term Video(CVPR 2022 oral) 다양한 정보를 취합하여 얻은 복합적인 similarity와 개별 정보를 통해 얻은 단순한 similarity의 유사성을 비교하여, 두 similarity가 비슷할 경우 pseudo-label을 믿도록 학습하는 방식 문제가 무엇인지? -> long term video sequences 나 associated text sentences를 가지고 잇는 temporal alignment network임 -> HowTo100M 같이 연관된 text sentences가 상당한 noise가 있거나 relevant할때 약하게 aligned 되어 있는 경우 ..

Spectral Clustering

Study/잡동사니 정리 2022. 8. 12. 11:25

이 방법을 이용해 audio-visual embedding을 바탕으로 correspodence를 찾을 수 있을지 생각해보자. 그래프 기반 군집화 기법이다. 가우시안 커널을 많이 사용하는데 이를 이용해 인접행렬(Adjacency Matrix)을 만든다. 백터로 표현된 하나의 노드를 거리가 멀리 떨어져 있을수록(유사하지 않을수록) 그 가중치는 줄어드는 것이다. 가우시안 커널로 만든 인접행렬은 대칭행렬이다.

audio-visual 파악

Study/개인 연구 2022. 7. 29. 10:32

ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning 내가 하려고 하는 audio-visual correlation 에 대해 논문에서 사용한 경우를 찾고 정리하려고 한다. NCE-based MI Estimation Subset Selection via MI Maximization인데 일단 정확한 MI를 계산하는건 고차원변수의 joint distribution을 estimating 하기 때문에 실현불가능한 문제이므로 approximate를 한다. NCE loss를 기반으로 할 수 있는데 feature를 linear projection 해서 embeddings을 만들고 이 두를 NCE..

논문 정리

Study/개인 연구 2022. 6. 8. 22:34

Base 코드와 유사한 논문들을 간단하게 리뷰하려고 합니다. Contrastive Multiview Coding 인간은 세상을 많은 sensory channels로 봅니다. 각각의 view는 noisy 하고 incomplete 합니다. 하지만 중요한 factor이고 모든 view를 shared하는 경향이 있습니다. 그래서 논문의 저자들은 Multiview contrastive learning이라는 framework 가설을 세우는데 같은 장면의 다른 view사이에 mutual information을 최대화하는 방향으로 represenation을 학습합니다. contrastive loss가 기존의 인기 있었던 cross-view prediction보다 성능이 뛰어나고 view를 더 많이 배울수록 repres..

Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

Study/개인 연구 2022. 6. 7. 13:54

이번에 리뷰할 논문은 독일에 아주 유명한 대학교인 튀빙겐? 대학교 에서 나온 CVPR 2021에 accepted된 Distilling Audio-Visual Knowledge by Compositional Contrastive Learning이다. 1. Introdcution Video는 informative 한 multi-modal cues를 가지고 있습니다. visual obejct나 motion, auditory event등이 이에 해당하고요. 이와 같은 것들이 representation learning을 위한 rich하고 transferrable한 semantices을 제공합니다. 논문에 목표는 video represenations을 위해 spatial 이미지 데이터와 temporal한 오디오 데..

ABOUT ME

SuHyeon Vision & Deep Learning SuHyeon Vision & Deep Learning

티스토리툴바

ABOUT ME

카테고리 전체보기

티스토리툴바