Deep Learning/논문(Paper) 4

[Paper Review] : Alpha-CLIP

1. OverviewCLIP 모델에 사용자 관심 영역에 집중할 수 있는 능력을 부여한 연구기존 CLIP의 이미지 RGB input과 병렬적으로, 집중 영역을 나타내는 Alpha channel을 입력할 수 있는 Alpha-CLIP을 제안데이터 생성 pipeline을 고안했고, 기존 CLIP의 능력을 보존하면서 “Region focus 능력”을 부여함.2. Introduction이미지 전체의 content에 대한 포착 능력을 갖도록 학습되기 때문에 특정 영역에 집중할 수 없음. (유사도 부분만 측정)특정 영역에 집중할수 있도록 만드는 방법들은 존재하지만 각자의 한계들이 존재함이미지의 전체적인 context를 생략하게 되는 한계들이 존재함.⇒ 이를 해결 하기 위해 Region focusing 방법을 제안함.R..

[Paper Review] : SAM(Segment Anything Model)

SAM(Segment Anything Model)이란?어떤 이미지든, 어떤 객체든, 마스크 영역을 자동으로 잘라주는 segmentation 기법SAM 모델 구조Image InputImage Encoder(ViT 기반) => MAE(Masked Autoencoder)로 pre-training 한 ViT 구조를 사용3. Prompt Encoder : 프롬포트는 (sparse, dense) 2가지로 고차원 벡터 임베딩으로 변환하는 역할로 최종 Mask 출력을 유도함.Sparse prompt : points, boxes, text로 이미지에서 segment할 대상을 지정할 정보Point Prompt : 좌표(x,y)를 클릭함.Box Prompt : 바운딩 박스로 관심영역을 지정Text Prompt :..

[Paper Review] : ViT(Vision Transformer)

ViT(Vision Transformer) ?ViT는 Vision Transformer의 약자로, 이미지 데이터를 처리하기 위해 CNN 대신 Transformer 구조를 적용한 모델입니다. 이미지를 일정한 크기의 패치로 나눈 뒤, 각 패치를 단어처럼 인코딩해서 Transformer로 처리하고, 맨 앞의 [CLS] 토큰을 통해 전체 이미지를 분류하는 방식입니다.”Paper : Attend and Tell: Neural Image Caption Generation With Visual Attention 20151. Patch Embedding이미지를 16x16 같은 Patch로 자른다음에 Flatten 하여 선형 변화하여 벡터로 만든다.⇒ 벡터로 만들때 위치를 기억하기 위해서 Positional Embedd..

[Paper Review] : CLIP(Contrastive Language-Image Pre-training)

2021년에 발표된 CLIP(Contrastive Language–Image Pre‑training) 논문, "Learning Transferable Visual Models From Natural Language Supervision"는 이미지와 텍스트 캡션을 동일한 임베딩 공간에 매핑하여 대조 학습(contrastive learning)을 수행함으로써, 다양한 시각 인식 태스크에서 뛰어난 제로샷 성능을 보여준 연구입니다. 이번 글에서는 CLIP의 핵심 아이디어, 아키텍처, 학습 방식, 그리고 주요 실험 결과를 정리해 보겠습니다.1. 핵심 아이디어대조 학습(Contrastive Pre-training): 이미지-텍스트 쌍(예: 사진과 그에 대한 설명)을 이용해, 올바른 쌍은 임베딩 공간에서 가까워지도..