Deep Learning 15

[Paper Review] : Alpha-CLIP

1. OverviewCLIP 모델에 사용자 관심 영역에 집중할 수 있는 능력을 부여한 연구기존 CLIP의 이미지 RGB input과 병렬적으로, 집중 영역을 나타내는 Alpha channel을 입력할 수 있는 Alpha-CLIP을 제안데이터 생성 pipeline을 고안했고, 기존 CLIP의 능력을 보존하면서 “Region focus 능력”을 부여함.2. Introduction이미지 전체의 content에 대한 포착 능력을 갖도록 학습되기 때문에 특정 영역에 집중할 수 없음. (유사도 부분만 측정)특정 영역에 집중할수 있도록 만드는 방법들은 존재하지만 각자의 한계들이 존재함이미지의 전체적인 context를 생략하게 되는 한계들이 존재함.⇒ 이를 해결 하기 위해 Region focusing 방법을 제안함.R..

[Paper Review] : SAM(Segment Anything Model)

SAM(Segment Anything Model)이란?어떤 이미지든, 어떤 객체든, 마스크 영역을 자동으로 잘라주는 segmentation 기법SAM 모델 구조Image InputImage Encoder(ViT 기반) => MAE(Masked Autoencoder)로 pre-training 한 ViT 구조를 사용3. Prompt Encoder : 프롬포트는 (sparse, dense) 2가지로 고차원 벡터 임베딩으로 변환하는 역할로 최종 Mask 출력을 유도함.Sparse prompt : points, boxes, text로 이미지에서 segment할 대상을 지정할 정보Point Prompt : 좌표(x,y)를 클릭함.Box Prompt : 바운딩 박스로 관심영역을 지정Text Prompt :..

[Paper Review] : ViT(Vision Transformer)

ViT(Vision Transformer) ?ViT는 Vision Transformer의 약자로, 이미지 데이터를 처리하기 위해 CNN 대신 Transformer 구조를 적용한 모델입니다. 이미지를 일정한 크기의 패치로 나눈 뒤, 각 패치를 단어처럼 인코딩해서 Transformer로 처리하고, 맨 앞의 [CLS] 토큰을 통해 전체 이미지를 분류하는 방식입니다.”Paper : Attend and Tell: Neural Image Caption Generation With Visual Attention 20151. Patch Embedding이미지를 16x16 같은 Patch로 자른다음에 Flatten 하여 선형 변화하여 벡터로 만든다.⇒ 벡터로 만들때 위치를 기억하기 위해서 Positional Embedd..

[Paper Review] : CLIP(Contrastive Language-Image Pre-training)

2021년에 발표된 CLIP(Contrastive Language–Image Pre‑training) 논문, "Learning Transferable Visual Models From Natural Language Supervision"는 이미지와 텍스트 캡션을 동일한 임베딩 공간에 매핑하여 대조 학습(contrastive learning)을 수행함으로써, 다양한 시각 인식 태스크에서 뛰어난 제로샷 성능을 보여준 연구입니다. 이번 글에서는 CLIP의 핵심 아이디어, 아키텍처, 학습 방식, 그리고 주요 실험 결과를 정리해 보겠습니다.1. 핵심 아이디어대조 학습(Contrastive Pre-training): 이미지-텍스트 쌍(예: 사진과 그에 대한 설명)을 이용해, 올바른 쌍은 임베딩 공간에서 가까워지도..

Attention이란?

Attention MechanismAttention을 통해서 현재 출력 대상에 대해 모든 Encoder의 Hidden state를 고려할 수 있음Attention이란?입력의 모든 부분을 동일한 비중으로 처리하는 것이 아니라, 특정 단어나 문맥에 따라 더 중요한 부분에 가중치를 부여하는 방식• Sequence 모델링에서 필수적인 요소• Input이나, Ouput Sequence에 관계없이, Dependencies(종속성)을 학습할 수 있음Self-Attention이란?Self-Attention은 문장 내에서 단어들이 서로 어떤 관계를 가지는지를 학습하는 메커니즘으로 Self-Attention은 하나의 입력 시퀀스 내에서 단어 간의 관계를 학습합✅ Query(Q): 질문 역할( 입력 )✅ Key(K): 데이..

SVM(Support Vetor Machine) 이란 ??

SVM(Supprt Vector Machine) ?N차원 공간에서 각 클래스 간의 거리를 최대화하는 최적의 선 또는 초평면을 찾아 데이터를 분류하는 지도형 머신 러닝 알고리즘마진 : 클래스들 사이의 간격 ( 각 클래스의 말단에 위치한 데이터들 사이의 거리를 의미)Support vector: 마진에서 가장 가까이 위치해 있는 각 클래스의 데이터장점과적합을 피할 수 있음분류 성능이 좋음저차원, 고차원 공간의 적은 데이터에 대해서 일반화 능력이 우수함잡음에 강함단점커널함수 선택이 명확하지 않음데이터 특성의 스케일링에 민감함커널 함수 ??배경 : SVM은 기본적으로 선형분류 기법이지만 선형 분류가 되지 않은 경우, 해결하기 위해 “커널 함수를 통해 저차원의 데이터를 고차원으로 매핑”하여 선형분류를 가능하게 한다..

MMDetection 이란 ??

MMDetection 이란 ??PyTorch 기반의 오픈소스 객체 탐지 도구이다.1 stage 모델의 경우 Backbone, Neck, DenseHead 모듈로 이루어져 있다.2 stage 모델의 경우 1 stage 모듈에서 추가로 RolHead 모듈 추가로 이루어져 있다. 주요 특징 ◾ Backbone - 입력 이미지를 특징 맵으로 변형시켜 줌 (ex. VGG, ResNet, ResNeXt 등)◾ Neck - Backbone과 Head를 연결. 특징 맵을 정제, 재구성한다. (ex. FPN)◾ DenseHead - 특징 맵의 Dense location을 수행하는 부분이다. (ex. RPN; Region Proposal Network)◾ RoIHead - RoI 특징을 입력으로 받아 box 분류, 좌표 ..

학부 연구생 - R-CNN 논문 리뷰

CNN의 한계점이미지에 따라 달라지는 전면 객체 수 일것즉, 객체 탐지 기술은 2개 이상, N개의 객체를 탐지해 분류할 수 있어야 한다. 그러나 CNN은 더욱 많은 객체를 탐지하는데 한계가 있다.⇒ 첫번째 알고리즘 카테고리는 Region Proposal(영역 제안)을 하는 것이다.이 카테고리에 Faster R-CNN, R_FCN,FRN-FRCN 알고리즘이 포함된다.즉, Two-Stage Method 라고 불리는 알고리즘은 높은 정확도를 제공하지만 Single-Stage Methods 보다는 처리 속도가 느리다.⇒ 두번째 알고리즘 카테고리는 정해진 위치와 정해진 크기의 객체만 찾는 것이다.이 카테고리의 알고리즘은 원본 이미지를 “고정된 사이즈 그리드 영역”으로 나누어 알고리즘은 각 영역에 대한 형태와 크기..

학부 연구생 - Computer Vision의 종류

Computer VisionComputer Vision은 시각적 세계를 해석하고 이해하도록 컴퓨터를 학습시키는 인공 지능 분야종류Image Classification (이미지 분류): 사전에 정의된 클래스 중에 어떤 클래스에 가장 가까운지 분류하는 문제Object Localization (객체 위치 식별): 전체 이미지에서 Main object의 Bounding Box를 찾아내는 문제Object Detection (객체 검출)⇒ Image Classification 와 Object Localization을 동시에 수행함: 이미지나 영상에서 특정 객체를 식별하고 위치를 알아내는 기술Object Tracking (객체 추적): 영상 내에서 특정 객체의 위치를 시간에 따라 추적Image Segmentation..

Paper review : Attention is all you need

🔎 Attention is all you need💡 Transformer의 핵심은 Attention으로 RNN 없이도 가능🔹 이 부분을 읽을 때 집중할 포인트:Transformer가 기존 모델 대비 왜 중요한지Attention을 활용해서 병목현상과 기울기 소실 문제를 어떻게 해결했는지💡Transformer- model ArchitectureNx ⇒ N개가 될수 있다고 함Encoder⇒ UnmaskedThe encoder is composed of a stack of N = 6 identical layers.Decoder⇒ MaskedThe decoder is also composed of a stack of N = 6 identical layers.⚙️ Input Embedding ??⇒ 컴퓨터는..