SAM(Segment Anything Model)이란?
어떤 이미지든, 어떤 객체든, 마스크 영역을 자동으로 잘라주는 segmentation 기법
SAM 모델 구조
- Image Input
- Image Encoder(ViT 기반)
=> MAE(Masked Autoencoder)로 pre-training 한 ViT 구조를 사용
3. Prompt Encoder
: 프롬포트는 (sparse, dense) 2가지로 고차원 벡터 임베딩으로 변환하는 역할로 최종 Mask 출력을 유도함.
- Sparse prompt : points, boxes, text로 이미지에서 segment할 대상을 지정할 정보
- Point Prompt : 좌표(x,y)를 클릭함.
- Box Prompt : 바운딩 박스로 관심영역을 지정
- Text Prompt : 텍스트로 “사람”, “나무” 등을 지정하는 입력
- Dense prompt : 이미지와 공간적으로 대응되는 정보
- Image Embedding + Element-Wise로 더해지는것으로
4. Mask Decoder
Image Embedding 과 Prompt Embedding 을 효율적으로 매핑한후 mask를 예측
SAM 중요한 특징
- Prompt : prompt들을 simulation 한 후 모델의 prediction과 GT를 비교하는 것
- Model : prompt + Image를 input으로 받아 실시간으로 mask를 prediction 하는 모델
- Data : Diverse + Large-scale 데이터로 학습시키는 것
'Deep Learning > 논문(Paper)' 카테고리의 다른 글
[Paper Review] : Fast R-CNN (3) | 2025.07.24 |
---|---|
[Paper Review] : Alpha-CLIP (2) | 2025.07.08 |
[Paper Review] : ViT(Vision Transformer) (0) | 2025.07.01 |
[Paper Review] : CLIP(Contrastive Language-Image Pre-training) (0) | 2025.06.27 |
[Paper Reivew] : R-CNN (0) | 2025.03.27 |