Deep Learning/논문(Paper)

[Paper Review] : SAM(Segment Anything Model)

nakyung1007 2025. 7. 2. 11:30

SAM(Segment Anything Model)이란?

어떤 이미지든, 어떤 객체든, 마스크 영역을 자동으로 잘라주는 segmentation 기법

SAM 모델 구조

  1. Image Input
  2. Image Encoder(ViT 기반)

      => MAE(Masked Autoencoder)로 pre-training 한 ViT 구조를 사용

3. Prompt Encoder

  : 프롬포트는 (sparse, dense) 2가지로 고차원 벡터 임베딩으로 변환하는 역할로 최종 Mask 출력을 유도함.
  • Sparse prompt : points, boxes, text로 이미지에서 segment할 대상을 지정할 정보
    • Point Prompt : 좌표(x,y)를 클릭함.
    • Box Prompt : 바운딩 박스로 관심영역을 지정
    • Text Prompt : 텍스트로 “사람”, “나무” 등을 지정하는 입력
  • Dense prompt : 이미지와 공간적으로 대응되는 정보
    • Image Embedding + Element-Wise로 더해지는것으로

4. Mask Decoder

Image Embedding 과 Prompt Embedding 을 효율적으로 매핑한후 mask를 예측


SAM 중요한 특징

  • Prompt : prompt들을 simulation 한 후 모델의 prediction과 GT를 비교하는 것
  • Model : prompt + Image를 input으로 받아 실시간으로 mask를 prediction 하는 모델
  • Data : Diverse + Large-scale 데이터로 학습시키는 것