반응형

 

1.모델 관점

- DINO(Differentiable Image Noise Optimisation)에서 업그레이드 된 모델로, 더욱 선명하게 이미지와 텍스트를 만들어 내는 모델

 

2. 특징

2.1 Grounding DINO

DINO의 업그레이드 버전으로 DINO보다 더 사실적으로 이미지와 언어를 생성함

이미지의 특정 부분에 집중하여 이미지를 생성하는 기법

고양이가 앉아있어 라고 말하면, 고양이 부분에 집중하여 이미지를 생성함

 

2.2 DINO(Differentiable Image Noise Optimisation)

DINO(Differentiable Image Noise Optimisation) 이란 이미지와 텍스트 간의 관계를 학습하여 이미지 생성 및 텍스트를 설명할 수 있는 모델임

이미지와 텍스트의 관계를 학습시키기 위해 이미지에 노이즈를 섞어 모델에 넣은 후 나온 텍스트 결과가 노이즈가 섞이지 않은 이미지를 설명하는 텍스트와 일치하도록 학습하는 것

 

2. 특징

2.1 Grounding DINO

DINO의 업그레이드 버전으로 DINO보다 더 사실적으로 이미지와 언어를 생성함

이미지의 특정 부분에 집중하여 이미지를 생성하는 기법

고양이가 앉아있어 라고 말하면, 고양이 부분에 집중하여 이미지를 생성함

 

2.2 DINO(Differentiable Image Noise Optimisation)

DINO(Differentiable Image Noise Optimisation) 이란 이미지와 텍스트 간의 관계를 학습하여 이미지 생성 및 텍스트를 설명할 수 있는 모델임

이미지와 텍스트의 관계를 학습시키기 위해 이미지에 노이즈를 섞어 모델에 넣은 후 나온 텍스트 결과가 노이즈가 섞이지 않은 이미지를 설명하는 텍스트와 일치하도록 학습하는 것

 

 

 

3. 용어 설명

3.1. 대조 손실이란?

이미지의 특징을 학습하는데 사용되는 손실함수.

두 그룹의 이미지의 차이가 최소가 되도록 학습하여 특징 추출 모델을 만들면 이미지 분류, 이미지 생성에 활용 가능함

 

3.2. Feature Fusion 이란 ?

특징 벡터를 결합하는 것으로 Concatenateattention 방법이 존재함

Concatenate는 일렬로 만들어 결합하기 떄문에 특징 벡터를 잘 보존하지 못하지만, Attention 기법은 중요도를 조정하기 때문에 특징 벡터의 보존이 잘 됨

 

3.3. Backbone, Neck, Head?

Backbone : 특징 추출기로, 이미지에서는 주로 CNN이 활용됨

Neck : Fully Connected Layer를 많이 사용하며, Backbone에서 추출한 특징을 재조합

Head : SoftMax와 같은 엑티베이션 함수로 분류할 때 사용됨

 

3.4 Open-Set Object Detector

- 학습된 데이터가 아닌 것도 추론할 수 있는 것

 

3.5 Closed - Set Object Detector

학습된 라벨만 추론할 수 있는 것

 

3.6 Grounded Pre-Training

이미지와 언어의 관계를 학습하는 것으로, 이미지를 주었을 때 설명할 수 있고, 설명하면 이미지를 표현할 수 있음

 

3.7 Stable Diffusion이란?

텍스트 설명을 기반으로 고품질 이미지를 생성하는 모델

이미지 번역, 인페인팅, 아웃페인팅 모두 가능함

Variational Autodncoder(VAE)Diffusion Model을 결합함

 

 

3.8 VAE?

Variational Autodencoder란 데이터를 생성하는것에 주로 사용함

인코더와 디코더로 구성되어 있으며, 데이터를 생성하기 위해 데이터의 특성을 보존하기 위해 인코더를 통해 들어온 데이터를 잠재공간에 보관하고, 잠재공간에서 생성된 데이터는 디코더는 입력데이터와 유사하게 데이터를 생성함

 

3.9 Diffusion Model이란?

2015년에 Google Brain 연구원이 개발함

점진적으로 이미지를 생성하는 딥러닝 모델임

 

 

4. 어휘

- Differentiable : 구별할 수 있는, 미분 가능한

 

 

 

 

논문 의견

Grouding DINO를 접하게 된 이유는 Grounded SAM 때문임

Grounded SAM이란 Grounding DINOSAM을 결합한 것

SAM은 어떠한 것이든 Segmentation을 할 수 있는 것을 의미함

Grounding DINO란 말을 하면 그에 맞게 Boudnding box를 치는 것을 의미함

grounding dino에서 나온 bounding box의 가운데 점을 SAMPrompt로 사용하면 자동 라벨링 기능을 갖는 Grounded SAM이 나오게 됨

(prompt란 어떠한 것을 segmentation할지 결정하기 위해 마우스 클릭을 하는 것이라고 보면 

 

 

참조

[1]. 논문 리뷰, https://ostin.tistory.com/212

[2]. 깃허프, https://github.com/IDEA-Research/GroundingDINO

[3]. 논문, https://arxiv.org/abs/2303.05499

반응형

+ Recent posts