subvisual

퓨터공학과 낭종호 교수 연구팀,

한국정보과학회(KSC) 2023 우수발표논문상 수상


▲ (위 왼쪽부터컴퓨터공학과 낭종호 교수, 대학원 인공지능학과 DHE 트랙 이정 석사과정생

(아래 왼쪽부터컴퓨터공학과 최영 석사과정생송진하 박사과정생

 

컴퓨터공학과 낭종호 교수 연구팀(대학원 인공지능학과 DHE 트랙 이정 석사과정생컴퓨터공학과 최영 석사과정생송진하 박사과정생)이 한국정보과학회(이하 KSC) 2023 우수발표논문상을 수상하였다.

 

최근 Stable Diffusion을 필두로 한 딥러닝 기반의 이미지 생성 모델이 큰 주목을 받고 있다사용자 상호작용은 이러한 생성 모델에서 생성된 결과의 품질과 모델의 사용성을 결정하는 핵심 요소이다그러나 현행 연구들은 이미지를 다양한 방식으로 생성하는 것에만 중점을 두고 있어 여러가지 문제점이 발생하였다첫째많은 사용자들은 원하는 결과를 얻기 위해 적절한 어휘로 프롬프트(prompt)를 작성하는 데 어려움을 느낀다둘째대부분의 모델들은 주어진 입력에 대해 단일 결과만을 제공하는 경향이 있다셋째모델들은 사용자의 피드백을 효과적으로 반영하는 데에 한계가 있다.

 

연구팀은 이러한 문제들을 개선하기 위해 사용자의 입력 프롬프트를 의미론적으로 연관된 다양한 프롬프트로 확장하여 다양한 이미지를 생성한 뒤사용자의 피드백을 반영하는 새로운 방법을 제안한다시소러스(Thesaurus) 기반 테스트 단계 증강(Test Time Augmentation, TTA) 기법을 도입하여 프롬프트의 구조를 파악하고지정한 품사의 단어에 대한 유의어를 이용하여 프롬프트를 다양하게 변형함으로써다양한 시각에서의 출력을 생성하게 된다이를 통해 사용자에게 더 넓은 선택의 폭을 제공한다또한 입력 프롬프트에 변형을 가하는 단계마다 사용자에게 선호하는 이미지를 선택하도록 요청한 뒤사용자가 선택한 이미지들의 프롬프트에서 변경되었던 유의어를 이용함으로써 사용자 피드백을 효과적으로 반영할 수 있었다.


▲ 논문의 모델 구조도

 

Stable Diffusion 모델을 이용한 실험에서 연구팀의 접근 방식은 사용자의 의도와 모델의 출력 사이의 간극을 줄이는 데 큰 도움을 준다는 것을 확인하였다정성적인 분석을 통해 사용자의 피드백 반영과 증강된 프롬프트(augmented prompt)가 어떻게 이미지 생성에 영향을 주는지 확인하였으며입력 프롬프트와 증강된 프롬프트 간의 BERT Score를 이용한 정량적인 평가를 통해 입력 프롬프트의 의미는 유지하면서 다양한 출력을 생성할 수 있다는 것을 확인할 수 있었다.


▲ 논문이 제안하는 방법의 진행 시나리오 예시

 


▲ 논문이 제안하는 방법에 대한 정성적정량적 평가

 

연구팀은 이미지 생성 모델을 연구하던 도중실제 서비스 측면에서 일반 사용자의 접근성이 떨어진다는 점에 착안하여 본 논문을 작성하게 되었다사용자의 의도에서 벗어나지 않는 범위에서 다양한 출력을 생성할 수 있는 우리의 방법을 통해 생성 모델의 사용성 향상을 기대한다라며 본 연구의 실험에서는 Stable Diffusion 모델을 이용하였지만우리의 방법은 모든 텍스트-이미지 생성 모델(text to image generative model)에 적용 가능하다향후에는 다양한 텍스트-이미지 생성 모델에 우리의 방법을 적용함과 동시에 부정 프롬프트(negative prompt)의 도입을 통해 사용자 피드백을 강화하고자 한다라고 전했다.

 

한편 KSC 2023 프로그램위원회는 지난 2월 2(우수발표논문상 입상자 명단을 발표하였으며본교에서는 낭종호 교수 연구팀을 비롯해 총 3팀의 논문이 수상하였다.

 

 

▶ 논문 제목: Thesaurus와 TTA를 이용한 Stable Diffusion 사용자 프롬프트의 의미론적 확장 및 생성 방법

첨부파일