subvisual


컴퓨터공학과 구명완 교수 연구팀,

국제 최대 규모의 신호처리 학술대회 ‘ICASSP 2024’에 논문 채택


▲ 컴퓨터공학과 구명완 교수인공지능학과 이지현 석사과정생최예린 석사과정생

 

구명완 컴퓨터공학과 교수가 지도하는 지능형음성대화인터페이스 연구팀(ISDS)이 ‘2024 국제 음향 음성 신호처리 학술대회(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024)’에 발표한 논문이 최종 채택되었다.

 

대학원 인공지능학과 이지현·최예린석사과정생(석사 4학기공동 1저자)과 송태진 이화여대 의과대학 교수구명완 교수(교신저자)는 뇌졸중 후 마비말 장애 환자의 발화 음성에서 부적절한 쉼을 탐지하는 딥러닝 기반 음성인식 기술을 ICASSP 2024에 발표한다고 밝혔다(논문 제목: ‘Inappropriate Pause Detection in Dysarthric Speech Using Large-Scale Speech Recognition’)

 

▲ 연구팀이 논문에서 제안한 부적절 쉼 탐지 모델 구조

 

마비말 장애는 뇌졸중과 같은 신경계의 병변으로 인해 발생하는 운동성 언어장애를 통칭하는 표현이다뇌졸중 환자의 약 50%가 마비말 장애를 겪는다고 알려져 있다.

 

연구팀은 마비말 장애 환자의 대표 증상인 부적절한 쉼이 환자 발화의 어느 지점에서 나타나는지 판별하는 음성인식 기반 부적절한 쉼 탐지 모델을 개발했다부적절한 쉼은 문장을 따라 읽는 등 긴 문장을 발화할 때 보통 정상인들이 호흡하는 곳과 다른 곳에서 호흡하는 증상이다발화 음성에서 부적절한 쉼이 나타나는 정도를 토대로 마비말 장애 여부 및 정도를 판별할 수 있다.

 

연구팀은 부적절한 쉼 탐지 모델을 훈련하기 위한 데이터 레이블링 방법론도 제안했다환자가 소리 내어 읽어야 하는 문장 텍스트에 적절한 쉼이 나타난 부분과 부적절한 쉼이 나타난 부분을 별도 정의한 토큰(인공지능 모델이 단어를 인식하는 단위)으로 표기하는 방식이다연구팀은 이렇게 쉼 토큰을 추가한 텍스트를 정답 값으로 하여 전체 모델을 훈련하는 방법도 보였다대규모 음성인식 모델이 환자의 음성 내에서 끊어 읽은 부분을 쉼 토큰으로 예측하도록 한 뒤예측된 쉼 토큰이 부적절한지를 판별하도록 모델을 훈련했다.

 

이번 연구에 참여한 석사과정생들은 모두 인공지능학과 1기이자 스마일게이트가 후원하는 DHE(Digital Human Entertainment) 장학생이다이들은 석사 마지막 학기에 뜻깊은 성과를 이루어서 행복하다라며 지식을 쌓고 새로운 연구를 통해 사회에 기여하는데 노력하고 싶다라고 소감을 밝혔다.

 

구 교수는 앞으로도 지속적인 연구 활동으로 음성 및 언어 처리 분야에서 효과적인 방법론을 개발하도록 지도하겠다라고 말했다.

 

한편 ICASSP는 100여 개국 2만여 명의 회원이 가입되어 있는 음성신호처리 분야 세계 최대 규모 학회이다주관인 미국 전기전자협회(IEEE) 소속 학회 중에서도 규모가 크고 오래된 학회로 알려져 있다오는 2024년에 열리는 ICASSP 2024는 4월 14~19일 서울 강남구 코엑스에서 개최된다.



첨부파일