subvisual


전자공학과 박형민 교수 연구팀,

국제 최대 신호처리 학술대회 ‘ICASSP 2024’ 논문 채택


▲ 전자공학과 박형민 교수신의협 박사과정생, 허현준 석사과정생

 

전자공학과 박형민 교수가 지도하는 지능정보처리 연구실 연구팀이 현대자동차 팀과 공동 연구를 진행해 국제 최대 규모의 신호처리 학회인 ‘IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2024’에서 논문을 발표한다.

 

본 연구는 전자공학과 신의협 박사과정생과 허현준 석사과정생(공동 1저자)이 주도하여 진행하였다논문 제목은 ‘NeXt-TDNN: Modernizing Multi-Scale Temporal Convolution Backbone for Speaker Verification’으로음성 기반으로 화자를 인식하고 검증하는 최신 딥러닝 네트워크 구조를 설계하였다.

 

화자 검증(Speaker Verification)은 등록된 화자의 음성을 기준으로 이후에 입력되는 음성이 동일한 화자인지 아닌지를 판단하는 과제이다이를 위해서 딥러닝 네트워크 기술을 통해서 음성으로부터 화자의 정보를 임베딩 벡터의 형태로 추출한다.


▲ 최신 딥러닝 기법을 반영한 NeXt-TDNN 네트워크 구조

 

연구팀은 기존 화자 검증 분야에서 사용되고 있는 시간차 신경망(Time-delayed Neural Network, TDNN) 딥러닝 네트워크의 기술이 최신 딥러닝 기술을 반영하고 있지 못한 점을 고려하여 모델을 디자인하였다특히 다양한 최신 딥러닝 기술에서 필수적으로 쓰이는 트랜스포머의 구조를 반영하여 이를 화자 검증에 맞는 TDNN 네트워크로 재구성하였다.

 

한편 ICASSP는 100여 개국 2만여 명의 회원이 가입되어 있는 음성신호처리 분야 세계 최대 규모 학회이다주관인 미국 전기전자협회(IEEE) 소속 학회 중에서도 규모가 크고 오래된 학회로 알려져 있다오는 2024년에 열리는 ICASSP 2024는 4월 14~19일 서울 강남구 코엑스에서 개최된다.


 

▶ 논문제목: NeXt-TDNN: Modernizing Multi-Scale Temporal Convolution Backbone for Speaker Verification

▶ 저자 정보 신의협(공동 제1저자), 허현준(공동 제1저자), 이란(현대자동차), 천영주(현대자동차), 박형민 교수(교신저자서강대)



첨부파일