작성일 : 18-10-04 22:10
이건재·유창동 KAIST 교수 "인공지능 비서 등에 활용", "말하는 사람 구분"···유연 압전 음성센서 개발
 글쓴이 : happy
조회 : 14  

"말하는 사람 구분"···유연 압전 음성센서 개발

이건재·유창동 KAIST 교수 "인공지능 비서 등에 활용"

박성민 기자 sungmin8497@hellodd.com

입력 : 2018.10.04|수정 : 2018.10.04

인간의 달팽이관을 모사한 유연 압전 음성 센서 구조. 달팽이관 내부 기저막의 너비에 따라 공진 주파수가 달라지는 원리를 응용한 다채널의 구조와 유연 압전 물질을 통해 높은 민감도를 가지며 많은 양의 음성 정보를 감지할 수 있다.<사진=KAIST 제공 >

인간의 달팽이관을 모사한 유연 압전 음성 센서 구조. 달팽이관 내부 기저막의 너비에 따라 공진 주파수가 달라지는 원리를 응용한 다채널의 구조와 유연 압전 물질을 통해 높은 민감도를 가지며 많은 양의 음성 정보를 감지할 수 있다.<사진=KAIST 제공>


국내 연구팀이 말하는 사람을 구분하는 유연 압전 음성센서를 개발했다.
 
KAIST(총장 신성철)이건재 신소재공학과 교수와 유창동 전기및전자공학부 교수 공동 연구팀인공지능 기반의 화자(話者) 인식용 유연 압전 음성센서를 개발했다고 4일 밝혔다.

음성센서는 인간과 기계 사이의 자유로운 소통을 가능하게 만드는 핵심 기술이다. 전문가들은 음성센서 시장이 2021년까지 대략 160억 달러 규모로 커질 것으로 예상한다.

하지만 현재 산업계에서는 음성 신호 수신 시 정전용량을 측정하는 콘덴서 형식을 사용하기 때문에 민감도가 낮고 인식 거리가 짧아 화자 인식률에 한계가 있다.

연구팀은 인간의 달팽이관을 모사해 주파수에 따라 다른 영역이 진동하는 사다리꼴의 얇은 막을 제작했다. 음성신호에 따른 공진형 진동을 유연 압전 물질을 통해 감지하는 자가발전 고민감 음성센서를 개발했다.

연구팀의 음성센서는 기존 기술 대비 2배 이상 높은 민감도를 가져 미세한 음성 신호를 원거리에서도 감지할 수 있다. 또 다채널로 신호를 받아들여 하나의 언어에 대해 복수 개의 데이터를 얻을 수 있다.

이 기술을 기반으로 누가 이야기하는지 찾아내는 화자 인식 시스템에 적용해 97.5%의 화자 인식 성공률을 무향실에서 달성했고 기존 기술 대비 오류를 75% 이상 줄였다.


화자 인식 서비스는 음성 분야에 세상을 바꿀 기술로 기대를 받고 있다. 기존 기술은 소프트웨어 업그레이드를 통한 접근으로 인식률에 한계가 있었지만 연구팀의 기술은 하드웨어 센서를 개발함으로써 능력을 크게 향상시켰다.

이건재 교수"이번에 개발한 머신러닝 기반 고민감 유연 압전 음성센서는 화자를 정확하게 구별할 수 있기 때문에 개인별 음성 서비스를 스마트 가전이나 인공지능 비서에 접목할 수 있을 것"이라며 "생체 인증과 핀테크와 같은 보안 분야에서도 큰 역할을 할 수 있다"고 말했다.

한편, 이번 연구 결과는 국제 학술지 '나노 에너지(Nano Energy)' 9월호에 '민감도'와 '화자 인식' 논문 두 편으로 동시 게재됐다.


AI 음성인식 센서 "누구 목소리인지 구별한다"

2018년 10월 04일 18:07
 

국내 연구진이 사람의 목소리를 구별하는 고성능 음성인식 센서를 개발했다. 최근 인기를 얻고 있는 음성인식 시스템 성능을 한층 끌어올릴 것으로 기대를 모은다. 

 

KAIST 신소재공학과 이건재 교수와 전기및전자공학부 유창동 교수 연구진은 목소리로 사람을 구별하는 인공지능(AI) 기반 유연 압전 음성센서’를 개발했다고 4일 밝혔다.

 

말로 전자기기를 조작하거나 인터넷 검색하는 음성 인식 시스템은 사람마다 다른 목소리 특성에 영향을 받아 오작동하는 사례가 많다. 

 

연구진은 인간의 달팽이관을 모사해 다양한 주파수를 구별하는 사다리꼴 형태의 얇은 인공 고막을 제작했다. 이 인공 고막에 진동을 전압으로 바꾸는 ‘압전 물질’을 연결해 목소리를 인식하는 센서를 개발했다. 

 

이 음성 센서는 기존 기술보다 민감도가 2배 이상 높아 미세한 음성 신호를 먼 거리에서도 감지한다. 사람의 목소리에 섞인 다양한 파장을 종합적으로 인식하기 때문에 단어를 인식해 명령을 수행하는 기존 음성 인식 방법과 달리 목소리를 구별한다. 연구진은 이 기술을 기반으로 ‘누가 이야기를 했는지’를 찾아내는 화자(話者) 인식 시스템에 적용한 결과, 97.5%의 화자인식 성공률을 보였다. 기존 기술보다 오류를 75% 가량 줄였다. 

 

연구진은 지금보다 인식률을 한층 더 높일 수 있을 것으로 기대하고 있다. 기업체와 논의를 통해 실용화를 준비하고 있다. 이 교수는 “말하는 사람을 정확하게 구별할 수 있기 때문에 개인별 음성 서비스를 스마트 가전이나 인공지능 비서에 접목할 수 있을 것”이라며 “생체 인증 및 핀테크와 같은 보안 분야에서도 사용할 수 있다”고 말했다.

 

이번 연구 성과는 국제 학술지 ‘나노 에너지(Nano Energy)’ 9월호에 게재됐다.

  • 전승민 기자 enhanced@donga.com