검색
색인
음성 인식, 音聲認識, speech recognition, voice recognition

음성으로부터 언어적 의미 내용을 식별하는 것.


구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이다. 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류한다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다. 인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술을 연구하는 개발이 오랫동안 진행되었다. 대규모 집적 회로(LSI)가 발달하면서 대형 장치를 필요로 하였던 음성 인식 장치와 음성 합성 장치를 밀리미터 제곱 크기의 집적 회로 위에 실현할 수 있게 되어 음성 입출력 장치를 실용화하였다.

 

현재 전화를 이용한 은행 잔고 조회, 증권 시세 조회, 통신 판매 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용한다. 그러나 이들 서비스는 제한된 수의 단어를 하나하나 떼어서 발음하는 음성을 인식하는 단어 음성 인식 장치를 사용한다. 음성 인식의 궁극적인 목표는 자연스러운 발성으로 말한 음성을 인식하여 실행 명령어로 받아들이거나 자료로 문서에 입력하는 완전한 음성/텍스트 변환(full speech-to-text conversion)의 실현이다. 즉, 단어를 인식할 뿐만 아니라 구문 정보(문법), 의미 정보, 작업과 관련한 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템(speech understanding system)을 개발하는 것이다.