음성인식이란 기계가 사람의 발성을 구분하여 인지할 수 있도록 하는 기술이다. 음성인식은 인간과 기계간의 가장 궁극적인 의사소통 수단중 하나이다. -- Fineblue
현황 ¶
현재 음성인식 기술은 공학도들의 노력에도 불구하고, 일반적인 사용자가 원하는 수준까지 오르지 못했다. 따라서, 아래와 같은 사용자의 불만이 터져 나오고 있다.
음성인식은 아직 미비하지만, 충분한 가능성이 존재한다.
몇몇 고질적인 문제점으로 인해 음성인식의 현실의 가치가 상당히 떨어진다고 봅니다만.
- 기존 데이터 이외의 것은 추가로 일일이 입력해야한다. (어쩔 수 없다)
- 인식률이 100%가 아닌 이상 인식을 잘 했나 항상 확인해야한다.
- 만일 비서를 옆에 두고 내가 불러주는 말을 받아 쓴다고 해 보면, 비서가 정확히 썼는지 보거나 비서에게 도로 읽어 줄 것을 요구 해야 한다. 현재 무제한 받아쓰기 프로그램은 그 성능이 미비하여 단지 입력된 음성이 어떤 음성인가 하는 것과 간단한 문법 정도만 판단할 뿐이므로 정확하게 입력되었는지 확인해야 하겠지만, 앞으로 비서와 같이 인공지능이 발전한다면, 문장의 의미와 문법을 포함하여 인식하게 될 것이므로 확인하는 수고가 덜어질 것이라 생각된다.
- 100%가 아니라도 사용할 수 있는 이유는 현재 워드 프로그램에서 쓰이는 문법 수정과 같은 기능도 완전하지는 않지만 충분히 고마운 보조수단으로 사용되고 있기 때문이다.
- 만일 비서를 옆에 두고 내가 불러주는 말을 받아 쓴다고 해 보면, 비서가 정확히 썼는지 보거나 비서에게 도로 읽어 줄 것을 요구 해야 한다. 현재 무제한 받아쓰기 프로그램은 그 성능이 미비하여 단지 입력된 음성이 어떤 음성인가 하는 것과 간단한 문법 정도만 판단할 뿐이므로 정확하게 입력되었는지 확인해야 하겠지만, 앞으로 비서와 같이 인공지능이 발전한다면, 문장의 의미와 문법을 포함하여 인식하게 될 것이므로 확인하는 수고가 덜어질 것이라 생각된다.
- 화자독립/화자종속: 알고리즘의 발전으로 인해 화자에 구애받지 않는 화자독립인식을 구현할 수 있게 되었다.
- 연속어인식/문장인식: 아직까지 사람이 연속적으로 발성하는 문장을 기계가 인식하는데는 많은 제약이 존재한다. 특히, 받아쓰기와 같은 프로그램은 사용자가 어떤 단어를 발음할지 전혀 알 수 없기 때문에 방대한 단어 데이터베이스를 갖추고 있어야 하며 언제 발성이 끝날지 어디까지가 단어의 끝인지 알아내야 한고, 엄청나게 복잡한 문법규칙과 이의 변용에 대한 프로그램이 되어야 하며, 방대한 단어 데이터베이스의 검색이 순식간에 이루어 져야 한다. 아직까지는 완벽한 받아쓰기 프로그램은 나오지 못하고 있는 실정이며, 제한된 분야에서 사용되는 받아쓰기 프로그램은 선진국에서 활발히 연구되고 있다.
국어사전을 이용하는지 궁금하네요 -- AnswerMe
- 잡음문제: 음성입력시에 주변잡음이 섞이면 인식률이 현저히 저하된다. 이러한 이유는 미리 훈련된 데이터는 잡음이 없는 조용한 환경에서 만들어진 데이터이기 때문에 잡음이 섞여 있으면 음성의 특징을 잡음과 구별하지 못하기 때문이다. 현재, 이러한 잡음에 강인하게 인식하는 시스템을 만들기 위해서 여러가지 방법(잡음을 제거 하는방법, 훈련하는 데이터에 잡음을 섞는 방법, 잡음에 인식기를 적응 시키는 방법등)의 연구가 진행되고 있다.
- 단어인식: 단어인식 수준은 상당히 높다. 제한된 범위에서의 단어인식은 90% 이상의 높은 인식률을 나타내고 있다. 이는 불과 수년전의 열악한 인식률에 비해 획기적으로 높아진 인식률이다. 비록 연속적인 문장발음을 인식하지는 못하지만, 간단한 명령의 인식이나 컴퓨터와의 인터페이스, 휴대용 기기의 인터페이스, 웹서핑에서 링크로 이동과 같은 용도로는 충분한 성능이다.
- 웹서핑에서 이미지 링크는 어떻게 하나? - 이미지에 번호를 부여하여 이미지 구석에 작게 표시하여 사용자는 그 번호를 읽어 링크를 실행하는 방식으로 사용되고 있다.
- 휴대용 기기를 쓸 때라면 대부분 활동을 많이 하거나 사람이 붐비는 경우다. 이런 경우에는 잡음 또한 많아서 상당히 인식률이 떨어진다. 그나마 나은건 자동차정도.
- 간단한 명령이라면 저렴한 리모콘도 괜찮지 않을까?
- 웹서핑에서 이미지 링크는 어떻게 하나? - 이미지에 번호를 부여하여 이미지 구석에 작게 표시하여 사용자는 그 번호를 읽어 링크를 실행하는 방식으로 사용되고 있다.
사용기 ¶
- (손) 여전히 마우스와 키보드는 쓴다. 이런 종류의 프로그램은 일반적으로 편의성과 정확성을 높이기 위해 기존 단어 자료와 비교한다. 따라서 신조어는 일일이 타자로 입력해야한다.
- (눈) 잘 인식했나 확인까지 해야한다. 프로그램은 내 몸이 아니다. 따라서 이 녀석이 제대로 인식했는지 안했는지 눈으로 다시 확인해야한다. 키보드의 경우, 자신의 손으로 하는 것이기에 오타의 감이 바로 오지만, 이녀석은 도무지 감을 잡을 수 없다. 항상 눈에 핏발을 세우며 오타가 날지 안날지 조마조마해야한다.
- (정리) 가사일과 텔레비전, 음악은 금물이다. 얼마나 귀하신 몸들인지 잡음하나만 튀어도 다시 입력하라고 한다. 그래서 일반 노트북의 마이크로도 안된다. 본체의 그 미세한 진동때문에 잡음이 생겨서. 결국은 어머니의 설겆이도 그만두게하고, 아버지의 뉴스도 끄게하고, 동생의 영어 발음 공부도 나중에 하라고 하고 데스크탑 PC 앞에서 겨우겨우 해냈다.
- (인내) 학습에만 1시간 가까이 걸렸다. 한글의 수많은 발음 패턴을 읽어내기 위해서 오랜시간 학습을 필요로 한다. 사람들이 지나가는 마루에서 가족 모두의 입을 틀어막고 1시간동안 혼자서 동화책 한권을 읽어보자(학습 자료로 동화가 나온다). 그런데도 제대로 못 알아듣는다. 정말 만든사람 때리고 싶다.
음성인식의 재미난 사례들(?) ¶
see also 누구를위한기술인가
- 쉬울리가 있나요 :
음성인식이 된다고 좋아하는 사장님(외에도 높으신 분)들을 보면 되게 웃긴다. 그 분들은 어차피 회의 시간의 필기 정도가 귀찮은 정도다. 그렇다면 회의에서 남들이 이야기할 때 혼자서 조용히 마이크에 대고 속닥속닥, 그것도 발음 틀리지 않을까 가슴 졸이며 한글자한글자 또박또박 말할텐데.
- 혼자서 중얼중얼 :
핸드폰에 이어폰과 마이크 한줄로 달아서/헤드셋으로 달고 다니는 사람 봐도 참 이상한데, 이제는 집에서도 혼자 중얼중얼, 길거리에서도 중얼중얼 할거다.
- 너희는 입다물어! :
악필이라 쪽팔렸던 시대는 갔다. 악성이라, 발음 나쁘다 욕먹는다. 치아교정 다을 다시하고 언챙이들 서러운 시대가 온다. 허스키한 목소리도, 사투리 쓰는 사람도 살기 힘들다. 외국어를 배우는 사람들, 평생해도 모국어만큼의 인식률을 보일리가 없다. 이런 사람들에게 음성인식 기계들은 '입 다물고 계시기나 하시지~'라고 비웃는 것 같다.
- 가사 틀렸어요! :
음성인식기술이 궁극의 수준까지 올라간다면, 노래방에서 틀린 가사까지 잡아낼 수 있을것이다. 그렇다면 음정, 박자 그리고 가사까지 신경써가며 부르는 시대가 오지 않을까나?
- 받아쓰기 시험대신에.. :
초등학교에서 받아쓰기 시험 대신에 컴퓨터에 발음을 인식시키는 시험을 볼 것이다. 발음이 좋지 않은 사람을 위한 인식 프로그램들이 쏟아져 나오고, 사투리에 맞는 인식 프로그램들도 나올것이다.
PuzzletChung: MicroSoft 문자인식 연구팀에서 있었던 일이라카더라. (천재성의비밀에서 봤는지 가물가물하네요.) 그들은 직접 글씨를 써서 문자인식을 테스트해 왔는데, 얼마 지나고 나자 문자인식 엔진이 그들의 필기체에 맞게 개발된 것이 아니라 오히려 그들의 필기체가 엔진에 맞도록 길들여졌다는 사실을 알게 되었다.
음성 인식 기술의 도움을 누가 받을 수 있을까 ¶
- 일단 몸이 불편하지만 구강 근육은 상대적으로 자유로운 사람들이 자기 표현을 할 때 많은 도움이 될 수 있을 것 같다. 지금은 대개 입에 막대기 같은 것을 물로 키보드를 사용하거나 눈을 깜빡여서 신호를 보내는 등의 방법을 쓴다고 한다. -- 뎡만
- 한술 더 떠서 구강 근육이 불편한 사람들을 위한 음성인식도 만들어야 될 것 같습니다. NeuralNetwork를 써서? --PuzzletChung
-NeuralNetwork기반의 인식은 가변길이를 특징으로 가지는 음성인식분야에 현제 거의 사용되고 있지 않습니다. 음성인식 분야에서는 주로 HMM(Hidden Markov Model)을 사용합니다. --Fineblue
- 한술 더 떠서 구강 근육이 불편한 사람들을 위한 음성인식도 만들어야 될 것 같습니다. NeuralNetwork를 써서? --PuzzletChung
- PC 게임에서 유용하게 사용될 수 있지 않을까 싶습니다. 제한된 용어를 사용해서 명령을 내리는 용도 정도라면 인식의 문제는 적지 않을까요? 음악과의 잡음이 문제가 될수도 있겠지만... -- 쌀밥
- 돈이 되지 않으면 사투리 인식엔진은 발명되지 않을것 같습니다. 사투리를 쓰는 사람들은 표준어를 배우기 위해 더 애써야 하는 상황이 오겠죠.--잡종