마이컴 1993년 2월호 - 신기술 시리즈




컴퓨터가 말을 한다. 이것은 그리 놀라운 일은 아니다. 우리는 이미 박람회장이나 과학 전시실에서 말하는 로봇이나 컴퓨터가 화면에 나타난 내용을 읽는 것을 여러번 보았기 때문이다. 


새삼스럽게 여기서 말하는 컴퓨터를 언급하는 것은 말하는 컴퓨터의 신기함을 감탄하기 위해서는 아니다. 이제 말하는 컴퓨터는 단순한 음성 재생 기능의 수준에서 벗어나 사람의 음성을 인식하는 인공 지능의 단계로 도약하는 새로운 전기를 맞고 있다.



음성으로 입력하는 컴퓨터 명령어

키보드를 이용하여 컴퓨터에 명령을 입력하는 대신 이 모든 것을 음성으로 하고, 그 명령에 컴퓨터가 응답하는 상황을 상상해 보라. 이것은 단지 영화에서나 가능한 것이 아니다. 음성으로 조정하는 것은 더 이상 공상 과학소설의 요소는 아니기 때문이다.


지난 20년 동안 음성은 커뮤니케이션의 가장 기본적이고 자연스런 수단으로 많은 과학자와 연구가들의 호기심을 자아냈다. 말은 가장 효과적인 수단이며, 일반적으로 타이핑을 할 때 분당 평균 40 워드를 입력할수 있는 것에 비해 사람들은 200워드까지 빠르게 말을 할 수 있다. 


하지만 타이핑을 배우지 못했거나 몸이 불편하여 타이핑을 할 수 없는 사람에 대해 생각해보자. 다른 어떤 입력 장치도 변환하여 이용할 수 없다면, 컴퓨터를 이용할 수가 없는 것이다. 또한 상황에 따라서는 타이핑이 불가능한 경우도 있다. 만약 비행기가 착륙해야 한다면, 키보드를 칠 수 있겠는가? 


지난 20년 동안 음성 인터페이스에 대해 연구가 계속 되었지만, 상품으로서의 가치를 인정받은지는 얼마되지 않았다.




음성 변환 과정 


컴퓨터가 음성을 인식하기 위해서 여러가지 음성 변환 과정을 거쳐야 한다. 우선 입력된 아날로그 음성 신호를 컴퓨터가 인식할 수 있는 디지털 신호로 변환시켜 주어야 한다. 


이 때 음성 변환 과정을 담당하게 되는 시스템은 지금 입력된 메시지를 차후 다시 받아들일 수 있도록 디지털 신호에서 아날로그로 전환시킨 내용을 함께 저장하며 그 두 내용을 결합시키기 위해 메시지나 기록 시스템을 이용한다. 메시지를 기록할 때, 사용자의 음성은 네트워크를 통해 변화된 디지털 신호로 전송된다. 반대로 컴퓨터에서 메시지가 다시 돌아올 때, 그런 디지털 신호는 인간이 이해할 수 있는 아날로그 신호 전파로 다시 변환된다.


컴퓨터는 어떤 것도 해석하지는 않는다. 컴퓨터는 간단하게 음성 신호를 디지털 신호로 변화시키고 그 음성에 대한 답변을 인간이 해석하고 조치를 취할 수 있는 데이터 아날로그로 변환시켜 전송해 줄 뿐이다. 이와 같은 과정을 통해 컴퓨터와 사람은 대화를 나누는 것이 가능해 진다.


이제 의사 소통이 가능해 졌으면 우리가 요구하는 대로 컴퓨터가 움직여 주어야 한다. 사용자는 컴퓨터가 사용자가 말하는 음성에 기초를 두어 행동을 수행하기를 기대한다. 그래서 컴퓨터가 디지털 신호의 내용을 이해 해야 하고 컴퓨터는 우리가 어떤 행동을 하기 원한다는 것을 이해할 수 있어야 한다. 이 과정에서 첫번째 단계는 디지털 신호 처리로, 신호의 음향 효과와 전파를 분석한다. 


이 과정은 DSP(Digital Signal Processing) 칩이 담당하게 되며 이 칩은 보드상에 놓여 있다. 일단 디지털 신호가 분석되면, 시스템에 저장되어 있는 데이터 베이스에서 기존에 기록된 음성 신호와 비교한다. 이때 음성의 모델은 마이크로 폰이나 헤드셋 (heaset-마이크가 달린 헤드폰)을 이용하여 단어나 구를 발음한 다음 그 내용을 컴퓨터안에 저장시켜 만드는 것이다.




어휘 시스템  

음성 인식 시스템에는 두 개의 기본 형식이 있는데, 소용량 어휘 시스템과 대용량 어휘 시스템이다. 소용량 어휘 시스템은 수백 단어로 구성되어 있지만, 대용량 어휘 시스템은 최고 2만 단어까지 포함할 수 있다. 


소용량 어휘 시스템에서 음성의 모델은 전형적으로 최종 사용자에 의해 기준이 만들어진다. 즉 소용량 어휘 시스템은 말하는 사람에 의존하므로 사용자가 자신의 목소리로 내용을 입력해야만 한다. 그래서 사용자가 아닌 다른 사람의 음성이 입력되면 컴퓨터는 그 음성을 인지하지 못하게 된다.  


반면 대용량 어휘 시스템에서 음성의 모델은 그 시스템의 제작자나 공급자에 의해 만들어진다. 우선 사람들의 음성 패턴을 생각해 보자. 남자와 여자의 목소리는 굵기와 강약 등 에서 차이가 난다. 특히 시스템 사용자가 경상도 방언을 사용한다면 그 억양과 대화시 사용하는 말의 어미가 표준어와 너무 달라 컴퓨터는 그 내용을 인지할 수 없을 것이다. 


그러므로 어느 누가 사용해도 컴퓨터가 그 음성을 알아듣게 하기 위해, 컴퓨터에 사용될 음성의 모델은 다양한 형태로 훈련되며, 표준어를 사용하는 평균 음성에 기초하여 표현하게 된다. 


이런 시스템을 화자 독립 형태라고 말하며, 각 사용자가 음성의 모델을 다시 조정할 수 없음을 의미하는 것이다. 이때 컴퓨터가 좀더 확실하고 정확하게 이해할 수 있도록 단어 사이를 잠깐 띄었다 발음해야 한다. 대용량 어휘 시스템은 일반 유저들이 사용하기에 다소 편리할 것이다.  


하지만 그 프로그램 개발자 측에서는 소용량 어휘 시스템에 비해 몇배의 노력이 요구된다. 서로 다른 언어 패턴을 구사하는 많은 사람들이 모두 편리하게 사용할 수 있는 언어 모델을 만들기 위해서는 음성 분석을 이용하여 단어 모델을 만들고, 음성의 개인 부분을 분별해 낼 수 있어야 한다. 


즉 눈(目)과 눈(雪), 밤(夜)과 밤(栗), 말(言)과 말(馬) 등의 동음 이의어를 컴퓨터 스스로 분별해 낼 수 있어야 하는 것이다. 이렇게 컴퓨터가 세세한 부분까지 분별해 내야 하므로 프로그래머는 음성학적 연구까지 함께 해야 한다. 


이렇게 어휘 시스템도 크기와 형태에 따라 복잡성과 다양성에 차이가 난다. 하지만 시스템이 아무리 복잡하고 다양해도 그 구현 원리는 같다. 그것은 내장되어 있는 데이터베이스의 단어 모델과 입력된 음성을 비교해 맞추는 것이다. 그런 모델에 근거하여 일을 수행한다 해도 그것은 사용자의 질문이나 명령까지 컴퓨터가 해석하는 것은 아니며, 다만 이미 저장되어 있는 지시 내용을 실행시키는 것이다.




미래의 인터페이스로 자리잡기 위해

우리에게 익숙해 있는 마우스나 키보드에서 새로운 입력 장치로 등장하게 될 음성 입력장치. 아직 확실하게 손에 잡히는 것은 없지만 이미 음성 인식 시스템은 실험 단계를 지나 상품화 단계까지 이르렀다.


물론 컴퓨터가 사람의 목소리를 듣고 그 내용을 이해하여 명령을 수행 하는 것은 아니다. 컴퓨터가 음성을 입력받은 후 수행까지 모든 과정은 프로그램 제작시 만들어진 DBMS(DATA BASE MANAGEMENT SYSTEM : 데이터 베이스 관리 시스 템)에 의해 가능해 지는 것이다.


DBMS 시스템은 이미 우리가 이용하는 프로그램 상에서 최신 기술이라 할 수 있다. 이미 음성 입력 장치에 관한 연구에서 DBMS가 성공적으로 이용되고 있는 것을 볼 때, 머지않아 인공 지능이나 퍼지 이론과의 새로운 접목도 가능해 질 것이다. 또한 GUI 인터페이스에 이어 새로운 사용자 인터페이스로 사용자들에게 다가올 날이 멀지 않은 듯하다. 






    이글은 지금은 없어진 컴퓨터 잡지, 마이컴 1993년 2월호 기사에서 발췌한 내용입니다







글이 마음에 드시면 아래 공감버튼 살짝 눌러주세요.

공감과 댓글은 저에게 큰 힘이 됩니다. 







728x90
반응형
Posted by 전화카드
,