팜플러스
방준석 교수의 약업혁신
<36> 100세 시대의 고찰: AI 스피커의 원리
편집부
입력 2021-04-21 13:30 수정 최종수정 2021-04-21 13:38
인쇄하기 메일로 보내기 스크랩하기
작게보기 크게보기
1982년, ‘전격Z작전’ 이란 미국 드라마가 공중파로 방영되었다. 주인공은 펑크스타일의 미남 ‘마이클’이지만, 필자가 채널을 고정하도록 만든 또다른 주인공은 다름아닌 ‘키트’라는 자동차로서, 지금의 기술에 빗대어 표현하면, 인공지능(Artificial Intelligence, AI) 스피커는 물론이고 AI 내장 수퍼컴퓨터와 무선인터넷 연결까지 가능한 완전 무인자율주행 자동차였다(그림1).

이후 40년이 지난 오늘, 이러한 공상과학물에 등장한 기술이 이미 대부분 현실화 되었고, 특히 AI 스피커 시장이 점차 성장하고 있다. 대표적 제품으로는 Amazon사의 Echo, Google사의 Google Home, Apple사의 HomePod이 알려졌고, 국내 SK텔레콤의 누구(NUGU), KT의 기가지니(GiGA Genie), 삼성의 빅스비(Bixby) 등이 출시되었다. 이제 AI 스피커는 단지 소리만 들려주는 기기가 아닌, 인공지능이 컴퓨터를 통하여 모든 인간과 소통할 수 있는 플랫폼의 위치로 변모하고 있다.

아마존은 AI 플랫폼인 알렉사(Alexa)를 음성 인터페이스로 활용한 아마존 에코닷(Echo Dot) 2세대를 판매 중이다. 에코닷은 알렉사를 음성 인터페이스로 활용하여 음원재생, 스마트홈 장치제어, 전화통화, 메시지 송수신, 뉴스읽기 등의 기능 등을 수행한다. 게다가 가정용 사물인터넷(IoT) 기기와 연동하여 그 활용도가 넓어지고 있다.

이러한 AI 스피커는 인간의 음성을 인식하여 동작한다. 따라서 AI 스피커의 성능은 인간언어를 얼마나 잘 이해하느냐에 좌우된다. AI 스피커로 연결되는 인공지능이 어떻게 인간음성을 이해하는 것일까? 
                              그림1. 미국드라마 전격Z작전(출처: 구글이미지)

AI 스피커의 음성명령 인식구조

인간의 소리인 음성신호(명령)가 AI 스피커에 내장된 마이크에 수신되면 ‘스피치 프로세서’가 음성신호벡터로 변화시키고 ‘스피치 인식기’와 ‘언어특징추출기’에 의하여 기존의 단어 관련 정보를 고려하여 ‘언어표현정보’가 도출된다. 예를 들어, KT의 AI 스피커 기가지니에게 “’안녕, 잘 잤어?’라는 문자를 영희의 카카오톡에 올려줘”라고 명령하면, 이 소리는 음성신호벡터로 전환되어 단어 DB를 기반으로 잘게 쪼개진다. 쪼개진 신호벡터는 각 단어마다 고정된 길이의 하위 음성신호벡터인 언어표현정보를 추출하는 과정을 겪는다.

추출된 정보는 ‘스킬분류기’, ‘의도분류기’, ‘슬롯인지기’로 입력되는데, (1)’스킬분류기’는 입력된 명령에 알맞은 스킬을 결정하며(위 명령에서 스킬은 ‘카카오톡’), ‘올려줘'라는 명령의 상위개념이다. (2)’의도분류기’는 언어표현정보를 통해 입력된 명령의 의도를 결정하는데, 위 명령에서 의도는 “안녕, 잘 잤어?’라고 카카오톡에 올려줘”가 된다. 스킬분류기에 의해 결정된 각각의 스킬은 수천, 수만 가지의 의도와도 연결될 수가 있다. (3)‘슬롯인지기’란 언어표현정보에서 의미를 가진 정보를 인식한다. 예를 들어, “이문세의 광화문 연가라는 노래를 틀어줘”라고 명령하면, 분류된 스킬은 ‘음악(노래)’이고, 의도는 ‘재생(틀어줘)’이며, 슬롯은 ‘광화문 연가‘가 된다. 슬롯인지기는 음성명령의 문법구조를 고려하여 의도/명령의 핵심정보를 슬롯으로 찾아서 인지한다. 이렇게 분류 및 인지된 스킬, 의도, 슬롯은 ‘스킬프로세서’를 거쳐 명령을 수행하도록 관련 기기들을 작동시킨다(그림2).


         그림2. AI 스피커가 음성명령을 인식하고 학습하는 과정(출처: 미국특허국, 2016년)

정교한 명령 이해를 위한 학습모델

AI 스피커가 인간언어를 정확히 이해하려면 스킬, 의도, 슬롯에 대한 정확한 분석이 되어야 하므로 의도분류기는 기존에 입력된 빅데이터를 기반으로 학습이 필요하다. 이때 ‘인공신경망(Artificial Neural Network, ANN)’과 ‘심화신경망(Deep Neural Network, DNN)’을 활용함으로써 의도분류기는 이미 축적한 데이터를 활용하여 신경망 속에서 변화된 가중치를 감지하고 학습함으로써 명령의 의도를 한층 정확히 판단하게 된다(그림2).

만약 의도분류기가 다수의 출력값을 생성한다면 명령의 정확한 의도가 혼란스러워지므로 다수의 출력값에는 이미 AI가 학습했던 정보를 바탕으로 70%, 20%, 10% 등의 확률값을 부여하며 의도분류기는 이 중에서 가장 높은 확률(70%)을 가지는 출력값을 명령이 가진 의도라고 판단하는 것이다.

음성-문자 명령의 변환 및 전달과정

일단 사람의 목소리가 ‘소리신호’로 입력되면, ‘Wake Word Direction Module’이 소리 중에서 AI 스피커를 동작시키는 단어가 포함되었는지 먼저 판단한다. 즉, 웨이크워드란 ‘깨우는 말’이란 뜻으로, ‘기가지니’라는 이름을 부르면, KT의 AI 스피커가 동작을 시작하듯 의도하는 명령의 전달 이전에 기계를 작동상태로 깨우는 단어를 말한다. 이 단어가 확인된 후 입력된 음성명령은 음성인식엔진(Speech Recognition Engine)이 인식하도록 특징벡터로 변경된다.

음성인식엔진은 ‘소리모델(Accoustic Model)’과 ‘언어모델(language Model)’을 기반으로 특징벡터를 단어와 음소로 연결한다. 소리모델이란, 입력된 특징벡터를 음소단위로 인지하는 것이며, 언어모델이란, 문법모델을 사용하여 명령문장에서 해당 음소의 위치를 파악하여 어떤 단어인지 판단한다. 음성인식엔진은 음성신호를 다시 문자로 모두 변환한 뒤, ‘NLU (natural language understanding)’로 전달하여 명명된 실체인식(Named Entity Recognition, NER)과 의도분석(Intent Classification, IC) 모듈을 거쳐 내용을 해석한다(그림3).

NER은 ‘언어문법저장소(linguistic grammar)’와 ‘스킬 및 의도 모델(skill & intent model)’을 활용하여 전술했던 스킬분류기 및 슬롯인지기의 역할을 수행한다. NER은 입력된 텍스트와 연관된 스킬(또는 도메인)을 선별하고, 언어문법저장소를 이용하여 스킬과 관련된 슬롯을 찾아낸다. 스킬은 앞서 말한 카카오톡일 수 있고, 쇼핑몰이나 음원제공사이트일 수 있다.

언어문법저장소는 사용자의 이용하는 스킬마다 개별적으로 형성된다. 즉 쇼핑에 대한 것, 음악에 대한 것이 별도로 형성되는 것이다. 또한 각각의 언어문법저장소는 사용자의 평소 언어습관, 자주 방문하는 쇼핑사이트나 음악컬렉션, 영화사이트 등 사용자의 특성과 취향에 따라서 변화된다. 이같은 방식으로 AI 스피커가 사용자의 명령을 보다 정확하게 이해하고 수행하게 된다.

     그림3. 입력된 음성명령의 해석과 관련 기기로 전달하는 과정(출처: 미국특허국, 2016년)

AI 스피커는 의도된 학습과정을 거친다

이러한 AI 스피커의 동작원리 중 우리가 주목해야 할 부분은 AI의 학습과정에서 제작자의 의도가 개입될 수 있다는 점이다. 앞서 설명한 바와 같이, 명령에 대한 AI 스피커의 응답은 직접 사용하는 개인의 특성이 반영되지만 결코 객관적이지 않다. 이 말은 사전에 입력된 데이터 및 학습방법과 결과에 대해 제조사의 판단이 들어갈 수 있다는 의미이다. ‘아이로봇’이란 미국영화를 관람한 독자라면, 특정 로봇개체에게 설계자가 의도한 명령체계를 그 로봇제조사의 여타 로봇과는 다르게 입력함으로써 진행되는 흥미진진한 스토리를 상기할 수 있을 것이다. 

예를 들면, KT의 기가지니를 통해 어떤 상품을 주문하면, KT와 연계된 협력사의 플랫폼을 통해서 특정상품을 주문하도록 소비자를 유도할 수 있다. 음악이나 영화 등 스트리밍 플랫폼을 이용할 때, 그 외 각종 정보를 파악하고 소비할 때도 마찬가지다. 이 점이 바로 많은 기업들이 AI 스피커 시장, AI 플랫폼 시장을 선점하여 미래의 시장을 선점하고 시장지배력을 높이려는 의도이다.

향후 국가 간 세제와 언어의 장벽이 축소되고, 물품배송 장벽조차 무너진다면 과연 어떤 상황이 벌어질까? 이러한 시대에서 시장의 승자는 다수의 고객(이용자)을 확보하고, 가장 편리하면서도 정확한 첨단기술에 기반한 인공지능 플랫폼을 소유한 기업이 될 것임은 자명하다. 많은 사람들이 언어 및 배송 상의 장벽과 번거로움으로 해외쇼핑을 주저하는 지금, AI 스피커를 통해 한국어로 해외 제품과 서비스의 구매와 활용이 자유로워지고 배송부담까지 줄어든다면, AI 기술 및 플랫폼을 보유한 기업과 그렇지 못한 기업의 시장 점유율과 장악력의 차이는 더욱 벌어지게 될 것이다.

이런 시대를 살아가는 우리가 통찰력을 가지고 준비해야 할 점은, 전 세계는 가상현실, 증강현실은 물론, 인터넷을 통한 가짜뉴스, 가짜정보의 생성과 유포에 속수무책이 되고 있는데, 기업이든 정부든 단체든 심지어 개인이든 막강한 ‘디지털 영향력’을 가진 주체가 개인과 대중의 사고와 판단과 취향과 여론과 심지어 감정까지도 유도, 조정할 수 있는 시대가 도래하고 있음을 인식해야 한다.

영유아 보육, 초중고등 및 평생교육, 사회보장과 헬스케어, 커뮤니티케어, 방범과 방재, 안전관리와 효율적 행정을 추구하는 스마트시티 등 이른바 ‘디지털 돌봄시대’의 패러다임은 우리 삶 속에 깊이 다가왔다. 100세 시대, 가족이나 친구보다도 더 내 취향을 알고 특징을 활용하고 내 감정을 장악하는 인공지능의 디지털 영향력을 어떻게 수용하고 활용할 것인가?


<필자소개>
방준석 교수(숙대약대)는 우리나라와 미국의 약국, 병원, 제약회사, 연구소 등에서 활동한 풍부한 경험을 바탕으로 약학대학의 임상약학 교수이자, 경영전문대학원의 헬스케어MBA 주임교수로서 활동하고 있다. 약사이자 약학자로서 약과 약사, 약국과 약업은 물론, 노인약료와 스마트헬스케어 분야의 혁신과 발전방안을 연구하여 사회의 각계 각층과 교류하며 실천하고 있다.

전체댓글 0
    등록된 댓글이 없습니다.
약업신문 타이틀 이미지
[]<36> 100세 시대의 고찰: AI 스피커의 원리
아이콘 개인정보 수집 · 이용에 관한 사항 (필수)
  - 개인정보 이용 목적 : 콘텐츠 발송
- 개인정보 수집 항목 : 받는분 이메일, 보내는 분 이름, 이메일 정보
- 개인정보 보유 및 이용 기간 : 이메일 발송 후 1일내 파기
받는 사람 이메일
* 받는 사람이 여러사람일 경우 Enter를 사용하시면 됩니다.
* (최대 5명까지 가능)
보낼 메세지
(선택사항)
보내는 사람 이름
보내는 사람 이메일
@
Copyright © Yakup.com All rights reserved.
약업신문 의 모든 컨텐츠(기사)는 저작권법의 보호를 받습니다.
무단 전재·복사·배포 등을 금지합니다.
약업신문 타이틀 이미지
[]<36> 100세 시대의 고찰: AI 스피커의 원리
이 정보를 스크랩 하시겠습니까?
스크랩한 정보는 마이페이지에서 확인 하실 수 있습니다.
Copyright © Yakup.com All rights reserved.
약업신문 의 모든 컨텐츠(기사)는 저작권법의 보호를 받습니다.
무단 전재·복사·배포 등을 금지합니다.