방준석 교수의 약업혁신
<69> 약국의 미래: 정보의 거래와 유통 시대를 항해하기 위한 준비
편집부
입력 2022-09-30 11:32
수정 최종수정 2022-09-30 11:38
<69> 약국의 미래: 정보의 거래와 유통 시대를 항해하기 위한 준비
일반에게 알려진 ‘4차 산업혁명’이란 개념이 선도기업을 중심으로 디지털 전환(Digital Transformation, DX)이란 목표로 구체화되고 있다. 산업현장에는 디지털 기술 기반 사업모델로 인하여 산업간 경계가 희미해진다는 뜻의 ‘빅 블러(Big blur)’ 현상까지 등장했는데, 이는 C-19 팬데믹의 결과로 약업과 헬스케어 생태계에서도 뚜렷이 나타났다.
‘데이터 3법’이 2020년부터 시행되고 이어서 ‘데이터 산업진흥 및 이용촉진에 관한 기본법’이 2022년에 발효되면서 이 법안들은 ‘데이터 경제’라는 험난한 바다를 기업들이 항해하는데 필요한 나침반 역할을 하게 되었다. 특히 금융과 헬스케어 분야에서 추진 중인 My Data 및 My Health Way 서비스가 다양한 이용자에게 데이터 이동권(Right to Data Portability)을 보장하고, 데이터를 활용한 ‘맞춤형 정보’를 제공하면 ‘초개인화 서비스’ 시대라는 새로운 생태계가 구축될 것이다.
이제, 약국을 포함한 약업계 종사자는 데이터 경제 시대를 헤쳐가기 위하여 정보시스템 환경과 초개인화 비즈니스를 구현해 줄 기술에 대한 이해와 활용도를 높여야 한다.
정보처리시스템 환경
현실 세계의 데이터(RWE)를 수집, 저장, 가공하여 유용한 정보를 생성하고 의사결정에 적용하는 것을 정보처리시스템이라 부른다. 이것은 비즈니스 활동을 추적, 관리하는 (1)’거래처리시스템(Transaction Processing System, TPS)’과 비즈니스 의사결정을 지원하는 (2)’의사결정시스템(Decision Support System, DDS)’으로 구분한다.
한편, 데이터 처리방식에 따라 구분하면, (1)’온라인 처리 시스템’과 (2)’일괄 처리 시스템’이 있는데, 전자는 데이터 사용자를 중심으로 실시간 데이터(real-time data)를 처리하나, 후자는 데이터 사용자가 아닌 시스템을 중심으로 데이터를 순차적으로 처리하는 차이점이 있다.
‘관계형 데이터베이스’는 현실 세계 데이터의 사실을 설명하는 개체(Entity)와 개체를 구성하는 속성(Attribute) 간 ‘복잡한 관계’에 대해 식별과 표현에 편리하므로 운영데이터를 저장, 활용할 때 온라인 처리 시스템, 일괄 처리 시스템의 구분없이 관계형 데이터베이스가 주로 사용된다.
일반적으로 네트워크에 분산된 다수의 DB로부터 데이터를 수집, 통합, 분석하려면 Data Warehouse (DW)를 구축하고(예: 심평원 DB 등), Data Mart란, 특정 부서나 사업을 지원할 목적의 소규모 DW로서(예: 개별약국의 약국관리 혹은 보험청구 DB 등), 최종 사용자가 이것을 기반으로 직접 데이터를 탐색하고 의사결정에 활용하게 된다.
데이터의 저장과 컴퓨팅 환경
세상에 넘쳐나는 데이터 중에서 텍스트, 비디오, 오디오, 서버로그 등 비정형 데이터(Unstructured data)가 80% 이상을 차지한다. 사실 의료데이터나 개인이 수집하는 PHR이 비정형데이터가 주류인데, 이런 데이터를 처리하여 비즈니스 통찰력을 얻게 하는, 곧 버려지거나 활용가치가 낮은 정보를 재활용하는 기술이 의료나 헬스케어 분야에서 높아지고 있다.
실제로, 현실 세계의 정보를 DB로 관리하려면 데이터 구조에 대한 정의(Schema-On-Write)가 필요했던 이전의 ‘관계형 DB’와는 달리, 빅데이터라 불리는 방대하게 쌓이는 원시자료를 저장, 사용하면서 실사용자가 원하는 속성(컬럼)을 대상으로 데이터 구조를 유연하게 정의(Schema-On-Read)할 수 있는 기술이 더 주목받고 있다.
최근에는 대용량 데이터를 저장, 처리하는데 오픈소스 소프트웨어를 사용하는 경우가 흔한데, 고사양 단일 컴퓨팅시스템으로 대규모 데이터를 처리하기 보다 다수의 저사양 컴퓨터를 네트워크로 연결한 ‘아파치 하둡(Apache Hadoop) 프레임워크’가 활용된다. 이런 환경은 통계적 기법을 적용하여 비즈니스 의사결정에 활용할 정보의 획득분만 아니라 인공지능(AI)이나 기계학습(ML) 같은 고급기술을 적용한 초개인화 서비스 모델의 구성에 더 적합하다.
한편, 데이터 레이크(Data Lake)란, 정보처리시스템의 데이터, 센서 데이터, 소셜 데이터 등 다양한 원시 데이터의 복사본이나 탐색적 분석보고서, 기계학습(Machine Learning, ML)에 사용되어질 변환 데이터를 망라해서 부르는 ‘단일 데이터 저장소’를 뜻한다. 데이터 레이크는 데이터의 유형이나 형태와 무관하게 저장이 가능하고 저장을 하기 전에 처리할 필요가 없다.
데이터 마이닝과 인공지능, 기계학습, 심층학습
데이터 마이닝은 대량의 데이터 더미에서 유용한 정보나 패턴을 찾아내는 과정인데, 대표적인 방법으로는 이상치 탐지, 연관규칙 찾기, 군집분석, 분류, 회귀분석 등이 있다.
ML과 심층학습(Deep Learning, DL)을 활용한 정보시스템이 등장하기 전에는 특정 영역의 문제를 해결하려면 규칙기반의 ‘전문가 시스템(Expert System)’을 구축했지만, 지금은 ML, DL을 활용해서 업무를 자동화(Robotic Process Automation, RPA)하고 초개인화 서비스 모델을 개발하는 방식을 선호한다.
AI는 기계가 사람의 지각, 학습, 추론 능력을 모방한 것으로서 기계학습(ML), 심층학습(DL)을 모두 포괄하는 개념이다. 먼저, ML은 다음과 같은 세가지로 구분한다:
(1) ‘지도 학습(Supervised Learning)’이란, 입력 값에 대해 출력 값을 나타내는 데이터(Labeled Data Sets)로부터 새로운 데이터가 추가될 때 출력 값의 결정패턴을 찾아내는 학습방법으로써 ‘분류’나 ‘회귀분석’이 대표적 예이다.
(2) ‘비지도 학습(Unsupervised Learning)’이란, 입력 값에 대해 출력 값을 나타내지 않는 데이터(Unlabeled Data Sets)로부터 특정한 패턴을 찾아내는 학습방법으로써 ‘군집분석’이 대표적 예이다.
(3) ‘강화 학습(Reinforcement Learning)’이란, 학습 알고리즘이 데이터 환경과 상호작용하여 주어지는 누적기대보상값(Reward)이 최대가 되는 정책을 학습하는 방법으로서, 상태전이가 현재의 상태와 입력에 의해 확률적으로 정해진다는 ‘마르코프 결정 프로세스(Markov Decision Process)’에 기반한다.
한편, DL은 마치 인간의 두뇌처럼 심층신경망(Deep Neural Network)을 활용하여 원시 데이터로부터 특징을 추출하면서 문제해결을 위한 학습까지 동시에 진행하는 ML의 한 유형인데, 이미지로부터 객체를 분류하거나, 음성인식, 자연어 처리 등이 대표적 예이다.
ML 과정과 클라우드 컴퓨팅 환경의 빅데이터
데이터 마이닝을 위한 개방형 표준프로세스로써 CRoss-Industry Standard Process for Data Mining이 있다. CRISP-DM은 데이터로부터 지식을 창출하는 표준프로세스인 KDD (Knowledge Discovery in Databases)의 한 변형인데, 비즈니스 과정의 문제에 대한 인식과 해결을 위한 절차를 모두 포함하는 것이 특징이다(그림1).
그림1. 비즈니스 문제해결을 위한 기계학습 과정
데이터 기술을 도입하거나 운영하는 과정에서 자주 고민하는 점은 다음에 열거했는데, 이를 모두 해결하고 수용하려면 인프라 투자와 다양한 분석, 가시화 도구까지 요구된다(그림2).
그림2. 클라우드 컴퓨팅을 이용한 데이터 분석 샌드박스
클라우드 컴퓨팅 기술을 적용한 데이터 분석 샌드박스
클라우드 컴퓨팅이란, 서버, 스토리지, 데이터베이스, 네트워크 같은 자원이 직접 소유하지 않고도 자원에 대한 수요가 생기면 인터넷을 통해 즉시 사용하도록 도와주는 기술인데 이것을 사용하면 다음과 같은 이점을 누릴 수 있다.
첫째, 데이터 저장소에 대한 조직 및 기업 차원의 데이터 카탈로그 관리와 백업, 감사, 추적이 용이하므로 데이터 거버넌스 환경을 손쉽게 구축할 수 있다.
둘째, 데이터의 종류와 형태에 무관하게 대규모 저장이 가능하고, 데이터가 요구하는 사항에 적합한 DB도 선택할 수 있다. 저장소를 데이터 레이크로 구성하면, 사용자는 셀프서비스를 사용해서 데이터에 대한 접근성과 가용성도 향상시킬 수 있다.
셋째, 자원의 사용량에 비례해 비용이 발생하므로 처음부터 데이터를 분석하기 위한 대규모 투자가 불필요하며, 데이터 처리를 위한 컴퓨팅 자원을 목표성능에 맞춰 탄력적으로 확장하거나 축소할 수 있다.
데이터에 대한 지배력과 품질관리
데이터 경제 시대를 선도할 정보시스템과 초개인화 비즈니스의 구축을 가능케할 기술들을 열거하였다. 그러나 약업 기업이나 개별 약국이 이렇게 다양한 데이터 기술 중에서 특정한 몇 가지를 자기의 일터나 업무에 도입했다고 비즈니스 혁신이 이뤄지지 않는다. 그래서 데이터 기술에 대한 투자는 약업종사자 개인이나 조직이 추구하는 비즈니스 목표와 잘 연결되도록 설계하고 점진적으로 확장해야 한다.
또한 데이터의 가용성, 유용성, 무결성, 보안성 등 ‘데이터 품질’을 관리하는 것도 매우 중요하다. 이를 개별 약사나 약국에서 추진하기란 거의 불가능하다. 즉 데이터와 플랫폼은 더욱 많을수록 더욱 연결될수록 가치가 커지기에 소위 “뭉치면 산다”라는 기본 속성이 여기에도 적용된다.
규모가 적거나 순도가 낮은 데이터 다발은 개인이나 조직이 수행하는 비즈니스의 의사결정에 활용되기 어려울 뿐만 아니라, 임상환경에서 잘못 사용되면 약료와 비즈니스 실패로 인한 비용이 상상하기 어렵고, 고객에게 해를 끼치거나 심지어 고객에게 제공한 상품이나 서비스의 가격가지 상승시켜 사회적 비용의 증가까지도 초래한다.
세계적으로 데이터 경제 시대의 서막이 올랐다. 약국과 약업의 혁신방향은 데이터 경제시대의 지향점에 맞춰 핵심적 기술을 파악하고 이를 실현할 생태계를 서둘러 구축해야 한다. 여기에 데이터의 품질을 지속적으로 관리할 원칙과 조직, 프로세스의 구축도 필요하다.
약업계는 혁신기술의 현업적용의 전후 단계의 장단점을 심사숙고한 전략수립과 정책개발(의약품정책연구소가 주도)이 더해져야 한다. 그리고 핵심기술을 활용하여 생태계를 구축할 수 있도록 유관 기업들과 유무형의 클러스터를 구축해야(약학정보원이 주도)한다. 또한 대국민, 대정부 설득과 홍보하는 역할을 유기적으로 추진할 리더십과 용기를 가지면 좋겠다.
<필자소개>
방준석 교수(숙대약대)는 우리나라와 미국의 약국, 병원, 제약회사, 연구소 등에서 활동한 풍부한 경험을 바탕으로 약학대학의 임상약학 교수이자, 경영전문대학원의 헬스케어MBA 주임교수로서 활동하고 있다. 약사이자 약학자로서 약과 약사, 약국과 약업은 물론, 노인약료와 스마트헬스케어 분야의 혁신과 발전방안을 연구하여 사회의 각계 각층과 교류하며 실천하고 있다.