[미래의학연구재단 기고4] 생명과학분야에서 생명정보 빅데이터 활용 연구

손태권 박사·김규원 교수/서울대학교 약학대학

기사입력 2020-01-15 11:00     최종수정 2020-01-15 11:18 프린트하기 메일보내기 스크랩하기 목록보기   폰트크게 폰트작게

(왼쪽부터)손태권 박사·김규원 교수▲ (왼쪽부터)손태권 박사·김규원 교수
4차 산업혁명과 더불어 생명과학은 ‘빅데이터’ 시대로 전환 중이다. 이에 맞추어 의료계는 기존의 맞춤의학 개념을 한 단계 업그레이드 한 정밀의료 개념을 도입하여, 유전체 특성을 포함한 개인 빅데이터에 근거한 정밀한 맞춤형 의료 제공을 시도하고 있으며, 약학분야에서도 인공지능을 활용하여 신약 개발 기간과 비용을 단축해나가고 있다.

지놈 정보의 해독과 차세대 서열 분석기의 개발로 생물정보의 양은 급속도로 증가하고 있다. 이러한 생물정보는 전 세계의 다양한 생명과학 및 의학 연구소에서 데이터를 수집, 보관하여 제공하기 때문에 전 세계에 걸쳐 분포, 저장되어 있다. 이렇게 다양한 종류의 데이터가 넓은 공간에 산재되어 있는 생물정보의 특성으로 인해, 생물정보학 분야에서는 데이터 통합 분석과 가공, 데이터 마이닝 및 메타 분석의 필요성이 증대되고 있다.

본 연구실의 연구 방향도 이러한 추세에 맞추어, 빅데이터를 활용한 데이터 통합 분석 중심의 연구로 전환해나가고 있다. 아래의 다양한 연구 사례와 함께 생명정보 빅데이터 분석 기법을 소개하고자 한다.


1) 위장관 미생물 정보 데이터베이스 구축 및 통합 분석

첫 번째로, 세계 각국에 산재된 광범위한 마이크로비옴 관련 1차 정보를 수집, 통합하여, 연구자가 활용할 수 있는 위장관 미생물 정보 데이터베이스 구축을 진행하였다.[표 1, 2] 
[표 1] 세계 각국의 미생물, 메타지놈 관련 데이터베이스▲ [표 1] 세계 각국의 미생물, 메타지놈 관련 데이터베이스

[표 2] 세계 각국의 약물, 독성, 보건의료 관련 데이터베이스▲ [표 2] 세계 각국의 약물, 독성, 보건의료 관련 데이터베이스

이렇게 수집된 다양한 데이터베이스에서 위장관 미생물과 질병, 화학물질, 약물 등의 관계 정보를 추출하여 정리하고, 이들 데이터 간의 카이제곱 검정과 Fisher’s exact test 등의 교차 분석을 통해 비율 검정을 실시하여 요인별 관련성을 추정하였다. 또한, 네트워크 분석을 통해, 그래프의 차수 분포 (degree distribution), 군집지수(clustering coefficient), 군집 스펙트럼 (clustering spectrum), 네트워크의 지름 (network diameter), 최단거리 스펙트럼을 계산하여, 미생물과 연관 인자 네트워크의 상세 특징을 분석하였다. 그리고, 위장관 미생물과 연관 인자 간의 네트워크 분석을 수행하여, 미생물과 질병, 환경 요인, 화학물질 간 관계 정보를 바탕으로 한 네트워크를 구축하고, 관련 질환의 관계망에서 허브를 찾고 각 질환에 영향을 주는 미생물 종 또는 군집을 파악하였다. [그림 1]

[그림 1] 데이터 통합 분석▲ [그림 1] 데이터 통합 분석

 

또한, 데이터 형태에 따른 인공지능 기법을 도입하여 고도화된 데이터 통합 분석 및 데이터 마이닝 연구를 진행하고 있다. 이미지 데이터 기계학습에는 Neural Network(NN)를, 텍스트 데이터의 학습에는 self-organizing map(SOM), 네트워크 데이터는 hidden Markov model을 도입하여, 분석이 진행되고 있다. [그림 2]

[그림 2] 인공지능 기반의 데이터 통합 분석▲ [그림 2] 인공지능 기반의 데이터 통합 분석


2) ARD1 유전자와 EMT(epithelial–mesenchymal transition) 관련 유전자들의 상관관계 분석

ARD1 유전자는 간암과 유방암을 비롯한 다양한 암종에서 그 발현이 증가되어 이들 암종의 악성화와 관련이 있는것으로 보고되어 있어 이 ARD1과 관련된 생물정보와 의료정보의 통합 분석을 시도하였다. 구체적으로, 간암 환자 377명의 유전자 발현 데이터에서 ARD1 유전자와 EMT(epithelial–mesenchymal transition) 관련 유전자 발현 패턴의 상관관계를 분석하였다. 그 결과 간암의 전사체 데이터의 발현 패턴 분석에서 공통적으로 ARD1과 epithelial marker들 간에는 음의 상관관계를 확인하였고, ARD1과 mesenchymal marker들 사이에서는 양의 상관관계를 확인하였다. 특히, ARD1은 ZEB2, ZO1, TCF4 유전자 사이에서는 높은 음의 상관관계를 보였다. [그림 3]

[그림 3] 간암 환자군에서 ARD1 유전자 상관관계 분석 결과▲ [그림 3] 간암 환자군에서 ARD1 유전자 상관관계 분석 결과

이러한 분석을 통하여, ARD1이 epithelial marker들의 발현 억제에 관여하고, mesemchymal marker의 발현 증가에 관여할 것이라 추정할 수 있다. 이는 ARD1 유전자가 EMT 조절과 관련 있음을 의미한다.

3) 생물정보학을 이용한 담관암과 췌장암의 분자적 특징 비교

세 번째는 메타분석과 오믹스 데이터의 통합 분석 기법을 기반으로, 담관암과 췌장암의 공통점과 차이점을 분석하고 분자적 특징을 비교하여, 약물 후보 유전자를 예측하였다. 담관암은 간 내의 주요한 원발암으로 전세계적으로 높은 악성 비율을 보이고 그 발병의 명확한 원인은 밝혀진 바가 없다. 그리고, 췌장암은 담관암과 유사한 특성을 보이므로, 두 암이 암발생과정에서 분자적 기전을 공유할 것으로 추정된다. 이러한, 조직병리학적, 임상적 유사성을 토대로 omics 데이터 베이스인 The Cancer Genome Atlas (TCGA)와 NCBI Gene Expression Omnibus (GEO)에서 제공되는 담관암과 췌장암 자료들을 활용하여 통합적인 유전체 분석을 하였다. 즉, 3개의 TCGA, 9개의 GEO 데이터 셋에서 6개의 전사체 및 2개의 유전체 메틸화 패턴 데이터, 그리고 4개의 microRNA 데이터들을 수집하여 분석하였다.

그 분석 결과, 10개의 과발현, 19개의 저발현을 포함한 총 29개의 차별적으로 발현되는 유전자들을 도출할 수 있었고, 이 차별 발현 유전자 29개 중 9개는 세포 기능에 관련되어 있었다. 그리고, 메틸레이션 패턴 분석에서는 302개의 promoter와 86개의 enhancer를 포함한 455개의 상이한 메틸화 패턴들이 374개의 유전자에 걸쳐 있었다. microRNA 분석에서는 공통적인 차별 발현 microRNA 29개 중, UPB1, HBB 유전자에 상보적으로 결합하는 4개의 microRNA를 도출하였다. 생존 분석 결과 도출된 전사 조절 데이터 조합들 중, Hippocampus abundant transcript-like 1(HIATL1)은 이 두 종류 암환자들의 생존 기간에 유의미한 영향을 끼치는 것으로 확인되었다. 즉, HIATL1 유전자 저발현 담관암 subgroup의 예후가 좋지않았으며, 두 암의 HIATL1 저발현 집단에서는 낮은 초기 생존율을 보였다.

또한, 두 암의 HIATL1 저발현 집단에서 공통적인 차별 발현 유전자 집단으로 108개의 유전자들을 도출하였다. 이 유전자 집단에서 나트륨 이온 수송 관련 유전자인 sodium channel nonvoltage-gated1 (SCNN1D)이 유의미한 약물 타겟으로 예측되었다. 이 SCNN1D 단백질은 이뇨제인 Amiloride에 의해 조절되므로, 이 약물을 이용한 drug repositioning 가능성을 제시할 수 있었다.


4) 망막모세포종 유전자 발현정보의 메타 분석을 통한 종양 특이 유전자의 규명

네번째는 안과 질환 관련 메타 분석 사례로서, 유전자 발현데이터베이스에서 망막모세포종 관련 데이터를 수집하고 메타분석을 통해 망막모세포종에서 특이적인 발현을 보이는 유전자를 규명하였다. Gene Expression Omnibus(GEO) database에서 망막모세포종 조직 및 정상 망막 조직의 전사체 데이터들을 수집하였고, 메타분석을 통해 15,292개의 전체 대상 유전자 중에서 923개(6%)의 망막모세포종 조직 특이 발현 유전자(> 1.5 fold, FDR adjusted p-value < 0.05) 들을 도출하였다. [그림 4]

[그림 4] 망막모세포종 관련 수집 데이터의 군집분석 결과▲ [그림 4] 망막모세포종 관련 수집 데이터의 군집분석 결과

메타 분석 결과, 정상 조직에 비해 발현이 증가된 유전자는 278개, 발현이 감소된 유전자는 645개임을 확인하였다. 이와 같이 망막모세포종 조직의 유전자 발현 양상을 도출하고, 메타분석을 통해 정상 망막 조직에 비해 공통적으로 증가 또는 감소 소견을 보이는 특이 발현유전자를 발굴할 수 있었다.


5) 단백질 유도 iPSC와 바이러스 유도 iPSC에서의 전사체 메타분석을 통한 종양 유발 가능성 분석

최근, 심근경색 등 심혈관질환으로 인해 손상된 심근을 재생하고, 심장의 기능을 되살리기 위해, iPSC를 활용하여 심근 세포를 생산하는 기술들의 연구가 활발히 이루어지고 있다. 그러나, iPSC는 종양 형성을 유발할 수 있는 위험성이 있어 임상 적용에 한계가 있다. 이에 대처하기 위해, 다양한 종류의 iPSC 유도 기술 별로 종양 형성 위험성을 비교 분석하여, 위험성을 최소화 할 수 있는 방법을 평가, 제시하고자 하였다. 먼저, 대량의 전사체 데이터를 수집하고, 메타분석을 진행하여 단백질 유도 iPSC와 바이러스 유도 iPSC의 임상적 안전성과 역분화 효율성 차이에 관한 비교 분석을 그림 5와 같이 두가지 방법으로 시도하였다.  Meta-analysis 방법은 각 전사체 데이터 셋을 각각 분석한 후, 발현 양의 증감과 패턴을 통합 비교하는 방식이고, cross-platform normalization 방법은 각 데이터 셋의 발현값을 표준 점수(standard score) 등 상대적인 값으로 통일한 후, 통합 보정하여 비교하는 방식이다. [그림 5]

[그림 5] 바이러스 유도 iPSC와 단백질 유도 iPSC의 전사체 통합 분석 방법▲ [그림 5] 바이러스 유도 iPSC와 단백질 유도 iPSC의 전사체 통합 분석 방법

즉, GEO와 ENA 등 전사체 데이터베이스에서 11개의 데이터 셋을 수집하여, 메타분석에 적합한 7개 데이터 셋을 선별하였다. 그런다음, 전사체 데이터 셋을 유도 기전이 다른 두 그룹으로 나눈 후, 발현 값을 통합하고 차별발현분석을 진행하였다. 두 그룹의 차별발현유전자의 발현 패턴 차이를 분석하기 위해, gene ontology와 MSigDB, KEGG 등 functional category 데이터베이스에 근거하여, 종양 형성 위험성, 역분화 효율성 및 임상 안전성 관련 category를 중심으로 유전자 집단의 gene set enrichment 분석을 수행하였다. 또한, 네트워크 분석을 수행하여, 종양 관련 유전자들의 상호 작용 패턴 차이를 탐색하고, 유전자별 영향력을 확인하였다. 그 결과, 종양 형성 위험성이 현저히 감소될 것으로 예측되는 iPSC 제작 방법을 선별할 수 있었다.

이와 같은 다양한 주제의 빅데이터 분석 연구를 통해, 4차산업이 가져오는 패러다임 변화에 적합한 생명과학 연구 방법론을 확립하고, 의생명과학분야의 다양한 데이터와의 광범위한 연결과 융합을 통해, 새로운 지식과 정보의 창출을 시도하고 있다.

 

제공 : 재단법인 미래의학연구재단(http://medicalinnovation.or.kr/)

기사공유   트위터   페이스북   싸이공감   구글
독자 의견남기기

독자의견쓰기   운영원칙보기

(0/500자) 로그인

리플달기

댓글   숨기기

독자의견(댓글)을 달아주세요.

뉴스홈으로    이전페이지로    맨위로

인기기사    댓글달린기사    공감기사

lactodios
Solution Med Story
한풍제약 -굿모닝에스
한풍제약 - 경옥고
블랙모어스 - 피쉬 오일

한국제약산업 100년의 주역

<59> 천병년 <우정바이오대표이사 / 제55회 / 2019년도 >

천병년(千炳年) 우정바이오 대표이사는 신약개발 전...

<58> 한승수 <제일파마홀딩스 회장/ 제54회 / 2018년도>

1959년 창립된 제일약품은 지난해 6월, 미래성장 추...

<57> 윤도준 <동화약품 회장 / 제53회 / 2017년도>

윤도준 동화약품 회장은 고(故) 윤광열 동화약품 명...

<56> 김동연 (한국신약개발조합이사장 / 제52회 / 2016년)

  김동연 한국신약개발 이사장은 1950년 출생, ...

<55> 이성우 (삼진제약사장 / 제51회 / 2014년)

  이성우 삼진제약 사장은 중앙대학교 약학대학...

더보기

사람들 interview

유한양행 이정희사장 "볼륨만 초점 맞춘 '상품' 원상복구"

"2026년 100주년 제2도약...2년 내 투자액 모두 회...

더보기

실시간 댓글 더보기

오피니언 더보기

의약정보 더보기

약업북몰    신간안내

약창춘추(藥窓春秋) 2

약창춘추(藥窓春秋) 2

심창구 서울대 명예교수(전 식약청장)가 약업신문에 10...

팜플러스 더보기