
AI 신약개발 기업 신테카바이오(대표 정종선)는 거대언어모델(LLM) 기반 단백질-저분자 결합 분석 모델 '3bm GPT' 관련 연구가 스위스에 위치한 국제 SCI 학술지 'MDPI Molecules' 30주년 특별판(Recent Advances in Computational and Theoretical Chemistry)에 게재됐다고 24일 밝혔다.
이번 논문은 복잡한 3차원 단백질-리간드 결합 정보를 언어 형태로 변환해 ChatGPT와 같은 거대언어모델(LLM)로 학습시키는 새로운 접근을 제시했다는 점에서 학계의 주목을 받았다.
LLM은 방대한 텍스트 데이터를 학습해 언어의 패턴과 의미를 이해하는 AI 기술로, 최근 ChatGPT 등을 통해 대중화되었으나 생명과학 데이터, 특히 3차원 분자 결합 정보에 적용한 사례는 드물다. 특히 이 기술은 신테카바이오의 AI 신약개발 플랫폼 '딥매처(DeepMatcher)'의 인지형 AI 모듈로 적용될 예정이어서, 이번 학술지 게재는 실전 기술의 과학적 검증이라는 점에서 의미가 크다.
연구진은 단백질과 저분자 물질 간 상호작용을 'interaction word'로 표현하고, 쿨롱법칙 알고리즘 기반으로 결합의 전자적·공간적 본드 특성을 포함해 약 6천만 개의 결합 상호작용 문장을 생성한 뒤 GPT-2 아키텍처 기반 LLM에 학습시켜 3bmGPT 모델을 구축했다. 이는 기존 구조 기반 분석이나 물리 연산 중심의 시뮬레이션과는 완전히 다른 방식으로, LLM의 언어 이해 능력을 생명과학 데이터에 접목한 새로운 시도다.
신테카바이오의 모델은 언어 기반 자료만으로도 실제 단백질-리간드 결합의 성질을 포착하는 능력을 보여주었다. 연구팀은 GPT 모델이 생성한 logit 벡터를 분석해 언어가 반영한 결합 특성이 실제 구조적 특징과 얼마나 일치하는지를 확인했으며, EGFR·ABL1 등 주요 단백질군에서는 해당 계열이 공유하는 결합 패턴을 GPT가 스스로 구분하는 결과를 도출했다. 이는 언어화된 1D 정보만으로도 생명과학적 3D 결합 의미를 이해한다는 것을 실험적으로 보여준 사례로 평가되고 있다.
특히 LLM이 생성한 언어적 표현(logits)이 실제 단백질 결합의 구조적 특징과 일정 수준 이상 대응한다는 점은 기존 신약개발 AI 연구에서는 거의 다뤄지지 않았던 새로운 결과로, 거대 언어 모델이 신약개발의 새로운 분석 축으로 자리 잡을 수 있음을 보여준다.
신테카바이오 정종선 대표는 "이번 연구는 단백질-리간드 결합을 언어로 변환해 거대언어모델(LLM)에 학습시키는 새로운 기술을 국제 저널을 통해 공식적으로 검증받았다는 데 큰 의미가 있다"며 "특히 기존 구조 기반 도구들과의 직접 비교에서 우수한 성능을 입증한 것이 핵심"이라고 밝혔다.
이어 그는 "logit 분석을 통해 언어 기반 모델이 3D 결합 특성을 정량적으로 재현할 수 있음을 실험적으로 증명했다"며 "이번 학술적 검증을 바탕으로 실질적인 신약개발 프로젝트에 적용해 나갈 것"이라고 말했다.
주목할 점은 3bm GPT의 핵심 기술이 이미 신테카바이오의 AI 신약개발 플랫폼에 실제로 적용될 예정이며, 이번 국제 학술지 게재는 실전 기술의 과학적 타당성을 공식적으로 입증받은 것이라는 점이다. 또한 관련 기술에 대해 지난해 국내 특허를 취득했으며 미국에도 특허를 출원해 심사가 진행 중이다.
한편 이번 연구는 신테카바이오 연구진과 AI 컴퓨팅 기업 Cerebras Systems의 Bin Claire Zhang 박사가 공동으로 수행했다. 신테카바이오는 연구의 투명성을 위해 사전 학습된 모델과 코드를 Zenodo 및 GitHub를 통해 공개했다.
| 인기기사 | 더보기 + |
| 1 | 툴젠, 홍콩 진에딧바이오와 전략적 크로스 라이선스 계약 체결 |
| 2 | [기업분석] 파마리서치 3Q 매출 1354억…전년比 51.8%↑ |
| 3 | 마이크로디지탈, 대표 바이오소부장..일회용바이오리액터 국내 최초 사업화 |
| 4 | 삼천당제약, 3Q 당기매출 전년比 10.8%↑, 영업익 · 순익 흑자전환 |
| 5 | [기업분석] 아모레퍼시픽H 3Q 누적 순이익 …전년比 60.1%↓ |
| 6 | 모더나, 2028년 BE 목표 선언…“백신으로 버티고 종양으로 성장한다” |
| 7 | 지역의사제 첫 관문…지역의료 회복 vs 인프라 경고 |
| 8 | 미래의학연구재단 경연 우승 '바이오바이츠' 근감소증 돌파구 찾는다 |
| 9 | '노보가 성장 멈추면 덴마크도 성장 멈춘다' |
| 10 | [히트상품톺아보기㉜] 바이오 신물질로 만든 세포랩 '바이오제닉 에센스' 항노화 효능 '뚜렷' |
| 인터뷰 | 더보기 + |
| PEOPLE | 더보기 + |
| 컬쳐/클래시그널 | 더보기 + |

AI 신약개발 기업 신테카바이오(대표 정종선)는 거대언어모델(LLM) 기반 단백질-저분자 결합 분석 모델 '3bm GPT' 관련 연구가 스위스에 위치한 국제 SCI 학술지 'MDPI Molecules' 30주년 특별판(Recent Advances in Computational and Theoretical Chemistry)에 게재됐다고 24일 밝혔다.
이번 논문은 복잡한 3차원 단백질-리간드 결합 정보를 언어 형태로 변환해 ChatGPT와 같은 거대언어모델(LLM)로 학습시키는 새로운 접근을 제시했다는 점에서 학계의 주목을 받았다.
LLM은 방대한 텍스트 데이터를 학습해 언어의 패턴과 의미를 이해하는 AI 기술로, 최근 ChatGPT 등을 통해 대중화되었으나 생명과학 데이터, 특히 3차원 분자 결합 정보에 적용한 사례는 드물다. 특히 이 기술은 신테카바이오의 AI 신약개발 플랫폼 '딥매처(DeepMatcher)'의 인지형 AI 모듈로 적용될 예정이어서, 이번 학술지 게재는 실전 기술의 과학적 검증이라는 점에서 의미가 크다.
연구진은 단백질과 저분자 물질 간 상호작용을 'interaction word'로 표현하고, 쿨롱법칙 알고리즘 기반으로 결합의 전자적·공간적 본드 특성을 포함해 약 6천만 개의 결합 상호작용 문장을 생성한 뒤 GPT-2 아키텍처 기반 LLM에 학습시켜 3bmGPT 모델을 구축했다. 이는 기존 구조 기반 분석이나 물리 연산 중심의 시뮬레이션과는 완전히 다른 방식으로, LLM의 언어 이해 능력을 생명과학 데이터에 접목한 새로운 시도다.
신테카바이오의 모델은 언어 기반 자료만으로도 실제 단백질-리간드 결합의 성질을 포착하는 능력을 보여주었다. 연구팀은 GPT 모델이 생성한 logit 벡터를 분석해 언어가 반영한 결합 특성이 실제 구조적 특징과 얼마나 일치하는지를 확인했으며, EGFR·ABL1 등 주요 단백질군에서는 해당 계열이 공유하는 결합 패턴을 GPT가 스스로 구분하는 결과를 도출했다. 이는 언어화된 1D 정보만으로도 생명과학적 3D 결합 의미를 이해한다는 것을 실험적으로 보여준 사례로 평가되고 있다.
특히 LLM이 생성한 언어적 표현(logits)이 실제 단백질 결합의 구조적 특징과 일정 수준 이상 대응한다는 점은 기존 신약개발 AI 연구에서는 거의 다뤄지지 않았던 새로운 결과로, 거대 언어 모델이 신약개발의 새로운 분석 축으로 자리 잡을 수 있음을 보여준다.
신테카바이오 정종선 대표는 "이번 연구는 단백질-리간드 결합을 언어로 변환해 거대언어모델(LLM)에 학습시키는 새로운 기술을 국제 저널을 통해 공식적으로 검증받았다는 데 큰 의미가 있다"며 "특히 기존 구조 기반 도구들과의 직접 비교에서 우수한 성능을 입증한 것이 핵심"이라고 밝혔다.
이어 그는 "logit 분석을 통해 언어 기반 모델이 3D 결합 특성을 정량적으로 재현할 수 있음을 실험적으로 증명했다"며 "이번 학술적 검증을 바탕으로 실질적인 신약개발 프로젝트에 적용해 나갈 것"이라고 말했다.
주목할 점은 3bm GPT의 핵심 기술이 이미 신테카바이오의 AI 신약개발 플랫폼에 실제로 적용될 예정이며, 이번 국제 학술지 게재는 실전 기술의 과학적 타당성을 공식적으로 입증받은 것이라는 점이다. 또한 관련 기술에 대해 지난해 국내 특허를 취득했으며 미국에도 특허를 출원해 심사가 진행 중이다.
한편 이번 연구는 신테카바이오 연구진과 AI 컴퓨팅 기업 Cerebras Systems의 Bin Claire Zhang 박사가 공동으로 수행했다. 신테카바이오는 연구의 투명성을 위해 사전 학습된 모델과 코드를 Zenodo 및 GitHub를 통해 공개했다.