작성일 : 21-01-04 18:51
이상엽 KAIST 교수 미 연구팀과 공동개발, 전사인자 예측 시스템 '딥티팩터' 개발, AI 이용해 유전정보 복사 단백질 예측
 글쓴이 : happy
조회 : 10  

이상엽 KAIST 교수, AI 이용해 유전정보 복사 단백질 예측 

  •  길애경 기자
  •  
  •  승인 2020.12.30 11:45
 

미 연구팀과 공동개발, 전사인자 예측 시스템 '딥티팩터' 개발

사인자 예측을 위한 심층 학습 모델의 네트워크 구조.[사진= KAIST]
사인자 예측을 위한 심층 학습 모델의 네트워크 구조.[사진= KAIST]
국내외 공동연구팀이 인공지능을 이용해 유전자 정보 복사 단백질을 예측할 수 있는 기술을 개발했다.

KAIST(총장 신성철)는 이상엽 생명화학공학과 특훈교수와 미국 캘리포니아대학교 샌디에이고 캠퍼스(UCSD) 생명공학과의 버나드 팔슨(Bernhard Palsson) 교수 공동연구팀이 인공지능을 이용해 단백질 서열부터 전사인자를 예측할 수 있는 시스템인 '딥티팩터(DeepTFactor)'를 개발했다고 30일 밝혔다.

전사인자는 특정한 DNA 서열에 특이적으로 결합해 유전정보를 복사하는 과정을 조절하는 단백질이다. 때문에 전사인자를 찾고 유전자 전사를 분석하면 유기체가 유전적, 환경적 변화에 어떻게 반응하고 발현을 제어하는지 이해할 수 있다.

지금까지는 새로운 전사인자를 찾기 위해 유사한 성질(상동성)을 분석하거나 기계학습(머신러닝)과 같은 데이터 기반의 접근 방식을 이용했다. 

기존 기계학습 모델을 이용하려면 분자의 물리 화학적 특성을 계산하거나 생물학적 서열의 상동성을 분석하는 등 입력값으로 사용할 특징을 찾는 과정이 필요하다. 심층학습은 문제 해결을 위한 잠재적인 특징을 내재적으로 학습할 수 있어 다양한 생물학 분야에 활용된다. 그러나 심층학습을 이용한 예측 시스템은 복잡한 연산으로 추론과정을 직접 확인할 수 없어 '블랙박스'라는 특징을 갖고 있다.

연구팀은 심층학습 기법을 이용해 단백질 서열이 전사인자인지 예측할수 있는 시스템인 딥티팩터를 개발했다. 딥티팩터는 단백질 서열로부터 전사인자를 예측하기 위해 세개의 병렬적인 합성곱 신경망을 이용한다. 

공동연구팀은 딥티팩터를 이용해 대장균(Escherichia coli K-12 MG1655)의 전사인자 332개를 예측했다. 그중 3개의 전사인자의 게놈 전체 결합 위치(genome-wide binding site)를 실험으로 확인, 딥티팩터의 성능을 검증했다.

또 딥티팩터의 추론 과정을 이해하기 위해 특징 지도 (saliency map) 기반의 심층 학습 모델 해석 방법론을 사용했다. 이를 통해 딥티팩터의 학습 과정에서 전사인자의 DNA의 결합 영역에 대한 정보가 명시적으로 주어지지 않았지만, 내재적으로 이를 학습해 예측에 활용한다는 사실을 확인했다.

연구팀에 의하면 딥티팩터는 모든 생물군의 단백질 서열에서 우수한 성능을 보여 다양한 유기체의 전사 시스템 분석에 활용 가능할 것으로 기대된다.

이상엽 특훈교수"이번 연구에서 개발한 딥티팩터를 이용해서 새롭게 발견되는 단백질 서열과 아직 특성화되지 않은 수많은 단백질 서열을 높은 처리 능력으로 분석할 수 있게 됐다"며 "이는 유기체의 전자 조절 네트워크 분석을 위한 기초 기술로써 활용 가능할 것"이라고 말했다.

이번 연구는 과기부가 지원하는 기후변화대응기술개발사업의 바이오리파이너리를 위한 시스템대사공학 원천기술개발 과제 지원을 받아 수행됐다. 성과는 국제 학술지 미국국립과학원회보에 28일자 게재됐다. 저자는 김기배(KAIST, 제1저자), 예 가오(Ye Gao, UCSD·제2저자), 버나드 팔슨(UCSD·제3저자), 이상엽(교신저자) 등 4명.