하민규 스탠다임 AI 개발자 "AI 하고 싶어 대기업 박차고 나왔죠"



인공지능AI:Artificial Intelligence이라고 하면 무엇이 떠오르는가? 얼굴 인식으로 스마트폰의 잠금화면이 풀리고, 의사보다 더 정확하게 암을 진단한다는 예기 또는 AI 스피커 붐을 이끈 음성인식 기술, 삶과 운송 자체를 바꿔버릴 자율주행이 떠오를 것이다. 그에 못지않게 AI 도입 논의가 활발한 분야가 제약이다. 한국제약바이오협회에 따르면 글로벌 신약 개발 R&D 비용 한 해 약 159조 원이며, 5000여 개 신약 후보물질 중 임상실험을 하는 것은 5개, 그중 시판되는 신약은 단 1개다. 신약개발에 드는 시간 12년 이상이다. 이러한 신약 후보물질 개발에 드는 비용과 시간을 AI가 획기적으로 줄이고 있다. 

글·사진 suhyeon@hanbit.co.kr


스탠다임을 한마디로 소개한다면

A. 한마디로 제약 관련 AI 스타트업이다. 전통적인 신약 개발 프로세스는 가장 먼저 기초 탐색, 원천기술 탐색 이후 후보 물질 선정, 전임상 임상실험 승인, 세이프팀 모니터링 순서로 진행되는데, 맨 앞 단계인 후보물질 선정에 AI를 적용했다. 과거에는 신약 후보 물질을 찾기 위해 수많은 종이를 뒤져가며 물질을 공부하고 전문가에게 자문을 구하며 정보를 찾았다. 어떤 약이 특정 질병diseases에 맞는지, 기존 약을 다른 용도로 쓸 수 있는지, 약물의 용도나 후보물질을 탐색하는 일인데, 막대한 비용과 시간이 들었다. 스탠다임은 그 일을 AI와 데이터로 처리하고 있다. 


대기업을 다니다 합류했다 들었다. 쉽지 않은 선택이었을 텐데

A. 모 대기업의 유럽 R&D 센터에서 팀장으로 일했다. 사내정치로 팀이 정리되면서 독일로 자리를 옮겼다. 개발자로서의 생명이 다 했다는 위기감이 컸다. 조직 책임자로 갈 수밖에 없는 상황이었지만, 개발에서 손을 때기는 싫었다. 고심하던 내게 김진한 스탠다임 대표가 합류를 권했다. 독일 생활을 청산하고 한국으로 돌아왔다.

당시 유럽에서는 데이터 과학과 AI가 붐이었다. 홀로 파이썬을 독학하고 머신러닝을 다루며 지냈다. 그럴수록 AI와 데이터란 분야에 점점 매료된 나를 발견했다. 기회가 되면 이쪽에서 일하고 싶다고 막연히 생각하던 때였는데, 그 기회가 이렇게 빨리 찾아올 줄은 몰랐다.


대기업과 스타트업은 문화부터 다르지 않은가? 적응에 어려움은 없었나

A. 대기업에서는 쳇바퀴 같은 일상의 반복이었다. 개인의 능력보다는 회사 프로세스에 순응하는 능력이 뛰어난 사람이 인정받는 곳이다. 스타트업의 분위기는 사뭇 다르다. 여러 사람의 일에 관여해야 하고, 머리를 싸매며 프로젝트 아이디어를 내야 한다. 시작부터 끝까지 하나의 프로젝트를 팀원과 함께 한다는 게 내게는 색다르고 각별한 경험이었다.


스탠다임에서 맡은 일은?

A. SW 개발을 맡고 있다. 텐서플로, 케라스, 엑스큐브XCube 등의 머신러닝/딥러닝 프레임워크로 AI 소프트웨어를 개발한다. 생물학biology 관련 오픈소스 프로젝트도 사용한다.

학습 시스템으로는 자체 서버를 두고 사용하고 있다. 최근에는 스타트업 지원 정책을 이용해 구글 클라우드도 일부 써보고 있기는 하다. 그 외에도 스탠다임 내부에 약과 질병 관계를 검색할 수 있는 시스템을 구축, 운영 중이다. 이름 하야 구텐베르크Gutenberg다. AI는 아니고 엘라스틱서치 기반의 시스템이다. 

EMR 데이터로 임상실험 단계의 시간을 줄여주는 프로젝트도 아주대병원과 협력하여 진행하고 있다.

시스템은 그렇고, 프레임워크로는 텐서플로를 주로 쓰고 프로젝트에 따라 케라스를 쓰기도 한다. 텐서플로는 입력이 여러 개고 중간 노드에서 임베딩 데이터를 뽑거나 조작해야 할 때도 있는데, 디버깅이 쉽지 않고 라이브러리도 너무 자주 업데이트되어서 고민이다. 그래서 요즘에는 간단한 것은 케라스를 좀 더 많이 쓰는 편이다.

문제에 따라 많은 알고리즘을 사용하는데 트리베이스를 필요할 경우에는 XGBoosteXtreme Gradient Boosting도 쓴다.


제약과 IT의 융합 분야다. 용어 등 의사소통이 어려웠을 것 같다

A. 생물학 전문가와 협력할 일이 많다. 처음에는 무슨 얘기를 하는지 알아듣기 어려웠다. 분명 ‘바이러스’ 얘기 같은데, 그 내용을 전혀 모르겠더라. 나만 그런 것은 아니었다. 나와 일하는 생물학 전문가는 AI를 몰라 힘들다고 하더라.


그래서 어떻게 의사소통 문제를 해결했는가

A. 생물학 전문가와 딥러닝과 머신러닝 스터디를 했다. 입사한 지 반년이 지난 지금은 눈높이가 거의 같아졌다. 텐서플로나 케라스 등의 AI 프레임워크를 스탠다임에 맞게 공유 라이브러리화 해 두었다. 생물학 전공자에게 예제 샘플을 보여주면 직접 입력해 실험을 한다. 아직은 생물학 용어가 낯설어 모르는 용어가 간간히 있긴 하다. 그때마다 바로 물으며 일하고 있다.


AI와 함께 질병과 약물 간의 생물학적 움직임을 나타내는 그래프DB(graphDB)를 쓴다 들었다.

A. 각 국가나 약학 관련 대학교, 연구소가 공개한 오픈 데이터베이스 등이 있다. 여기에 오기 전까지만 해도 제약과 빅데이터는 큰 관련이 없다 생각했는데 실상은 달랐다. 엄청난 양의 비정형 데이터가 산적해 있었다. 뿐만 아니라 약 관련 데이터베이스Database, 이하 DB 따로, 질병 DB 따로, 단백질 구조 DB 등 데이터베이스가 다 따로따로 흩어져 있었다. 그중 10군데의 DB를 선별해 그래프DB로 만들었다. 약과 질병의 관계, 약과 단백질 구조의 관계 등은 노드node와 엣지edge로 표현할 수 있다. 이런 식으로 약과 질병의 관계를 그래프DB로 표현하고 진 익스프레션gene expression이라고 유전자 정보를 수치화한 걸 가져와 약 정보를 다시 데이터화시키고 AI에 학습시켰다. 그러면 비슷한 역할을 하는 약은 같은 효능의 약끼리 모이며 군집화 된다. 이를 토대로 후보 물질을 찾아내고 있다.


데이터에도 시의성, 지역성이 있는데, 의료데이터에서는 이 문제를 어떻게 해결했나? 개인정보도 이슈였을 텐데.

A. 지역마다 풍토병, 바이러스 등에 차이가 있고, 아직 고민 중이다. 지역성까지는 DB에 반영하지는 못하고 있다. 환자의 의료 데이터는 이름이나 환자 정보를 지워도 그 자체가 개인정보다. 특정 병에 걸린 사람이 국내에 몇 명 없으면 개인을 특정할 수도 있기 때문이다. 그런 정보는 외부 유출이 안 되기 때문에 병원에 직접 가야 확인할 수 있다.


후보물질은 전립선 치료제를 탈모 치료에 쓰는 것처럼 약물의 새로운 용도를 찾아내는 일이다. 기억에 남는 신약 개발 사례가 궁금하다

A. AI를 통해 몇 개의 후보물질을 찾아냈다. 항암제와 파킨슨병 관련 약인데 지금은 임상실험 단계에 들어간 것으로 알고 있다. 최근에는 비알콜성 지방간 약의 후보물질을 찾는 임상실험 중이다. AI에서는 후보물질이 코드(숫자)로 표기돼 있어 아쉽게도 원래 무슨 용도의 치료제였는지는 기억나지 않는다. (웃음)


신약 개발에 알맞은 알고리즘, 모델을 찾은 과정이 궁금하다

A. 이미지 프로세싱의 경우 데이터 어그멘테이셔닝Data Augmentationing이라고 사진을 약간 회전시키며 데이터를 늘리는 게 가능하지만, 신약 개발에 쓰는 생물학 데이터는 한정적이라 데이터를 더 늘리거나 특징을 넣기 어려워 문제 해결이 쉽지 않다. 문제를 잘게 쪼개서 풀거나 파라미터매개변수를 바꿔보고, 그래도 안 되면 알고리즘을, 그래도 안 되면 모델링이 잘못된 거라고 보고 모델링을 수정하고 있다.


왜 그러한 결과가 나왔는지 검증은 어떻게 하는가

A. AI가 10개 중 1개를 고르는 문제의 답으로 3번을 예측했다 치자. 생물학자는 생물학적 판단으로 이런 결정이 나왔는지 해석해야 하는데, 딥러닝은 입력과 결과가 있을 뿐 과정을 들여다볼 수 없는 ‘블랙박스’라 검증이 불가능하다. 노드만 있어 생물학적 판단 기준을 전혀 알 수 없는 것이다. 그런데 XGBoost 알고리즘은 트리 기반으로 역추적이 가능하다. 그래서 검증이 필요한 경우 XGBoost 알고리즘을 쓰고 있다.


AI 도입 과정에서 어떤 어려움이 있었고 어떻게 극복했는가

A. 생물학 정보는 필요한 특징의 수가 수천, 수백 개다. 천 차원 정도의 데이터가 있고 이걸 학습시켜야 한다. 물론 처음부터 결과가 좋지는 않았다. 차원을 축소하고, 약 임베딩과 알고리즘 등 여러 아이디어를 내는 노력 끝에 지금에 이른 것이다.

가장 힘든 것은 역시나 데이터 전처리였다. 여기저기에 산재한 비정형 데이터를 프로세싱하는 데에도 많은 시간이 걸렸다. 데이터를 파싱하고, 데이터베이스화하고, 그래프로 처리하고, 때때로 테스트를 위해 CSV를 만들어야 했다. 이런 과정은 정말 힘들었지만, 정말 중요한 과정이다.


신약 개발 외의 제약 분야에서는 AI 활용에 대해 어떤 논의가 있는가

A. 전 세계에 제약 분야를 다루는 AI 스타트업은 몇 개 없다. 후보물질 탐색, 약물 용도 변경 분야는 이제 막 걸음마를 땐 상태다. 최근 영국의 거대 제약회사인 글락소스미스클라인GSK이 빅데이터 전담 팀을 꾸렸다고 들었다. 거대 제약회사는 실험으로 내부에서 데이터를 만들 수 있기 때문에 그들이 데이터를 끌어 모아 AI를 활용한다면 AI 활용처가 더 넓어질 것이다. 아직 국내에서는 이런 움직임이 없는 것으로 알고 있다.

그러나 유럽 여러 나라를 돌아다녀 봐도 한국만큼 의료 체계가 잘 갖춰진 나라는 없었다. 한국은 AI와 데이터로 의료혁신을 일으키기 좋은 인프라를 가지고 있다. 이러한 강점을 살려 의료 데이터를 체계적으로 정보화해 함께 활용하고 연구할 수 있도록 정책 등의 지원이 하루빨리 뒷받침되기를 바라고 있다.


앞으로의 계획은

A. 앞으로의 과제는 스탠다임 AI의 고도화다. 데이터 제네레이션data generation, 게더링gathering부터 러닝 결과, 리포팅까지 한 번에 끝나는 리액티브 시스템Reactive System을 구축하는 게 목표다.


끝으로 하고 싶은 말이 있다면

A. 대기업을 나와 스타트업에 간다고 하니 곧 죽을 사람처럼 왜 그런 결정을 했냐고 지인이 하나 같이 만류했다. 하지만 난 회사 이름만 보고 들어가는 시대는 끝났다고 본다. 대기업에 목매는 현상 말이다. 먹고 살기 위해 하기 싫은 일을 하며 대기업에 들어가기보다는, 차라리 정말 하고 싶은 것을 찾아 스타트업이든, 어디든 가는 게 자신에게 더 좋다고 본다. 

우리가 사는 이 시대를 SW 세상이라고 말한다. 스타벅스 내에도 SW 팀이 있다. 커피회사뿐 아니라 신발공장 등 SW가 들어가지 않은 산업과 회사를 찾기 어렵다. 기회는 어디든 있다. 꿈을 버리지 말고 하고 싶을 일을 끝까지 하기 바란다.