AI 기반 유방암 병리보고서 자동 정보 추출 모델 개발 성공

AI로 병리보고서 읽는다…국립암센터, 정보 자동 추출 모델 개발

국립암센터 데이터결합팀 김현진 팀장과 데이터활용팀 박필립 연구원 연구팀이 AI 기반 자연어 처리로 병리보고서 정보 자동추출에 성공했다. 국내 연구진이 자연어 처리(Natural Language Processing, NLP)로 유방암 병리보고서에서 정보를 자동 추출하는 데 성공했다.

국립암센터는 지난 3일 데이터결합팀 김현진 팀장과 데이터활용팀 박필립 연구원 연구팀이 인공지능(AI) 기반 자연어 처리로 유방암 병리보고서 내 주요 정보를 추출하는 모델을 개발했다고 밝혔다. 자연어 처리는 기계 학습(Machine Learning)과 심층 학습(Deep Learning)을 사용해 컴퓨터가 인간의 언어를 이해하고 소통하도록 돕는 AI 기술이다.

병리보고서는 환자의 조직세포 등을 검사하고 보고하기 위해 작성하는 문서다. 종양 등급과 암의 진행 정도를 나타내는 병기(Pathologic stage)가 포함되어 있어 예후 예측과 치료 결정에 매우 중요한 정보를 제공한다. 하지만 자유 입력 형식의 반정형 데이터로 작성되기 때문에 그동안 활용이 쉽지 않았다.

지난 2020년 9월 제정된 보건의료데이터 활용 가이드라인에서 자유입력정보는 가명 처리 가능 여부가 유보돼 활용이 불가능했다. 하지만 최근 가이드라인이 개정되면서 진료기록 등 자유 입력 데이터는 자연어 처리 등으로 정형데이터로 변환 후 가명 처리해 활용할 수 있다.

연구팀은 수작업으로 데이터를 정형화하거나 일정한 패턴을 기반으로 데이터를 추출하는 정규 표현식(Regular Expression) 방법이 노동집약적이며 지속적으로 누적되는 데이터를 최신화하기는 어렵다는 한계를 극복하고자 자연어 처리 기술을 적용했다.

연구팀은 구글에서 공개한 자연어 처리 언어모델인 BERT basic, BioBERT, ClinicalBERT에 국립암센터 유방암 병리보고서 1,215건을 추가학습(fine tuning)해 최종 모델을 개발했다. 그 결과 모든 모델에서 96% 이상의 정확도를 보였다.

김 팀장은 “이번 연구는 최신 자연어 처리 기술을 활용해 유방암 병리보고서의 주요한 항목들을 성공적으로 추출함으로써 의료 자유입력 정보의 유연한 활용을 위한 첫걸음을 내디뎠다”고 했다.

박 연구원은 “자연어 처리 모델이 기존의 정형화 방법인 정규표현식보다 높은 정확도와 빠른 속도로 병리보고서 정보를 정형화할 수 있음을 확인했다”며 “향후 병리보고서 형태가 달라지더라도 추가 학습을 통해 유연한 대응이 가능하다”고 설명했다.

최귀선 국가암데이터센터장은 “향후 다양한 암종으로 확대하고 다기관의 협력을 통해 검증을 진행해 더욱더 연구자와 환자들에게 실질적인 도움이 될 수 있는 모델로 개선되길 바란다”고 말했다.

이번 연구 결과는 국제 학술지인 ‘플로스원(PLOS ONE)’에 발표됐다. 이번 연구는 국립암센터 암빅데이터센터, 병리과, 유방암센터 등 다학제 연구진과의 협력으로 수행됐다.

강남 어게인은 고품격 서비스를 제공합니다. 스트레스에서 벗어나고 싶으신가요? 여유로운 분위기에서 편안한 시간을 보내실 수 있습니다. 다양한 테마의 즐거움을 위해 고객님을 초대합니다.

강남 어게인 이준사장
전화번호 : 010 – 4457 – 4478
주소 : 서울시 강남구 삼성동 143-35

#강남어게인 #선릉어게인 #어게인호빠 #어게인호스트빠 #어게인호스트바 #강남호빠 #강남호스트빠 #강남호스트바 #호빠 #정빠 #아빠방 #남자보도 #여성전용가라오케