sub contents

Interview

Vol.231

데이터 공유기술,
의료서비스 기술의 진보를 가져오다
창의원천연구본부 사이버브레인연구실 원희선 실장

ETRI가 Eureka 국제공동연구 파트너(PARTNER) 프로젝트에서 솔루션 아키텍처의 역할을 했다.
여러 병원에 흩어져 있는 환자의 정보를 동의 하에 수집해, 공유하는 의료 데이터 허브를 만든 것이다.
환자들의 데이터를 공유하기에, 어느 병원에서 진료받아도 정확한 진단과 빠른 치료가 가능해 질 것으로 기대된다.

국제공동연구 파트너 프로젝트에서 ETRI가 솔루션 아키텍처를 담당했습니다. 솔루션 아키텍처는 무엇인가요?

파트너 프로젝트는 고혈압, 뇌 질환, 당뇨병 등의 만성질환 환자를 대상으로 합니다. 환자의 꾸준한 관리를 돕고, 응급 상황을 예방하며, 환자의 상태에 따른 신속한 조치를 맞춤형으로 제공하는 의료 기술을 개발하는 것을 목표로 하죠.

구체적으로는 환자의 생활 환경과 일상에서 ECG* 센서, 웨어러블 디바이스로부터 측정되는 스트림 데이터를 실시간으로 수집·관리합니다. 여러 병원에 산재한 환자의 의료 정보를 통합·관리하여 활용하는 기술을 만드는 것입니다.

이러한 의료 서비스 구현을 위해서는 센서, 데이터, 보안, 인공지능, 워크플로, 웹 인터페이스 등 매우 다양한 IT 기술과의 연계와 결합이 필요한데요. 솔루션 아키텍쳐는 이에 대한 기술들의 연동방안, 데이터 관리체계, 데이터 보안 및 접근제어, 시스템 구성 등을 데이터 흐름 관점에서 나타낸 프레임워크 구조입니다.
* ECG: 심전도. 심장 활동 시 국소적으로 발생하는 전기변화를 기록한 그림이다.

이번에 개발한 표준기반 데이터 관리체계는 무엇인가요?

PARTNER 프로젝트의 환자 관리 서비스 개념도

여러 병원과 기관에서 관리하는 데이터를 통합하고, 검색해서 활용하려면 표준화가 필요해요. 다양한 기관에서 데이터를 모았기 때문에 관리 방법이나 데이터 형식이 다 다르거든요. 그래서 이 데이터들에 대한 메타데이터* 모델을 표준화해야 상호운용이 가능해집니다.

이번에 개발한 데이터 관리체계는 메타데이터 정보와 연관된 항목들인 데이터의 분류체계, 식별체계, 보안, 라이센스, 카탈로그, 원시 데이터의 유형, 저장구조, 품질 정보 등을 관리하고 기술하는 방식을 표준기반으로 체계화했습니다. 데이터 수집부터 저장, 교환, 활용, 폐기까지의 전 라이프사이클에 걸쳐 각 사이클에 해당하는 메타데이터가 체계적으로 관리되도록 시스템화한 것이죠.

여기서 중요한 것은 메타데이터 항목들인데요. W3C DCAT**를 기본 모델로 W3C PROF***와 DQV**** 모델을 확장, 적용했어요. 덕분에 데이터의 스펙, 제약조건, 스키마, 검증, 예시, 품질과 관련한 다양한 정보를 기술할 수 있게 됐죠. 또 새로운 어휘, 용어를 사전에 정의해 다른 시스템에서도 동일한 의미로 해석할 수 있도록 지원하고 있답니다.

확장된 모든 메타데이터를 기술하는 데이터 카탈로그는 RDF***** 표준문서 형식으로 배포·전송되고, 교환되므로 시스템 상호 간 해석이 가능해요. 따라서 데이터 처리의 자동화 및 활용이 쉬워지게 되죠.
* 메타데이터: 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터이다.** W3C DCAT: W3C(World Wide Web Consortium)는 웹 표준과 가이드라인을 개발하고 리딩하는 국제 표준 조직이며, DCAT(Data Catalog Vocabulary)는 웹에 게시된 데이터 카탈로그 간의 상호운용성이 용이하도록 설계된 RDF 어휘 표준이다.*** W3C PROF: W3C PROF(The Profiles Vocabulary)는 다양한 정보 자원에 대한 프로파일을 기계판독이 가능하도록 정의한 RDF 어휘로써 기술문서로 배포되었다.**** DQV(Data Quality Vocabulary): 데이터의 품질관리 표준에 대한 데이터 모델이다.***** RDF(Resource Description Framework): 웹상에서 데이터 교환을 위한 메타데이터용 데이터 모델로 설계된 표준으로, 그래프 데이터의 서술 및 교환을 위한 일반적인 방법으로 사용되고 있다.

표준기반 데이터 관리체계 기술은 개발 시 무엇을 신경 쓰나요?

지금도 계속해서 데이터 관리체계 기술을 연구하고 확장하고 있는데요. 데이터 관리체계에 필요한 항목들을 도출하고, 관련된 국제 표준을 적용하거나 새로 개발하기도 해요. 요즘은 데이터의 종류가 다양해지고, 범위가 확장되는 추세예요. 또한 데이터 공유와 활용 효율성을 위한 시스템 간의 상호운용성, 데이터 파이프라인의 자동화에 대한 요구사항이 증가하고 있죠. 이에 따라서 관리 대상과 항목도 확대될 것으로 예상합니다.

또한, DCAT, Schema.org*, HL7 FHIR**, SBOM*** 등 자원의 종류와 산업별로 표준모델이 다양한 점을 고려해야 하고, 새로운 표준들에도 대비해야 하는데요. 현재 진행 중인 연구에서는 계층적 관리체계로 포용성과 확장성을 지원하는 특징이 있어요. 웹 자원의 유형을 구분했고, 각 자원과 연관된 표준을 기반으로 메타데이터를 기술할 수 있도록 설계했죠. 현재 시스템 개발을 진행 중입니다.
* Schema.org: 웹 페이지에서 구조화된 데이터 마크업을 사용하기 위한 문서 및 지침을 게시하는 참조 웹 사이트로, 주요 목표는 웹 마스터가 사용할 HTML 태그를 표준화하는 것이다.** HL7 FHIR(Health Level 7 Fast Healthcare Interoperability Resources): 국제기구 HL7에서 의료기관 간의 상호운용성을 보장하기 위해 개발한 차세대 의료정보 표준 프레임워크다.*** SBOM(Software Bill of Materials): 소프트웨어의 구성 컴포넌트에 관한 메타정보.

시스템 아키텍처는 솔루션 아키텍처와 다른가요?

PARTNER HUB 연동 시나리오

솔루션 아키텍처는 파트너 프로젝트에 참여하는 공동연구 기관들이 개발하는 시스템 간의 연동, 제어, 표준, 데이터 모델 등에 대한 설계예요. 시스템 아키텍처는 솔루션 아키텍처에서 데이터 관리, 연계 기능을 담당하는 중앙집중형 데이터 관리 플랫폼인 PARTNER HUB 구조를 말하는 것이죠.

세부 기능으로는 다양한 디바이스로부터 데이터를 수집하여, 저장, 관리하는 기능이 있어요. 또, 의료 정보 시스템과의 상호운용 기능도 있어요. 의료진의 협업 워크플로, 환자 포털 등의 다양한 애플리케이션을 보안 규정에 따라 환자 데이터와 연결하고 분석해 주는 것이죠.

개발된 기술은 의료시스템에 어떻게 적용됐나요?

PARTNER HUB의 SODAS & FHIR 연동 구조

HL7 FHIR가 차세대 국제의료표준으로 인식되고 있어서, 오픈소스 HAPI FHIR*를 기존 과제 결과인 개방형 데이터 허브 SODAS**와 연동하여 PARTNER HUB를 구축했어요. 개발 당시 FHIR의 비정형 스트림 데이터 관리 모델이 미흡했거든요. 그래서 SODAS에는 ECG, 온도, 대기질 등의 스트림 데이터와 일반 데이터를 관리하고, HAPI FHIR에는 병원의 의료정보를 관리하도록 분리했어요. 두 시스템의 사용자와 데이터 카탈로그는 통합 관리해서 데이터 검색과 접근제어를 지원했죠.

의료시스템에의 적용은 다양한 구성으로 시스템을 구축할 수 있어요. SODAS 중심의 FHIR 시스템 연동, FHIR 시스템을 중심으로 한 SODAS 연동, FHIR 시스템 단독 구축까지 모두 가능해요. 의료시스템에서 다루는 데이터의 범위, FHIR 스펙의 지원 수준, 완성도 등을 검토해 요구사항에 맞게 구성할 수 있는 거죠. 현재 SODAS는 기존보다 많은 부분을 개선해 개발되고 있어요. 몇몇 기업과 기술이전 논의가 진행되고 있어서 올해 중 상용화가 가능하길 기대하고 있습니다.
* HAPI FHIR: HL7 FHIR 표준 스펙을 구현한 오픈소스로, Apache Software License 2.0 라이센스가 적용되며, Java로 구현된다.** SODAS(Smart Open Data As a Service): 한국전자통신연구원에서 연구개발 중인 서비스. 데이터 거버넌스 플랫폼, 개방형 데이터 허브, 데이터 탐색 및 공유, 킅라우드 기반 분석환경 등의 솔루션들을 연계, 통합하여 구축되었다.

의료시스템이 아닌 다른 분야에도 적용될 수 있을 것 같습니다.

시스템의 기능들이 모듈화되어 있습니다. 확장성을 고려하여 데이터 모델을 설계하고 구현하면 다른 분야에도 적용할 수 있어요. 기존의 데이터 허브도 다양한 분야에 적용되었고, 현재 개발 중인 시스템도 여러 분야에 적용이 가능하거든요. 금융, 환경, 정보문화, 물류 등 다양한 곳에 말이죠.

환자들의 데이터를 모으는 과정이 쉽지 않았을 것 같습니다. 연구에 시행착오는 없었나요?

공동연구기관인 충북대학교 의과대학을 통해 환자를 섭외해, 환자의 집 내부에 환경 센서를 설치했어요. 그 과정이 쉽지만은 않았습니다. 환자 섭외 기간, IRB 심사 기간이 오래 걸리더라고요. 환자의 내원 횟수도 적어서 EMR* 데이터 분량도 부족했고요. 학습데이터를 만들고자 건강보험심사평가원 등의 기관에서 공개한 연구용 데이터도 수집했지만, 의미 있는 분석을 수행하기는 어려웠어요.

그렇지만, 저희는 실시간 ECG 스트림 수집 저장관리, 의료정보의 FHIR 리소스 매핑, 이종 시스템 간의 연동, 마이데이터 기반 접근제어, 진단 저장 분석 워크플로 등을 구현해 본 경험이 있었어요. 이를 기반으로 시스템 관련 이슈들을 해결할 수 있었고, 연구를 수행하는 토대로 사용했죠.
* EMR(Electronic Medical Record): 전자 의료 기록을 말한다.

추후 연구 계획은 무엇인가요?

올해는 그동안 연구해 온 데이터 프로파일, 품질관리 그리고 플랫폼 간 데이터 카탈로그를 실시간으로 자동 동기화하는 기술을 완성해 실증하는 것이 목표입니다. 그리고 이를 기반으로 사용자들이 사용하기 쉬운 오픈 데이터 생태계를 만들고 싶습니다.