ETRI

VOL. 176 May 2021

TOP
Focus on ICT

개방형 데이터 허브,
플랫폼이 되다

IBM에 따르면 오늘날 인간은 하루에 25억 기가바이트, 20조 비트의 데이터를 생산해낸다.
그런데 오늘날 존재하는 데이터의 90%는 2015년 이후 생산됐다고 한다.
이와 같은 추세라면 2025년에는 2015년의 17배인 170제타바이트(10의 21제곱)의 데이터가 생산될 것으로 보인다.
우리는 이렇게 수많은 데이터를 어떻게 저장하고 활용할 수 있을까?

Focus on ICT 관련 이미지1

데이터 시대가 다가오다Data

데이터의 양이 기하급수적으로 늘어나면서 데이터를 저장하고 관리하는 기술이 더 관심을 받고 있다. 특히 최근에는 코로나19로 인해 비대면, 언택트 서비스 등 온라인 데이터를 활용하는 분야가 점차 넓어지면서 데이터를 다루는 기술의 중요성이 커지고 있다. ‘데이터’라는 것은 그것을 사용할 때 의미가 있는 것이기에 데이터를 어떻게 분류하고 찾을 수 있을지 고민이 필요하다.

데이터는 우리의 삶과 밀접한 분야에서 다양하게 활용되고 있다. 코로나19의 확산을 막기 위해 사용되는 데이터들이 가장 대표적인 사례다. 확진자가 발생하는 경우 이동 경로에 따른 모바일 이용 데이터, 신용카드 결제 데이터, CCTV 데이터 등을 분석해 밀접 접촉자를 파악해서 자가격리 여부를 결정하는 것이다. 자가격리 대상자가 격리지를 이탈했는지 여부도 모바일의 위치 데이터를 이용해 판단할 수도 있다. 그야말로 데이터가 우리 일상을 바꾸어 놓고 있다.

Focus on ICT 관련 이미지2

데이터, 어떻게 모아야 할까Data Collection

지난 2020년 7월 정부가 발표한 ‘디지털 뉴딜’에는 ‘데이터 댐’이라는 용어가 새로 등장했다. 데이터 댐은 마치 물을 모아 방류하는 댐처럼 다양한 공공 및 민간 데이터를 모두가 이용할 수 있도록 하나의 형태로 가공하여 모아두는 것을 말한다. 데이터 댐에서 수집한 데이터들은 다양한 분야의 산업에서 활용되며 그 역할을 수행한다.

데이터 댐을 만들기 위해서는 데이터 허브가 필요하다. 데이터 허브는 다양한 데이터들을 통합하여 이를 가공하고 체계적으로 관리해 필요한 정보를 만드는 데이터 플랫폼이다. 특히 최근에는 빅데이터가 새로운 성장 동력으로 기업들이나 국가 차원에서도 매우 중요한 자원이라는 인식이 사회 전반적으로 자리 잡으면서 데이터 처리 기술이 더 주목받고 있다.

Focus on ICT 관련 이미지2

개방형 데이터 허브의 가능성possibility

개방형 데이터 허브 기술은 누구나 자유롭게 데이터를 등록, 관리, 공유하고 국내외 데이터를 검색하여 활용할 수 있도록 하는 기술이다. 국제 표준을 기반으로 하는 데이터 관리 인프라 클라우드 환경에서의 분석/개발/서비스 기술로 구성되는 SW의 뼈대와도 같은 기술이라고 볼 수 있다.

먼저 데이터 관리 인프라 기술은 각 산업 분야별로 특성에 맞게 데이터 분류체계를 여러 단계의 카테고리로 세분화하고 이를 서술하는 '메타데이터'를 기반으로 관리체계를 구성한다. 특히 W3C(World Wide Web Consortium)에서 제안하는 DCAT1) PROF2) 규격을 활용하여 RDF3) 형식의 데이터맵4)을 생성·배포하며 다양한 표준 및 기 구축된 시스템과의 호환성을 높인다. 한 마디로 방대한 데이터를 체계적으로 관리하여 데이터의 검색 정확도를 높이고 필터링 기술을 강화해 사용자가 원하는 데이터를 간편하고 효율적으로 찾고 사용할 수 있도록 하는 것이다.

또한, 클라우드 분석개발과 운영 환경 기술은 사용자의 요구에 맞게 컴퓨팅 자원을 할당하고 SW를 설치하여 검색한 데이터를 가져와서 바로 분석하거나 서비스를 개발하도록 지원한다. 분석 데이터와 알고리즘 등의 결과는 다른 사용자를 위해 재배포도 가능하다. 즉 데이터를 저장하고 접근하는 방식을 클라우드 환경에서 효율적으로 개선하여 사용 환경을 최적화하는 것이다. 이러한 모든 데이터 허브의 기능은 관리자 대시보드를 통해 조직, 사용자별로 통제, 제어하고 모니터링할 수 있다.

이 같은 기술을 활용하면 특히 의료 분야에서 많은 효과를 볼 수 있다. 예를 들어 의료 도메인의 표준을 적용하여 환자 목록, 검사 내용, 상세 정보 등 개별 환자의 구체적인 의료 정보에 빠르게 접근해 환자에게 필요한 최적의 조치를 신속하게 취하는 것이 가능하다.

1) Data Catalog Vocabulary
W3C가 주도하는 데이터 탐색 및 교환을 위한 데이터 카탈로그 표준 규격

2) The Profiles Vocabulary
정보자원을 표현하는 메타데이터 모델 확장 규격으로 기계판독성 지원

3) Resource Description Framework
웹에 있는 정보자원을 표현하기 위한 구문, 구조 프레임워크

4) Data Map
융합, 활용, 탐색 등을 위한 다양한 메타데이터 정보로 표현된 데이터 카탈로그의 일종

Focus on ICT 관련 이미지5

개방형 데이터 허브 기술이 보여주는 미래the future

최근 공공, 민간 전 산업 분야에서 데이터에 대한 관심과 수요가 급속하게 증가하고 있으나, 아직까지 대부분의 기관들이 독자적인 시스템으로 데이터를 수집하고 관리해 상호 데이터의 소재 파악이 어렵고 활용도가 낮다. 특히 중소·영세 기업들은 데이터와 전문인력 확보, 분석 시스템 구축과 운영의 부담으로 빅데이터, 인공지능 등 최신 ICT 기술을 활용하는 데에 큰 어려움을 겪고 있다.

데이터 댐은 한국판 뉴딜 10대 과제 중 가장 재정이 많이 투입되는 과제로 5년간 총 15조 5천억 원, 민간 재원을 포함하면 18조 1천억 원이 투입된다. 개방형 데이터 허브 기술을 효과적으로 활용하여 산업 간 융합과 미래 신산업을 창출 효과를 톡톡히 볼 수 있기를 기대해본다.

Focus on ICT 관련 이미지5

본 내용은 ETRI 기술사업화플랫폼에 등재된
'개방형 데이터 허브'를 인용해 구성하였습니다.
저자 : 사이버브레인연구실 원희선 실장

자세한 기술 문의 바로가기
  • 페이스북 공유하기
  • 네이버 공유하기
  • 카카오톡 공유하기