HWP문서[ETRI 보도자료] ETRI, 사람처럼 문서 이해하는 AI 기술 개발 - 0907.hwp

닫기

Embargo

없음

배포일자 : 2021.9.7.(화)

배포번호 : 2021-49호

언어지능연구실

실장

김영길(042-860-6302)

E-mail : kimyk@etri.re.kr

언어지능연구실

책임연구원

임준호(042-860-1322)

E-mail : joonho.lim@etri.re.kr

홍보실

실장

정길호(042-860-0670)

E-mail : khchong@etri.re.kr

홍보실

담당

정이찬(042-860-0812)

E-mail : echanzug@etri.re.kr

매수 : 보도자료 3매(참고자료 2매, 사진자료 5매)

배포처 : ETRI 홍보실

ETRI, 사람처럼 문서 이해하는 AI 기술 개발

- 한글 행정문서 질의응답(QA), 패러프레이즈 API 공개

- AI 적용 불가능했던 고난이도 오피스 문서 한계 극복

국내 연구진이 사람처럼 똑똑하게 문서를 이해하고 원하는 정보를 찾을 있는 기술을 개발했다. 이로써 필요한 내용을 빠르게 파악해 업무 생산성을 높이고 정보 공유와 활용도를 대폭 높이는 데 큰 도움이 될 전망이다.

한국전자통신연구원(ETRI)은 오피스 문서로부터 사용자의 질문에 정답을 알려주고 두 문장이 같은 의미인지 이해하는 API’2종을 개발했다고 밝혔다. 본 기술은 ETRI 공공 인공지능 오픈 API데이터 서비스 포털(https://aiopen.etri.re.kr/)에 공개되어 누구나 쉽게 이용할 수 있다.

현대 조직에서는 다양한 업무 관련 정보와 지식들을 전자문서 형태로 만들고 있다. 정보들은 홈페이지나 그룹웨어에 저장되어 있지만, 게시물 제목과 파일 이름에 포함된 단어로 검색하고 일일이 문서를 열어보며 원하는 내용을 찾아야 하기에 검색 효율성이 떨어졌다.

ETRI는 인공지능 SW를 이용해 원하는 정보를 검색할 수 있을 뿐 아니라 사용자가 하는 질문에 정답과 근거까지 확인할 수 있는 기술을 개발했다.

먼저 행정문서 질의응답(QA) API 기술은 딥러닝 언어모델을 이용해 단락과 표를 인식하여 정답 및 근거 문장을 인식하는 기술이다. 예를 들어출장 경비가 100만 원 들 때, 결재를 어느 선까지 받아야 할까요?라는 질문을 입력하면,‘100만 원 이하인 경우, 실장 전결과 같은 사내 규정 정보를 담은 문서와 그 근거 부분까지 찾아 주는 셈이다.

본 기술은 공동연구기관인 한글과컴퓨터에서 블라인드 평가로 정확도를 측정했다. 그 결과 단락을 대상으로 검색해 나온 상위 5개 결과의 정확도는 89.65%, 표를 대상으로 진행한 검색에서는 81.5%로 높은 정확도를 보였다.

또한, 패러프레이즈(Paraphrase) 인식 API는 사람처럼 똑똑하게 문서를 보고 다른 형태의 문장이 같은 뜻을 지니는지 파악하는 기술이다. 앞서 나온 행정문서QA API와 다른 한국어 AI 개발에도 쓰일 수 있는 원천 기술이다.

인공지능과 딥러닝 기술은 사람과 달리 문장이 조금만 달라져도 의미 관계를 올바르게 인식하지 못하는 견고성(robustness) 문제가 있었다. 예를 들어그는 빨간 자전거를 샀다.그가 산 자전거는 빨간색이다라는 문장은 사람과 기계가 쉽게 구분하지만,그는 빨간 자전거를 안 샀다.라는 문장과는 구분을 잘하지 못한다. <참고 3>

ETRI는 딥러닝 기술의 견고성 한계를 개선하여 다양한 유형의 문장에서 의미 관계를 인식하도록 본 기술을 개발했다. 견고성 평가셋 대상 평가 결과, 96.63% 정확도를 보이며 기존 오픈소스 딥러닝 기술보다 성능을 크게 개선할 수 있었다.

개발된 기술은 표준인 XML 기반으로 문서 서식을 처리한다. 현재는 한글 문서 대상으로만 서비스를 제공하지만, 개발 기술 자체는 워드, PDF 등 다른 문서에도 범용적으로 쓰일 수 있다. 덕분에 사내 규정, 뉴얼, 온라인 공고 등 다양한 문서와 분야에 적용될 전망이다.

연구진은 오피스 문서 서식이 다양하고 정형화되지 않아 인공지능 기술을 적용하기 어려웠지만, 견고성이 높은 데이터를 구축하고 무엇이 문제인지 판단하는 알고리즘 성능을 높이면서 본 성과를 낼 수 있었다고 밝혔다.

향후에는 GPT-3에 대응하여 언어이해와 생성을 동시에 학습한 딥러닝 언어모델을 개발하고 관련 기술을 공개하면서 AI 기술력을 고도화하고 플랫폼 개발에도 기여한다는 계획이다.

ETRI 언어지능연구실 임준호 박사는본 기술로 한국어 인공지능 서비스 시장이 더욱 활성화되어 외산 인공지능 솔루션의 국내시장 잠식을 막고 국민들이 유용한 지식 정보를 쉽고 빠르게 습득할 수 있는데 도움이 되기를 기대한다.라고 밝혔다.

연구진은‘17년 10월 이후 지금까지 API 총 18건을 공개하고 최근 4년간 기술이전 65건과 사업화 35건을 달성했다. ETRI API는 그간 총 4천 7백만 건이 사용되었으며 2020년 이후, 일 평균 4만 5천 건 이상 사용될 정도로 학계 및 산업계 언어처리 분야 연구자들에게 널리 사용되고 있다. 특히, 은행, 보험, 제조, 법률, 공항, 온라인 맞춤형 광고 등 다양한 AI 서비스 분야에 적용되어 대한민국 지능화에 기여하고 있다.

본 연구는 2013년부터 ETRI가 총괄 및 1세부과제를 맡은 과학기술정보통신부와 정보통신기획평가원(IITP)의 혁신성장동력 프로젝트와 전체 세부과제를 이끄는 엑소브레인 과제의 일환으로 이뤄졌다. <보도자료 본문 끝>

참고1

엑소브레인 행정문서QA API 블라인드 평가 결과 및 데모UI

구분

평가 대상 질문

심볼릭 검색 성능

(@Top1)

행정문서QA 성능 (@Top1)

행정문서QA 성능 (@Top5)

딥러닝 검색

단락

2,677 질문

69.5%

79.19% (+9.69%)

89.65%

200 질문

60.0%

70.50% (+10.5%)

81.50%

질의응답

(근거 및 정답 인식)

단락

2,677 질문

-

75.11%

83.05%

200 질문

-

71.96%

80.55%

(블라인드 평가 환경) : 오피스 문서 집합 1,000개 문서, 36,097개 단락, 27,495개 표

(성능 평가 기준) : 검색: Top1 Top5 결과 중 정답 단락 및 표 검색 성능

* 질의응답: 정답 텍스트와 시스템 출력 텍스트 사이 F1 평가

참고2

엑소브레인 패러프레이즈 인식 API 성능 및 데모UI

패러프레이즈 평가셋

문장 수

오픈소스1)

(pororo)

패러프레이즈 인식 OpenAPI

성능 차이

도치형 문장쌍 평가셋

(구글, PASW-X:ko)

2,000개 문장쌍

84.48%

84.85%

+0.37%

뉴스 문장쌍 평가셋

1,209개 문장쌍

45.03%

87.34%

+42.31%

질문 문장쌍 평가셋

2,000개 문장쌍

64.85%

90.42%

+25.57%

패러프레이즈 견고성 평가셋

12,999개 문장쌍

11.28%

96.63%

+85.35%

1) 패러프레이즈 인식 오픈소스로 pororo 라이브러리와 비교

* 패러프레이즈 인식 성능: 두 문장이 동일한 의미인지 분류하는 정확도(accuracy)

참고3

견고성(robustness) 개념

AI 모델이 오동작하면서 발생하는 문제점을 방지하고자 하는 연구로, AI 모델의 취약성 분석 연구와 이를 보완하는 방법 연구로 구분할 수 있음.

패러프레이즈 인식 AI 기술의 경우, 일반적인 어휘 변형 (자전거 vs 사이클)구문 변형(그는 예쁜 아이를 보았다. vs 그가 본 아이는 예뻤다.)은 올바른 분석 결과를 제시하나, 아래와 같은 유형의 문장에 대해서는 사람처럼 문장 의미 관계를 올바르게 인식하지 못하는 한계를 보임.

- 대체형(서울을 여행했다. vs. 제주도를 여행했다.)

- 부정형(서울을 여행했다. vs. 서울을 여행하지 않았다.)

- 도치형(서울에서 제주도로 갔다. vs. 제주도에서 서울로 갔다.)