본문 바로가기

4차 산업혁명_IT

ETRI, 한국어 기반 인공지능 서비스를 위한 코버트(KorBERT) 공개

한국전자통신연구원(ETRI)이 과학기술정보통신부와 정보통신기획평가원(IITP)의 혁신성장동력 프로젝트의 일환으로 추진 중인 엑소브레인 사업에서 AI비서, AI질의응답, 지능형 검색 등 한국어를 활용한 인공지능 서비스 개발에 필요한 한국어 언어모델인 코버트(KorBERT)를 공개했습니다. 

 

< EXOBRAIN Logo >

 

그동안 언어 활용 서비스는 구글의 다국어 언어모델인 '버트(BERT)를 주로 사용했습니다. 작년 11월 구글이 공개한 인공지능(AI) 언어모델인 BERT(Bidirectional Encoder Representations from Transformers)는 일부 성능평가에서 인간보다 더 높은 정확도를 보이는 자연 언어 처리(NLP) AI의 최첨단 딥러닝 모델입니다. 

 

이번에 ETRI가 공개한 언어모델은 구글의 언어표현 방식에 더 많은 한국어 데이터를 추가해 만든 언어모델과 한국어의 교착어 특성까지 반영해 만든 언어모델 두가지 종류입니다. 

 

BERT(버트)는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 단어로 인식하는데 구글은 40여 만 건의 위키백과 문서 데이터를 사용해 한국어 언어모델을 개발한 반면 ETRI 연구진은 여기에 23GB에 달하는 지난 10년간의 신문기사와 백과사전 정보를 더해 45억개의 형태소를 학습시켜 구글보다 많은 한국어 데이터를 기반으로 언어모델을 개발했습니다. 

 

< KorBERT vs BERT >

 

하지만 단순히 입력한 데이터 양만을 늘리는 것은 언어모델 고도화에 한계가 있고, 한글은 다른 언어와 달리 어근에 조사가 붙는 교착어이므로 이에 연구진은 한국어의 의미 최소 단위인 형태소까지 고려해 한국어 특성을 최대한 반영한 언어모델을 만들었다고 설명했습니다.

 

이렇게 개발된 한국어 언어모델인 korBERT(코버트)는 언어모델의 성능을 확인하는 5가지 기준에서 구글이 배포한 한국어 모델보다 성능이 평균 4.5%가량 개선 되었으며 특히, 단락 순위화(Passage Ranking) 기준에서는 7.4%나 높은 수치를 기록했다고 합니다. 

 

< 한국어 언어모델 평가결과 >

 

공개된 언어모델은 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경에서 모두 사용 가능하며 공공인공지능 오픈 API, 데이터 서비스 포털에서 쉽게 찾아 볼 수 있습니다. 

 

이번에 ETRI가 공개한 한국어에 최적화된 언어모델을 통해 한국어 분석, 지식추론, 질의응답 등의 다양한 한국어 딥러닝 기술의 고도화가 가능할 것으로 보여 한국어를 기반으로한 딥러닝 연구, 교육 등의 목적으로 대학이나 기업, 기관의 개발자들이 많이 활용할 수 있을 것으로 기대됩니다. 

 

[ 이전글 ] 2019/01/31 - 카카오 인공지능(AI) 언어모델, 한국어 독해 능력 1위