본문 바로가기

4차 산업혁명_IT

카카오 인공지능(AI) 언어모델, 한국어 독해 능력 1위

카카오에서 개발한 인공지능(AI) 언어모델이 LG CNS가 주관한 한국어 독해 능력 평가에서 1위를 차지 했습니다. 


이번 한국어 독해 능력 평가는 LG CNS의 한국어 학습 데이터셋인 'KorQuAD(Then Korean Question Answering Dataset)'을 바탕으로 기계가 스스로 질문과 문장을 읽고 추론하여 최적의 답을 찾아주는 기계독해(MRC : Machine Reading Comprehension) 모델의 성능을 평가했다고 합니다.




기계독해(MRC)는 최근 몇년 사이에 관심을 받기 시작한 인공지능(AI) 기술로 국내는 물론 해외에서도 극소수 회사만이 구현할 수 있는 역량을 보유하고 있는데 국내에서는 카카오와 삼성전자, 마인즈랩, 스위트케이, 42MARU 등이 있습니다.




기계독해(MRC) 기술에 대해 예를 들어보면 '대한민국'에 대하여 위키백과를 활용하여 학습을 시킨 후 '대한민국 서쪽에 있는 나라는?'이라고 질문하면 인공지능(AI) 모델이 질문의 문맥을 읽고 추론하여 '중화인민공화국'이라는 답을 찾아 줍니다.

대한민국(듣기 , 大韓民國, 영어Republic of Korea; ROK[3])은 동아시아 한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에 두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있다. 수도 서울특별시이며, 국기는 태극기[4], 국가 애국가(비공식), 공용어 한국어 한국 수어이다.

대한민국이라는 명칭은 3.1 운동을 통해 독립을 선언하고, 1919년 4월 11일 대한민국 임시정부가 수립하며 시작되었다. 1945년 광복 이후, 한반도의 북위 38도선 이남 지역 거주자들의 자유로운 선거(5.10 총선거)를 통하여 1948년 8월 15일에 공식적인 민주주의 국가로 출범하였다. 대한민국 헌법 전문에 따르면 대한국민은 3.1운동으로 건립된 대한민국 임시 정부의 법통을 계승한다. 대한민국은 1948년 12월 유엔 총회 결의 제195호를 통해 유엔으로부터 한반도 대다수 주민의 자유로운 의사에 따라 탄생한 한반도 유일한 정부로서 합법 정부로 승인 받았다. 이와 관련하여 대한민국 정부가 1948년에 유엔 감시 하에 선거를 실시한 한반도 이남에서만 유일한 합법 정부라는 주장도 있다.[5] 1991년 대한민국과 조선민주주의인민공화국은 동시에 UN에 가입하였다. 한편 국제법 상의 관례와 통설[6]대한민국의 헌법재판소의 판례에 따르면 조선민주주의인민공화국이 UN에 가입하였다 하여 가맹국들 상호 간에도 당연히 그 국가성이 승인되는 것은 아니고 또 그러한 의무가 있는 것이 아니다. [7] 대한민국은 조선민주주의인민공화국의 국가성을 원칙적으로 부정한다.[8]

대한민국은 한국 전쟁 이래 일명 '한강의 기적'이라고 불리는 높은 경제 발전을 이룩하며, 1990년대에 이르러 세계적인 경제 강국으로 발전하였다. 2015년 구매력 기준 1인당 국민 총소득(GDP)은 36,601달러로[9] 세계은행에서 고소득 국가로 분류되었고, 2016년 유엔의 인간 개발 지수(HDI) 조사에서 세계 18위로 '매우 높음'으로 분류되었다.[2] 또한, 국제 통화 기금(IMF)에서는 대한민국을 선진 경제국으로 분류하고 있다. 대한민국의 명목 국내 총생산(GDP)은 2016년 1조 4112억 달러이다.[9] 또한, 대한민국은 주요 20개국(G20), 경제 협력 개발 기구(OECD), 개발 원조 위원회(DAC), 파리 클럽과 같은 기구에서 회원국으로 활동하고 있다.[10]



기존 검색시스템은 질문을 던지면 해당 질문에 있는 키워드가 포함 되어 있는 문서를 찾아 주는데 그치지만 기계독해(MRC) 기술을 적용하면 해당 질문과 관련이 있는 문서에 포함된 답을 찾아 줄 수 있기 때문에 챗봇 등과 같은 시스템을 구축하는데 활용하면 유용할 수 있습니다. 



이번에 평가 받은 카카오의 인공지능(AI) 언어모델은 구글이 인공지능(AI) 언어모델인 'BERT'에 카카오의 형태소 분석기 'khaiii(Kakao Hangul Analyzer III, 카이)를 접목해서 만들었으며 한국어의 고유 특성에 맞게 최적화 되었다고 합니다. 


형태소는 언어학에서 일정한 의미가 있는 가장 작은 말의 단위로 발화체 내에서 따로 떼어낼 수 있는 것을 말합니다. 형태소분석기는 단어를 보고 형태소 단위로 분리해내는 소프트웨어를 말하며 이러한 형태소분석은 자연어 처리의 가장 기초적인 절차로 이후 구문 분석이나 의미 분석으로 나아가기 위해 가장 먼저 이루어져야 하는 과정이라고 합니다. 


khaiii(카이)가 기계학습에 사용한 알고리즘은 신경망 알고리즘들 중에서 Convolutional Neural Network(CNN)을 사용하여 음절기반으로 형태소를 분석하여 속도를 확보 하였으며 이를 통해 정보검색, 기계독해, 스마트 스피커나 챗봇 등 여러 서비스에 활용하고 있다고 합니다. 




카카오 인공지능(AI) 언어모델에 대한 이번 평가 결과는 카카오의 인공지능 자연어 처리 기술을 활용해 인간이 보유한 독해 능력보다 뛰어난 최초의 언어모델을 구현 했다는 점에서 높이 평가 받을만 한 것 같습니다. 


이번에 개발한 언어모델 기술은 카카오의 스마트 스피커인 카카오미니에 적용될 것 같습니다. 



[ 이전글 ]

2018/12/11 - 카카오 그라운드X, 블록체인 플랫폼 클레이튼(Klaytn) 파트너 추가 공개

2018/10/08 - 카카오 자회사 그라운드X, 블록체인 플랫폼 클레이튼 공개