자연언어처리는 컴퓨터가 인간의 언어를 이해, 생성, 조작할 수 있도록 해주는 인공지능(AI)의 한 분야로, 크게 ‘자연언어이해’와 ‘자연언어생성’ 분야로 나눈다. 자연언어이해란 자연어 표현을 기계가 이해 할 수 있는 다른 표현으로 변환...
자연언어처리는 컴퓨터가 인간의 언어를 이해, 생성, 조작할 수 있도록 해주는 인공지능(AI)의 한 분야로, 크게 ‘자연언어이해’와 ‘자연언어생성’ 분야로 나눈다.
자연언어이해란 자연어 표현을 기계가 이해
할 수 있는 다른 표현으로 변환시키는 것으로, 문장이 내포한 의미를 인식하도록 하는 것을 의미한다.
이를 위해서 전통적으로 형태소분석, 구문분석, 의미분석, 담화분석 등의 단계를 거쳐, 개체명인식, 감정분석, 문서요약, 질의응답, 기계번역 등의 여러 응용시스템을 개발해왔다.
자연언어생성은 자연언어 이해의 과정과는 반대로, 표현하고자 하는 정보를 특정 언어의 올바른 단어와 문장구조로 변환시키는 과정으로, 자동보고서 생성, 이미지캡션, 챗봇 등에 활용되고 있다. 특히 2022년 11월 30일 오픈에이아이(Op
enAI)에서 챗지피티(ChatGPT) 발표 이후 여러 분야에서 폭발적인 관심의 대상이 되고 있다. 이러한 자
연언어처리는 1990년대까지는 규칙(심볼)기반 방법으로, 2010년대까지는 통계기반 방법으로, 이후 신경망을 이용한 기계학습 기반의 방법으로 발전해 왔으며 최근에는 심층학습(딥러닝) 기반으로 우수한 성능의 자연언어처리 시스템이 개발되고 있다.
자연언어처리 기술은 모두 대규모 말뭉치를 필요로 하며 어떤 목적의 시스템을 개발하느냐에 따라 다른 형식의 말뭉치가 필요하다. 예를 들어 형태소 분석기 개발을 위해서는 일정 규모 이상의 형태소 주석
된 말뭉치가 필요하다.
본고에서는 그동안 국책 과제로 구축되었던 한국어 말뭉치와 이를 기반으로 개발
된 한국어 분석 시스템을 살펴보고, 한국형 챗지피티를 위한 말뭉치 등도 살펴보고자 한다.
1990년대
정보화 사회를 맞아 문화관광부는 국어 정보화 중장기 발전 계획에 따라, 1998년부터 2007년까지 10
년 간 ‘21세기 세종계획’ 프로젝트를 수행하여 한국어 정보처리 기술을 위한 약 2억 어절의 말뭉치(문어, 구
어, 특수자료)를 구축하였다. 또한 2009년부터 2020년까지 이들 말뭉치를 기반으로 국어정보처리시스템
경진대회를 통해 다양한 한국어 처리 시스템이 개발 되었고, 응용 프로그램의 출처 공개 등을 통해 한국
어 정보 처리 분야가 새롭게 도약할 수 있는 계기가 마련되었다.
대부분의 한국어 형태소 분석기는 완성형 코드 기반으로 개발되어 옛 한글을 형태소 분석할 수 없다.
최근 울산대학교 한국어처리연구실에서 유니코드 기반의 한국어 형태소 분석기 ‘UTagger4.0’을 개발하
고 63만 어절의 형태소 분석된 역사 말뭉치를 기반으로 옛한글을 형태소 분석할 수 있는 ‘UTagger-훈민정음’을 개발하였다.
이 ‘UTagger-훈민정음’을 이용하여 역사 말뭉치(미정제 약 1,200만 어절, 정제 100만 어절)를 형태소 분석 말뭉치로 변환한다면,
아직까지 관찰되지 않은 어휘의 쓰임이나 표기 양상, 그 변화 과정 등에 대한 유의미한 통계 자료를 확보할 수 있다.
더불어 세기별 어휘사전을 구축한다면 국어사 연구에 획기적인 전기를 마련할 수 있을 것으로 생각한다.
현재 연구재단의 인문사회 분야 공동 연구 지원 사업으로 “국어 역사 자료 통합 형태소 분석 프로그램 개발을 통한 형태소 분석
말뭉치 구축과 시대별 어휘 용례집 발간” 과제가 3년간 진행되고 있어 공시적·통시적 한국어 자료를 구축할 수 있는 계기가 될 것으로 기대된다.
2010년대에는 다양한 인공지능(AI) 시스템(챗봇, AI비서, IBM왓슨 등)이 개발되면서 국립국어원을 중심으로
“AI 시대를 위한 제2의 세종계획”이 추진되어야 한다는 요구가 꾸준히 있어 왔으며,
결과 2020년에 대규모 예산을 확보하여 한국어 분야의 빅데이터인 “모두의말뭉치” 구축사업이 진행되었다.
2020년도에 공개된 “모두의말뭉치”에는 인공지능의 한국어 처리능력 향상에 필수적인 한국어 학습자료 13종, 18억 어절 분량이 수록돼 있다.
“모두의말뭉치”에는 최근 10년 간의 신문기사와 책 2만188종, 음성대화와 메신저 대화, 방송자료, 대본, 블로그·게시판 자료 210만 건 등이 포함되어 있다.
또한 컴퓨터가 한국어를 더 잘 분석하고 이해할 수 있도록 한국어 자료를 더욱 정밀하게 형태, 구문, 의미, 개체명, 의미역 등의 언어 단위별로 분석한 자료
1,100만 어절과 한국어에 대한 사용자의 직관과 판단 정보를 분석한 문법성 판단과 어휘 관계 자료 40만 건도 포함되었다.
이 자료들은 말뭉치 사이트에서 온라인 약정서를 작성한 후 승인되면 파일을 내려 받아 이용할 수 있다.
국립국어원은 국어정보처리시스템 경진대회 후속으로 2021년부터는 “모두의 말뭉치”를 이용한 다양한 주제의 “인공지능 언어 능력 평가”를 실시하고 있다.
국외에서 개발된 챗지피티는 한국어로 소통이 가능하지만 아직은 한국어 이해 능력은 뛰어나지 않으며,
한국 문화에 대한 정보는 신뢰할 수 없다는 평가가 많다. “모두의말뭉치”는 한국어 특성을 반영한 다양한 분야에서 수집된 고차원,
고품질의 말뭉치이며 저작권이 모두 해결된 정보이기 때문에 기존 국외 챗지피티가 제공하는 한국어 정보보다 신뢰성이 높다.
이러한 측면에서 “모두의말뭉치”는 거대언어모델의 인공지능시스템을 개발하고자 하는 중소기업이나 스타트업 기업에게 큰 도움이 될 수 있다.
문화체육관광부에서는 챗지피티와 같은 생성형 인공지능(AI) 기술 변화에 따른 문화·제도·산업적 기반을 마련하고자 3개의 워킹그룹(“한국어 잘하는 AI”를 위한 한국어 말뭉치 구축,
저작권 제도 개선, 콘텐츠 창작과 산업에서의 인공지능 활용)을 발족하였다.
이들 워킹그룹은 인공지능 기술 개발에 필요한 말뭉치 수요를 파악하고, 2027년까지 한국어 특성을 반영한
고품질 말뭉치 10억 어절 구축 계획을 세울 예정이라고 한다.
이러한 고품질 말뭉치가 구축된다면 한국어를 잘하는 “K-챗GPT”를 곧 보게 될 것으로 기대된다.
옥철영
울산대 IT융합학부 교수
okcy@ulsan.ac.kr
댓글 없음