Page Nav

에디터정보

Haangle Latest

latest

인공지능을 위한 한국어 데이터의 중요성

  이제 ‘인공지능’이라는 용어와 함께 인공지능을 활 용한 서비스가 우리의 일상생활의 일부가 되었다고 말하는 것도 과언이 아닌 듯하다.   특히 최근에는 챗지피티(ChatGPT) 등의 생성형 인공지능 서비스가 대유행을 일으키며 일상 생활 뿐만 아...

  이제 ‘인공지능’이라는 용어와 함께 인공지능을 활 용한 서비스가 우리의 일상생활의 일부가 되었다고 말하는 것도 과언이 아닌 듯하다.
  특히 최근에는 챗지피티(ChatGPT) 등의 생성형 인공지능 서비스가 대유행을 일으키며 일상 생활 뿐만 아니라 비즈니스 환경에서도 분야를 가리지 않고 광범위하게 사용되고 있어 그 중요성이 날로 높아지고 있다. 하지만 이런 생성형 인공지능 시대에 한국어는 제대로 대응하고 있지 못하다.

  언어가 인공지능을 통해 대화형 서비스로 되기 위 해서는 언어 모델이 중요하다. 언어 모델이란 단어의 확률을 할당하는 모델로서 어떤 단어가 있을 때 그 다음 어떤 단어의 확률이 높은지를 예측하고 높은 확률의 단어를 배치함으로써 하나의 문장을 만들어 주는 모델이다. 즉, 대화형 서비스에서 사람이 쓰는 것과 같은 자연스러운 문장을 생성하기 위해서는 언 어 모델의 성능이 매우 중요하다.

  이러한 한국어 언어모델을 잘 만들기 위해 정부 나 국내 정보 기술 대기업에서는 다양한 한국어 데이터를 구축하고 다년간 축적된 대용량의 데이터로 개발을 시도하고 있다. 하지만, 정제되지 않은 방대 한 데이터 사용으로 막대한 비용 발생과 부정확한 결과를 도출하는 등의 문제로 인해 활용이 어려운 실정이다. 또한, 각계의 노력에도 무색하게 방대한 데이터를 가지고 있는 일부 정보 기술 대기업에서만 약간의 성과가 나타나며, 대부분의 산업계에서는 챗지피티(ChatGPT)와 같은 외산 소프트웨어에 의존하고 있다. 

  심지어 방대한 데이터를 학습했다는 챗지 피티(ChatGPT)조차도 한국어에 대해서는 소위 ‘할루 시네이션 현상’ 등 잘못된 답변이 나오는 경우가 심 심치 않게 나타나고 있다. 이는 변화하는 언어 환경에 대응할 수 있도록 한국어 자원에 대한 제대로 된 분석이 부족하고 지속적으로 업데이트 되는 고품질 의 한국어 데이터를 바탕으로 한 언어 모델을 만들어내지 못하고 있기 때문이다.

  공학 전문가의 관점에서 한국어는 다음과 같은 이유 때문에 언어 모델을 만들기 매우 까다로운 언어이다. 한국어는 문장의 의미를 이해하는데 어순이 중요한 역할을 하지 않으며, 일상에서 많이 사용하고 있는 단문 대화체(채팅) 등에서는 띄어쓰기가 제대로 지켜지지 않는 특성으로 인해 언어 모델에서는 취급이 어렵다. 또한 한국어 기반의 대화형 인공지능은 다른 언어에 비해 더 많은 비용이 발생한다. 한글의 1글자와 로마자의 1글자는 디지털 환경에서는 똑같지 않으며 한글의 글자 하나는 초성, 중성, 종성 세 음소가 모여 하나의 글자가 되기 때문에 한글은 로마자에 비해 4.5배나 비싼 비용이 발생한다.

  마지막으로 살아있는 언어는 시간이 지남에 따라 유행, 시대상들이 반영되고 기술의 발전에 따라 새로운 단어, 표현 방법 등이 계속적으로 생겨나며, 오래된 단어와 표현들은 점차 사라짐에 따라 언어 모델 에서도 단어 연쇄의 확률이 달라진다.

  결국 한국어를 통한 언어 모델을 제대로 구축하고 활용하기 위해서는 궁극적으로 일상용어, 전문용어 등 다양한 상황에 맞는 한국어 데이터와 정밀한 형태소 분석이 필요하다.

  다행히 최근 이를 해결하기 위해 과학기술정보통신 부의 지원을 받아 한국지능정보사회진흥원(NIA)에서는 학습용 데이터 구축 사업 및 데이터 기반 선도 사업 등을 통해 변화하는 언어 환경에 맞추어 고품질의 한국어 데이터를 구축하고 있다. 

  특히, 필자는 인공지능 기업, 한국어 연구자들과 함께 데이터 기반 선도 사업을 통해 부적절 표현 탐지 및 교정을 위한 한국 어 형태소 분석·처리 서비스를 개발하고 있다. 
  이 사업을 통해 새롭게 나타난 신조어 및 부적절한 표현 등 의 변화하는 언어 환경을 반영한 한국어 자원을 만들고, 이를 정확히 분석할 수 있는 형태소 분석기와 신조어 및 부적절한 표현을 탐지/교정하는 언어 모델을 개발하고 있다. 
  
  개발하고 있는 형태소 분석기는 기존 사전기반의 형태소 분석기와 달리 기계학습 기반으로 개발되어 새로이 발생하는 신조어에 대해서도 대응할 수 있으며, 언어모델은 고품질의 한국어 데이터로 학습되어 적은 자원으로도 대규모 언어모델과 유사한 성능을 낼 수가 있다. 서비스 사용자는 자신이 보유한 한국어 데이터를 이 서비스에 입력하면 형태소 분석 된 결과를 확인할 수 있으며, 언어모델을 통해 신조어 및 부적절한 표현에 대해서도 탐지하고 교정된 결과를 제공하여 사용자가 활용할 수 있다.

  이 사업을 통해 대규모 언어 모델을 개발하기 어려 운 중소기업에서는 적은 비용으로도 고품질 한국어 자원과 언어모델을 획득하여 생성형 인공지능 서비스를 개발할 수 있다. 또한, 온라인 학습터, 라이브 커머스 등 실시간 채팅을 사용하는 서비스에 적용하여 부 적절한 표현을 탐지/교정 하는 등의 활용이 가능하다.   
  향후 이 사업의 결과를 고도화 하여 고품질 한국 어 데이터 생성의 방안과 비즈니스 모델로 언어 모델 의 활용 방향성을 제시하고자 한다.
  
  좋은 한국어 기반의 대화형 인공지능 모델을 만들 기 위해서는 고품질의 한국어 데이터가 필요하며 이를 위해서는 하나의 분야에서만 노력한다고 되지 않는다. 정부의 적절한 재정적 지원과 한국어 연구자들의 언어학적 지식, 인공지능 기술자의 공학적 지식이 함께 조화를 이루어야 달성할 수 있는 영역이다. 이런 노력들이 모여 고품질의 한국어 데이터를 구축하 고 제대로 된 한국어 기반의 인공지능 서비스를 만들 수 있을 것이다. 그리고 각계에서는 한국어의 우수성 이 인공지능 시대에도 계속 이어 나갈 수 있도록 많은 관심을 가져야 한다.

(이 연구는 한국지능정보사회진흥원 2023 데이터 플래그 십 사업 “부적절 표현 탐지 및 교정을 위한 한국어 형태소 분석·처리 서비스 개발”의 일환으로 수행되었음.)





권혁철

조인호

오피니언라이브 대표

choinho@opinionlive.co.kr



댓글 없음

Latest Articles

LANGUAGE