한국어에서 “철수가 책이 읽는다.”라는 문장이 문법적인지 사람들에게 물어보면, 그렇지 않다고 대답 할 것이다. 두 번째 어절이 목적어로서 ‘책을’로 되어야 하는데, 목적격 조사 ‘을’ 대신에 주격 조사 ‘이’가 붙었기 때문이다. 같...
한국어에서 “철수가 책이 읽는다.”라는 문장이 문법적인지 사람들에게 물어보면, 그렇지 않다고 대답
할 것이다.
두 번째 어절이 목적어로서 ‘책을’로 되어야 하는데, 목적격 조사 ‘을’ 대신에 주격 조사 ‘이’가
붙었기 때문이다.
같은 맥락에서 ‘요즈음 사람들이
이 옷이 많이 입는다.’도 비문법적이라고 볼 수 있다.
‘이 옷’에 목적격조사가 아닌, 주격 조사가 붙었으니
말이다. 그런데 이 문장에서 ‘이 옷이’를 문장의 앞으로 옮긴 ‘이 옷이 요즈음 사람들이 많이 입는다.’는
목적어가 되어야 할 ‘이 옷’에 주격조사가 붙었지만,
이상하게 한국어 문장으로 손색이 없어 보인다. 이
이상한 현상을 설명하기 위해서 다양한 이론이 개발
되어 왔다. 다만, 여기서 이 이론들을 소개하고자 하는 것은 아니다.
이와 같은 판단을 기계, 즉 인공지능에 시키면 어
떠할까? 챗지피티(ChatGPT)와 같은 대규모 언어모
형(Large Language Model, LLM)도 이와 같은 메타언
어적 판단을 할 수 있을까?
아래와 같이 챗지피티(GPT4, )도 인간과 유사한
판단을 하는 것으로 보인다. 그렇다면 인공지능은
모어 화자와 유사한 문법적 지식을 갖고 있다고 볼
수 있을까? 혹은, 인공지능도 문법적 지식을 학습할
수 있다고 볼 수 있는가?
전산언어학자들과 일부 통사론 연구자들은 이와 같은 질문에 답하기 위해, 최근 많은 연구를 진행하고 있다. 만약 인공지능이 자
연 언어를 학습할 수 있다면, 언어 습득의 문제에
어느 정도 답을 줄 수 있을 것이다. 인간의 언어 습득에 대해서는 전통적으로 대표적인 두 가지 이론이 있는데, 첫 번째는 인간에게 인지 능력과는 독립
된 고유한 생득적 언어 능력이 있다고 보는 ‘생득주의 이론’이고, 두 번째는 그러한 능력 없이, 일반적
인지 능력 혹은 학습 능력으로도 충분히 언어를 학습할 수 있다고 보는 ‘행동주의 이론’이다. 이러한 상
황에서 만약 인공지능과 같은 기계도 자연 언어를
학습할 수 있다면, 생득주의 이론은 반증된다고 볼
수 있을 것이다.
우선 인공지능이 무엇이든 학습하기 위해서는 대량의 데이터집합(데이터세트)이 필요한데, 영어권에서는 2018년 이후 대량의 문법성판단 말뭉치를 다양하게 공개해 왔다.
* 한국에서도 2020년에 국립국어원에서 ‘문법성판단 말뭉치’가 공개되었다.
이후 이들 데이터집합(데이터세트)에 기초하여 “BERT”, “RoBERTa”, “Flan-T5”, “GPT-2/3/3.5” 등의 대규모 언어모형의 성능을 다양하게 평가하는 연구들이 진척되어 왔다.
지금까지의 연구 결과를 종합하면, 특정 언어모형(GPT-2 등)의 경우, 전반적으로 인간(88.6%의 정확률)에 준하는 학습 능력(80.1%의 정확률)을 보여주었으나 문법 범주별로 성능의 차이가 존재한다는 것이
다. 주어-동사 일치와 같은 특정 문법 범주의 경우 인
간에 준하는 능력을 보여주었으나, 통사적 섬 효과(isl
and effect)나 부정극어인허와 같은 경우에는 학습 능력이 다소 떨어진다. 인공지능의 학습 능력이 급속도로 향상되고 있는 상황을 고려하면, 이들 영역 역시
학습 능력이 향상될 것으로 예측할 수 있다.
현재 한국어 관련 연구는 초기 상태에 있다. 관련 말뭉치가
다양하게 개발될 필요가 있으며, 한국어 관련 대규모 언어모형의 발전에 기대어 다채로운 실험이 진행되어야 할 것이다. 지금까지의 연구를 토대로 언어 습득
에 대한 문제의 결론을 내리는 것은 아직 성급한 단계
이지만, 관련 연구가 계속 활성화될 것임은 확실하다.
벤더(Bender, Emily M.) 등의 ‘통계적 앵무새(stochas
tic parrot)’라는 용어는 통계적 추론을 통해 인간 수준
의 텍스트 생성 능력을 확보한 인공지능이 언어에 대
한 진정한 이해에 도달한 것은 아니며, 단순히 인간의 언어를 앵무새처럼 반복하는 것에 불과하다는 것을 강조하는 말이다. 인공지능이 메타언어적 판단을
인간 수준으로 할 수 있게 된다면 단순한 앵무새로만
평가할 수는 없지 않을까?
한국어와 인공지능
형의 성능을 평가하기 위한 벤치마크로서 문법성(수용성) 판단 말뭉치도 그 일부로 포함되어 있다.
* 2018년 “CoLA”, 2019년 “BLiMP”, 2020년 “SyntaxGym”, 2022년에 공개된 “BigBench”는 대규모 언어모
* 2018년 “CoLA”, 2019년 “BLiMP”, 2020년 “SyntaxGym”, 2022년에 공개된 “BigBench”는 대규모 언어모
조용준
건국대 학술연구교수
ycho@konkuk.ac.kr
댓글 없음