한국어 어휘의 역사 정보, 즉 역사적으로 한국어가 표기된 자료에 나타나는 한국어 어휘의 형태와 의미가 변화하여 온 모습을 우리가 손쉽게 찾아볼 수 있는 방법으로 국립국어원에서 온라인으로 제공하는 <우리말샘>의 ‘역사 정보’를 살펴...
한국어 어휘의 역사 정보, 즉 역사적으로 한국어가 표기된 자료에 나타나는 한국어 어휘의 형태와 의미가 변화하여 온 모습을 우리가 손쉽게 찾아볼 수 있는 방법으로
국립국어원에서 온라인으로 제공하는 <우리말샘>의 ‘역사 정보’를 살펴보는 것을 꼽을 수 있다.
예를 들어 <우리말샘>에서 ‘예쁘다’를 찾으면 ‘역사 정보’ 항목에 “어엿브다(15세기~19세기)>예쁘다(20세기~현재)”라는 변화 요약문이 표시되고,
그 아래 “현대 국어 ‘예쁘다’의 옛말인 ‘어엿브다’는 15세기 문헌에서부터 나타난다. …… ‘어엿브다’는 중세 국어에서 ‘불쌍하다’라는 뜻을 나타내었는데
근대 국어 시기에 ‘불쌍하다’와 함께 ‘아름답다’라는 뜻을 가지게 되었다.
현대 국어에서는 ‘아름답다’의 의미로만 쓰인다.”라는 설명과 함께 ‘어엿브다,
어옛브다, 어엿부다, 어엽브다, 어엳브다, 어엳부다, 에엿브다, 등의 이형태/이표기, 15세기부터 19세기까지의 세기별 용례들이 제시되어 있다.
<우리말샘>의 역사 정보는 애초 ‘21세기 세종계획’으로 만들어진 ‘어휘 역사 검색 시스템’에 담긴 5,000여 항목의 내용을 수정 보완한 것인데,
사전 이용자들에게 유용한 정보를 제공하고 있으나 <우리말샘>에 들어 있는 전체 어휘의 극히 일부에만 제공될 뿐만 아니라 자세히 살펴보면
여기에도 여러가지 문제가 있다.
어휘 변화에 대한 설명이 형태와 표기에 집중되어 의미 변화에 대한 정보가 크게 부족하고, 제시된 용례 중에는 의미 차이를 보이는 예문들을 구분하지 않고 뒤섞어 놓은 경우가 많으며,
한글 창제 이전에 한자를 이용하여 한국어를 표기한 자료가 배제된 탓에 어휘 역사를 충분히 기술하지 못한 사례도 적지 않다.
한국어 어휘의 역사나 어원이 궁금한 일반 대중이 참고할 수 있는 전문 사전으로 지금까지 10여 종의 사전이 출간되기도 하였다. 하지만 이들은 대체
로 1,000~3,000여 개의 표제어를 담고 있는 소규모 사전으로 일반 독자를 고려하지 않은 연구서의 성격이 강한 경우가 많다. 또한 한자로 표기된 자료를
포함한 꼼꼼한 문헌 검토가 이루어지지 않았거나 개인의 이론을 기반으로 하여 설명의 객관성이 부족한 경우도 많아 주의가 필요하다.
결국 현재 우리는 한국어 어휘 역사 정보에 관한 믿을 만한 출처를 아직 충분히 확보하지 못한 상태라고 할 수 있다.
이러한 문제를 해결하기 위해서는 먼저 한국어가 문자로 기록된 모든 자료를 전산 입력하여 가공한 한국어 역사자료 말뭉치를 잘 구축해 놓아야 한다.
그리고 그 말뭉치에서 추출한 용례에서 개별 어휘의 형태와 의미 변화를 정확히 포착하고 기술할 수 있는 안목을 갖춘 일꾼들을 길러내고, 그들이 마음 놓고 일을 할 수 있도록 환경을 만들어야 한다.
나아가 지금까지 이루어진 한국어 역사 및 어원에 관한 다양한 선행 연구의 내용을 엿볼 수 있는 참조 데이터베이스의 구축도 필요하다.
마침 국립국어원에서 가칭 ‘국어 어원사전’의 편찬 사업을 시작하였다. 이 사업은 한국어 어휘에
대한 역사 정보나 어원에 대해 일반 대중의 관심은 높아지고 있는 반면, 이를 만족시킬 만한 공신력
있는 사전이 부족한 상황을 타개하기 위해 정보성과 신뢰성을 갖춘 어원사전을 편찬하는 것을 목적
으로 한다. 1단계로 3~4년에 걸쳐 약 2만 항목 규모로 편찬하여 공개할 예정이다. 사업 첫 해인 올
해는 어원사전 편찬을 위한 기반을 다지는 차원에서 연구진을 크게 세 팀으로 나누어 사업을 수행하고 있다.
먼저 집필·감수팀은 말뭉치팀이 1차로 제공한 집필용 말뭉치와 자료구축팀이 제공한 기존 사전 표제어 목록 등을 바탕으로 어원사전의 표제어 목록과 집필 지침을 마련하면서
<우리말샘>에 역사 정보가 올라 있는 4,000항목을 대상으로 보완 집필 및 감수 작업을 진행하고 있다.
아울러 표제어 배분, 원고 집필 및 감수 등의 실무 작업과 관리를 효율적으로 하기 위한 집필기의 개발도 병행하고 있다.
다음으로 말뭉치팀은 ‘21세기 세종계획’에서 구축한 1,165만 어절의 원시 말뭉치 중에
‘역사자료 종합 정비 사업’에서 언해문에 한문 원문을 병렬하고 ‘XML’ 형식으로 가공한 700만 어절에 포함되지 않은 ‘미정비 말뭉치’를 대상으로 목록을 확정하고
우선순위를 정하여 가공하는 한편, 기관이나 개인이 구축해 놓은 말뭉치를 기증 받아 중요도가 높은 자료를 중심으로 가공하여 기존 말뭉치에 추가하고있다.
또한 역사자료 말뭉치의 작업 지침을 수정 보완하고 효율적인 작업 진행과 관리를 위해 위키 기반 플랫폼인 ‘kohico’를 사용하고 있다.
역사자료 말뭉치에 관심이 있는 독자는 kohico 누리집(https://kohico.kr/)에서 최신 정보를 얻을 수 있을 것이다.
마지막으로 자료구축팀은 수준 높은 어원사전을 편찬하기 위한 중간 과정으로서 사전 집필에 도움이 되는 정보를 포함하고 있는 기존 사전,
학술 논문과 학위 논문, 단행본, 기사문 등을 자료 수집의 대상으로 하여 ‘어원사전 데이터베이스’와 ‘어원 관련 학술 논저 데이터베이스’를 구축하고 있다.
그리고 이 데이터베이스에 포함된 정보를 편리하게 찾을수 있는 검색기의 개발도 병행하고 있다.
한국어 어휘 역사 정보를 충실히 담은 사전을 편찬하기 위한 사업은 이제 첫걸음을 내딛었다.
올해는 특히 전국에 흩어져 있는 30여 명의 국어사 전공 대학원생들이 보조연구원으로 참여하여 동료들과 함께 국어사 자료를 전산화하는 작업을 경험한 일이 보이지 않는 보람으로 남을 것 같다.
앞으로도 온 국어사학계가 뜻을 모아 참여하여 이 사업이 좋은 결실을 맺기를 바란다.
장경준
고려대 국어국문학과 교수
verdulo@korea.ac.kr
댓글 없음