첫 화면 > 한글의 진화와 미래 > 국어 정보화 > 말뭉치는 무엇인가?

말뭉치는 무엇인가?

(1) 말뭉치의 개념
말뭉치(corpus)란, 언어 현실을 총체적으로 드러내 보여줄 수 있는 자료의 집합체이다. 이 ‘corpus’를 일반적으로 ‘말뭉치’라고 하지만, ‘말모둠’(고려대학교에서 지칭하는
용어) 또는 ‘코퍼스’(북한에서는 ‘코파스’)라고도 부른다. 원래 ‘corpus’는 ‘몸뚱이, 몸체’ 등을 뜻하는 단어였지만, 저작자의 저작 전부, 혹은 한 특정 분야의 저작 전부를 뜻하게 되면서 ‘한 덩어리로 볼 수 있는 말의 뭉치’라는 뜻을 갖게 되었다. 그래서 자료 모음이 모두 말뭉치라고 할 수 있으며, 연구 목적에 따라 그 내용도 다양하게 구성될 수 있다. 그러므로 말뭉치란 “일정한 규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체”라고 정의할 수 있다. 그러나 무조건 입력한 자료 자체를 ‘말뭉치’라고 하기는 어렵다. 왜냐 하면 언어의 다양한 양상을 대표할 수 있는 여러 가지 다양한 텍스트가 균형 있게 구성되어 있고, 또 일정한 규모 이상으로 모였을 때라야 ‘말뭉치’라는 용어를 쓸 수 있기 때문이다.
 
(2) 말뭉치의 종류
말뭉치는 그 자료의 양처럼 종류도 다양하다. 가공 방법과 작성 방법에 따라서 말뭉치를 분류할 수 있는데, 구체적인 내용은 다음과 같다.
 
가공 방법에 따른 종류
  말뭉치는 가공 방법에 따라서 크게 ‘원시 말뭉치’와 ‘분석 말뭉치’(일명 ‘태그 코퍼스’)로 구분되는데 구체적인 내용은 아래와 같다.
   
  ㉠ 원시 말뭉치(raw corpus) : 텍스트를 컴퓨터 가독형 자료로 만들어 데이터 베이스화한 것이다.
  ㉡ 분석 말뭉치(tagged corpus) : 수집된 텍스트 데이터베이스를 형태소 분석이나 어휘, 품사 정보, 문헌, 내용 등으로 분류할 수 있도록 인공적으로 가공한 것으로, 언어 연구에 유익하게 이용할 수 있다.
   
작성 방법에 따른 종류
  말뭉치는 작성 방법에 따라서 여러 가지 종류로 나누어진다. 작성 방법은 텍스트 내용의 변화 여부나, 연구 목적, 채취 샘플의 대상, 언어 매체 등 다양한 기준에 따라서 구분될 수 있는데 구체적인 종류는 다음과 같다.
   
  ○ 텍스트 내용의 변화 여부에 따라
㉠ 샘플 말뭉치 : 텍스트를 일정량만 수집한 것으로 텍스트의 내용이 고정되어 있다. (예) Broun Corpus(100만)와 LOB Corpus(100만)
㉡ 모니터 말뭉치 : 늘 변화하는 언어의 실태를 추적하기 위하여 낡은 자료를 제외하고 늘 새로운 언어 정보를 수집, 증보하여 최신 언어 정보를 데이터베이스화한 것이어서 텍스트의 내용이 변화한다. (예) Bank of English
   
  ○ 연구 목적에 따라
㉠ 범용말뭉치 : 여러 가지 연구에 폭넓게 이용할 수 있도록 종합적으로 작성된 말뭉치 (예) 21세기 세종계획에서 작성하는 말뭉치
㉡ 특수목적 말뭉치 : 특정 언어 혹은 특수한 집단이나 장르의 언어를 연구하기 위하여 만들어진 말뭉치 (예) 의료 종사자가 사용하는 영어를 조사하기 위한 말뭉치, 특정 연령층의 언어를 조사하기 위한 말뭉치
   
  ○ 채취 샘플의 대상에 따라
㉠ 공시 말뭉치 : 공시자료를 대상으로 한 말뭉치 (예) Broun Corpus(100만)와 LOB Corpus(100만)등
㉡ 통시 말뭉치 : 통시자료를 대상으로 한 말뭉치 (예) Helsinki Corpus(750~1710년까지 자료 수록)와 ARCHER(1650~1990년 자료 수록)
   
  ○ 언어 매체에 따라
㉠ 문자언어 말뭉치 : 문자언어에서 샘플을 채록한 말뭉치
㉡ 음성언어 말뭉치 : 음성언어를 문자화하여 채록한 말뭉치
이 이외에도 병렬 말뭉치가 있다.
㉠ 병렬말뭉치(parallel corpus): 같은 내용을 두 개 국어 이상 병렬시켜 만든 말뭉치 (예) 일본 소설의 원본과 한국어 번역본의 데이터를 가지고 말뭉치를 만들면 한일 소설어의 병렬말뭉치가 된다.
 
이상의 내용을 표로 보이면 다음과 같다.
 
분류 기준 분류 설명
가공 여부 원시 말뭉치 부속 정보가 없는 말뭉치
가공된 말뭉치 부속 정보를 첨가한 말뭉치
작성
방법
텍스트내용의
변화여부
샘플 말뭉치 텍스트 내용이 고정되어 있는 말뭉치
모니터 말뭉치 텍스트 내용이 변화하는 말뭉치
연구 목적 범용 말뭉치 여러 가지 연구를 위하여 종합적으로 구축된 말뭉치
특수목적 말뭉치 특정 언어만을 연구하기 위하여 만들어진 말뭉치
채취 샘플의
대상에 따라
공시 말뭉치 공시 자료를 대상으로 한 말뭉치
통시 말뭉치 통시 자료를 대상으로 한 말뭉치
언어 매체에 따라 문자언어 말뭉치 문자 언어에서 채취한 말뭉치
음성언어 말뭉치 음성 언어를 문자화하여 채록한 말뭉치
언어의 종류 병렬 말뭉치 같은 내용을 두 개 이상의 언어로 만든 말뭉치
 
이 이외에도 분류 방법에 따라 말뭉치의 구축은 다양하게 이루어진다. 그 분류와 그 종류를 보이면 다음 표와 같다(이 말뭉치 중에서 국어 정보화에 필수적으로 이루어져야 할 말뭉치는 진한 글씨로 표시한 부분이다).
 
분류 기준 분류 설명
매체 문서 말뭉치 문서로부터 추출된 말뭉치
음성 말뭉치 음성으로 된 말뭉치
문자 말뭉치 문자의 글자꼴을 모은 말뭉치
  원시 말뭉치 아무런 부속정보를 가지고 있지 않은 말뭉치
분석 말뭉치 문법정보말뭉치 단어에 부속정보를 첨가한 말뭉치
구문분석 말뭉치 구문 주석을 첨가한 말뭉치
디자인
방법
균형 말뭉치 모든 장르의 문서가 균등한 비율로 포함된 말뭉치
피라미드형 말뭉치 균형 말뭉치를 피라미드형으로 만든 말뭉치
기회적 말뭉치 용례의 균형적 분포를 고려하지 않은 말뭉치
시대성 공시 말뭉치 어느 한 시대의 용례에 대한 말뭉치
통시 말뭉치 각 시대의 용례에 대한 말뭉치
언어 언어의 종류 단일어 말뭉치 한 언어의 용례에 대한 용례를 갖는 말뭉치
이중어 말뭉치 같은 뜻을 가진 용례가 두 언어로 되어 있는 말뭉치
다중어 말뭉치 같은 뜻을 가진 용례가 둘 이상의 언어로 되어 있는 말뭉치
번역 여부 원문 말뭉치 외국어의 번역되어 있지 않은 원시 말뭉치
번역 말뭉치 어느 한 언어로 번역되어 있는 말뭉치
학습 학습 말뭉치 말뭉치 분석도구의 확률을 평가하는 말뭉치
실험 말뭉치 말뭉치 분석 도구의 성능을 평가하는 말뭉치
 
이들 한국어 말뭉치의 구축 과정에서 국어학이 담당하여야 할 과제를 제시하면 다음과 같다.
 
<참고문헌>
전상훈(2003), 21세기 세종계획 말뭉치 활용 방안, 문화관광부ㆍ국립국어연구원.
 
집필자 홍윤표 (연세대학교)
 
맨 위로