 |
| (1) 말뭉치의 개념 |
 |
 |
언어 현실을 총체적으로 드러내 보여줄 수 있는 자료의 집합체이다.
이 ‘corpus’를 일반적으로 ‘말뭉치’라고 하지만, ‘말모둠’(고려대학교에서
지칭하는 |
|
| 용어) 또는 ‘코퍼스’(북한에서는 ‘코파스’)라고도 부른다. 원래 ‘corpus’는
‘몸뚱이, 몸체’ 등을 뜻하는 단어였지만, 저작자의 저작 전부, 혹은 한 특정
분야의 저작 전부를 뜻하게 되면서 ‘한 덩어리로 볼 수 있는 말의 뭉치’라는
뜻을 갖게 되었다. 그래서 자료 모음이 모두 말뭉치라고 할 수 있으며, 연구
목적에 따라 그 내용도 다양하게 구성될 수 있다. 그러므로 말뭉치란 “일정한
규모 이상의 크기를 갖추고 내용적으로 다양성과 균형성이 확보된 자료의 집합체”라고
정의할 수 있다. 그러나 무조건 입력한 자료 자체를 ‘말뭉치’라고 하기는 어렵다.
왜냐 하면 언어의 다양한 양상을 대표할 수 있는 여러 가지 다양한 텍스트가
균형 있게 구성되어 있고, 또 일정한 규모 이상으로 모였을 때라야 ‘말뭉치’라는
용어를 쓸 수 있기 때문이다. |
| |
| (2) 말뭉치의 종류 |
 |
| 말뭉치는 그 자료의 양처럼 종류도 다양하다. 가공 방법과 작성 방법에 따라서
말뭉치를 분류할 수 있는데, 구체적인 내용은 다음과 같다. |
| |
| ① |
가공 방법에 따른 종류 |
| |
말뭉치는 가공 방법에 따라서 크게 ‘원시 말뭉치’와 ‘분석 말뭉치’(일명
‘태그 코퍼스’)로 구분되는데 구체적인 내용은 아래와 같다. |
| |
|
| |
㉠ 원시 말뭉치(raw corpus) : 텍스트를 컴퓨터 가독형
자료로 만들어 데이터 베이스화한 것이다. |
| |
㉡ 분석 말뭉치(tagged corpus) : 수집된 텍스트
데이터베이스를 형태소 분석이나 어휘, 품사 정보, 문헌, 내용 등으로
분류할 수 있도록 인공적으로 가공한 것으로, 언어 연구에 유익하게
이용할 수 있다. |
| |
|
| ② |
작성 방법에 따른 종류 |
| |
말뭉치는 작성 방법에 따라서 여러 가지 종류로 나누어진다. 작성
방법은 텍스트 내용의 변화 여부나, 연구 목적, 채취 샘플의 대상,
언어 매체 등 다양한 기준에 따라서 구분될 수 있는데 구체적인 종류는
다음과 같다. |
| |
|
| |
○ 텍스트 내용의 변화 여부에 따라
㉠ 샘플 말뭉치 : 텍스트를 일정량만 수집한 것으로 텍스트의 내용이
고정되어 있다. (예) Broun Corpus(100만)와 LOB
Corpus(100만)
㉡ 모니터 말뭉치 : 늘 변화하는 언어의 실태를 추적하기 위하여
낡은 자료를 제외하고 늘 새로운 언어 정보를 수집, 증보하여 최신
언어 정보를 데이터베이스화한 것이어서 텍스트의 내용이 변화한다.
(예) Bank of English |
| |
|
| |
○ 연구 목적에 따라
㉠ 범용말뭉치 : 여러 가지 연구에 폭넓게 이용할 수 있도록 종합적으로
작성된 말뭉치 (예) 21세기 세종계획에서 작성하는 말뭉치
㉡ 특수목적 말뭉치 : 특정 언어 혹은 특수한 집단이나 장르의 언어를
연구하기 위하여 만들어진 말뭉치 (예) 의료 종사자가 사용하는 영어를
조사하기 위한 말뭉치, 특정 연령층의 언어를 조사하기 위한 말뭉치 |
| |
|
| |
○ 채취 샘플의 대상에 따라
㉠ 공시 말뭉치 : 공시자료를 대상으로 한 말뭉치 (예) Broun
Corpus(100만)와 LOB Corpus(100만)등
㉡ 통시 말뭉치 : 통시자료를 대상으로 한 말뭉치 (예) Helsinki
Corpus(750~1710년까지 자료 수록)와 ARCHER(1650~1990년
자료 수록) |
| |
|
| |
○ 언어 매체에 따라
㉠ 문자언어 말뭉치 : 문자언어에서 샘플을 채록한 말뭉치
㉡ 음성언어 말뭉치 : 음성언어를 문자화하여 채록한 말뭉치
이 이외에도 병렬 말뭉치가 있다.
㉠ 병렬말뭉치(parallel corpus): 같은 내용을 두 개
국어 이상 병렬시켜 만든 말뭉치 (예) 일본 소설의 원본과 한국어
번역본의 데이터를 가지고 말뭉치를 만들면 한일 소설어의 병렬말뭉치가
된다. |
|
| |
| 이상의 내용을 표로 보이면 다음과 같다. |
| |
| 분류 기준 |
분류 |
설명 |
| 가공
여부 |
원시 말뭉치 |
부속 정보가 없는 말뭉치 |
| 가공된 말뭉치 |
부속 정보를 첨가한 말뭉치 |
작성
방법 |
텍스트내용의
변화여부 |
샘플 말뭉치 |
텍스트 내용이 고정되어 있는
말뭉치 |
| 모니터 말뭉치 |
텍스트 내용이 변화하는 말뭉치 |
| 연구
목적 |
범용 말뭉치 |
여러 가지 연구를 위하여 종합적으로
구축된 말뭉치 |
| 특수목적 말뭉치 |
특정 언어만을 연구하기 위하여
만들어진 말뭉치 |
채취
샘플의
대상에 따라 |
공시 말뭉치 |
공시 자료를 대상으로 한 말뭉치 |
| 통시 말뭉치 |
통시 자료를 대상으로 한 말뭉치 |
| 언어
매체에 따라 |
문자언어 말뭉치 |
문자 언어에서 채취한 말뭉치 |
| 음성언어 말뭉치 |
음성 언어를 문자화하여 채록한
말뭉치 |
| 언어의
종류 |
병렬 말뭉치 |
같은 내용을 두 개 이상의 언어로
만든 말뭉치 |
|
| |
| 이 이외에도 분류 방법에 따라 말뭉치의 구축은 다양하게 이루어진다. 그
분류와 그 종류를 보이면 다음 표와 같다(이 말뭉치 중에서 국어 정보화에 필수적으로
이루어져야 할 말뭉치는 진한 글씨로 표시한 부분이다). |
| |
| 분류 기준 |
분류 |
설명 |
| 매체 |
문서
말뭉치 |
문서로부터 추출된 말뭉치 |
| 음성
말뭉치 |
음성으로 된 말뭉치 |
| 문자
말뭉치 |
문자의 글자꼴을 모은 말뭉치 |
| |
원시
말뭉치 |
아무런 부속정보를 가지고 있지
않은 말뭉치 |
| 분석 말뭉치 |
문법정보말뭉치 |
단어에 부속정보를 첨가한 말뭉치 |
| 구문분석 말뭉치 |
구문 주석을 첨가한 말뭉치 |
디자인
방법 |
균형
말뭉치 |
모든 장르의 문서가 균등한 비율로
포함된 말뭉치 |
| 피라미드형
말뭉치 |
균형 말뭉치를 피라미드형으로
만든 말뭉치 |
| 기회적
말뭉치 |
용례의 균형적 분포를 고려하지
않은 말뭉치 |
| 시대성 |
공시
말뭉치 |
어느 한 시대의 용례에 대한
말뭉치 |
| 통시
말뭉치 |
각 시대의 용례에 대한 말뭉치 |
| 언어 |
언어의
종류 |
단일어 말뭉치 |
한 언어의 용례에 대한 용례를
갖는 말뭉치 |
| 이중어 말뭉치 |
같은 뜻을 가진 용례가 두 언어로
되어 있는 말뭉치 |
| 다중어 말뭉치 |
같은 뜻을 가진 용례가 둘 이상의
언어로 되어 있는 말뭉치 |
| 번역 여부 |
원문 말뭉치 |
외국어의 번역되어 있지 않은
원시 말뭉치 |
| 번역
말뭉치 |
어느 한 언어로 번역되어 있는
말뭉치 |
| 학습 |
학습
말뭉치 |
말뭉치 분석도구의 확률을 평가하는
말뭉치 |
| 실험
말뭉치 |
말뭉치 분석 도구의 성능을 평가하는
말뭉치 |
|
| |
| 이들 한국어 말뭉치의 구축 과정에서 국어학이 담당하여야 할 과제를 제시하면
다음과 같다. |
| |
<참고문헌>
전상훈(2003), 21세기 세종계획 말뭉치 활용 방안, 문화관광부ㆍ국립국어연구원. |
| |
 |
 |
 |
홍윤표 (연세대학교) |
|
 |