첫 화면 > 한글의 진화와 미래 > 국어 정보화 > 말뭉치는 어떻게 만드는가?

말뭉치는 어떻게 만드는가?

1. 말뭉치 구축 방법
말뭉치를 구축하기 위해서는 여러 과정을 거쳐야 하지만, 가장 먼저 해야 할 일은 말뭉치를 구축하는 목적을 세우는 일이다. 말뭉치를 구축하는 목적은 말뭉치를 어떤 분야에서 활용할 것인가를 결정하는
일이라서, 언어학자는 주로 언어학 연구에서 언어의 특징을 계량화하여 밝히려 하거나, 검색을 통해 원하는 자료를 추출하려 하거나 할 것이고, 사전을 편찬하기 위해서는 각 어휘의 특징과 의미를 기술하고 용례를 추출하려고 할 것이며, 자연 언어 처리를 하고자 할 때에는 언어 현상의 규칙을 찾아내어 시스템을 구축하고자 하는데 사용하려 할 것이다. 그러나 최근에는 이 모든 분야에서 활용할 수 있도록 한 말뭉치를 구축하는 것이 일반적이다.
이러한 목적이 설정되었으며, 다음에 자기가 선택한 목적에 적합한 텍스트를 선택하는 것이 중요하다. 최근에는 인터넷에서 원문이 입력된 텍스트를 누구나 쉽게 얻을 수 있지만, 연구 목적에 적합한 텍스트가 아니거나, 그 정확성에 문제가 있는 경우가 많아서, 아무리 많은 말뭉치를 인터넷을 통해 얻었다고 하더라도, 이를 제대로 이용할 수 없는 경우가 대부분이다. 그래서 다음과 같은 결정을 한 후에야 말뭉치를 구축하는 것이 좋다.
 
(1) 자신의 목적에 부합하는 말뭉치의 규모와 범위를 결정한다.
(2) 말뭉치로 만들 자료의 우선순위를 결정한다.
(3) 컴퓨터로 입력하여 컴퓨터로 처리할 수 있는 형태로 만든다. 이때에는 후에 프로그램을 이용하여 처리할 수 있는 구조로 입력하는 것이 바람직하다.
(4) 컴퓨터가 읽어낼 수 있는 가독형 자료로 만들 때, 문자코드 및 폰트 등을 고려하여, 후에 오류를 수정하거나 코드를 자동으로 변환할 수 있는 예측을 하고 일정한 프로그램을 결정한다.
 
2. 말뭉치를 구축할 때의 주의점
말뭉치를 구축할 때에 주의하여야 할 점은 말뭉치의 대표성과 균형성을 고려하여야 한다는 것이다. 말뭉치의 대표성이란 구축한 말뭉치를 처리하여 얻은 결과물이 그 언어 전체에 대해서도 일반화할 수 있을 정도의 대표성을 가질 수 있는가 하는 것이며, 말뭉치의 균형성이란 각기 다른 영역들 간에 균형적으로 자료들이 배치되어 있는가 하는 것을 말하는 것이다.
 
(1) 규모
말뭉치의 규모는 일반적으로 구축된 말뭉치의 단어수나 어절 수, 또는 입력 자료의 바이트수를 말하는 것으로 알고 있는 사람이 많다. 말뭉치의 크기를 보통은 계량적으로 생각하는 것이 일반적이기 때문이다. 그러나 말뭉치의 규모는 단어나 어절 수보다는 말뭉치 이용 목적에 맞는 자료들이 그 속에 얼마나 포함되어 있으며, 그 속에 얼마나 많은 수의 표본이 포함되어 있는가 하는 점이 중요한 기준이 되어야 한다. 결국 말뭉치의 규모를 정하려면 활용 목적에 따른 말뭉치 활용 방법을 미리 결정해 놓고 있을 필요가 있다.
 
(2) 텍스트의 분류
텍스트의 분류는 결국 말뭉치의 균형성과 연관된다. 이러한 균형성은 텍스트 분류의 기준과 구체적인 분류 방법, 그리고 분류된 각각의 항목에 대한 비율 등에 의해 결정된다. 우리나라에서 지금까지 구축된 균형말뭉치들은 텍스트 분류 방법이 합리적인가 그렇지 않은가를 검증받지 않은 상태에 있다. 대개 외국에서 구축된 균형 말뭉치의 분류방법이나 비율에 따라 정한 경우가 많기 때문에 앞으로 검증하여야 할 문제점으로 남아 있다. 텍스트의 분류는 무엇을 기준으로 할 것인가에 문제가 있다.
 
(3) 범주별 자료 추출량과 텍스트 크기의 문제
텍스트의 유형이나 장르의 분류 방식이 정해져 있어도, 각 항목의 비율을 어떻게 결정할 것인가도 매우 중요하다. 현재까지 구축된 균형 말뭉치들은 구성 비율에 큰 차이를 보이고 있다.
참고로 과학기술원의 일부 원시 말뭉치의 주제별 분류 및 그 양을 보이면 다음과 같다.
 
/rawtext   (9,259,576)
/art 예술 (80,318) (0.87 %)
/child 아동도서 (632,428) (6.83 %)
/drama 드라마, 영화, 연극 대본 (682,943) (7.38 %)
/essay 수필집 (176,136) (1.9 %)
/law 법률 db/서적 (2,712,779) (29.3 %)
/news 신문/방송 뉴스 (1,107,882) (11.96 %)
/novel 소설 (1,504,930) (16.25 %)
/phil 철학/종교 (63,251) (0.68 %)
/science 과학 (36,570) (0.39 %)
/social 인문/사회 (2,262,339) (24.43 %)
 
21세기 세종계획의 1,000만 균형 말뭉치는 다음과 같이 구성되어 있다.
 
제1분류 제2분류 제3분류
구어
(10%)
순구어(5%)합계
준구어(5%)합계
문어
(90%)
신문
(20%)
기타(5%)
문화/매체/생활/과학(30%)
사설/칼럼(30%)
스포츠(5%)
정치/사회/경제/외신/북한/종합(30%)
책, 상상
(20%)
동화(10%)
장편(50%)
중․단편(40%)
책, 정보
(35%)
교육자료(10%)
사회(15%)
예술/취미/생활(15%)
인문(20%)
자연(10%)
체험기술(15%)
총류(15%)
잡지(10%)합계
기타(5%)합계
총합계
 
(4) 실제 자료 수집 및 구축의 문제
말뭉치의 규모, 텍스트 분류 방법, 각 자료의 비율, 표본의 크기 및 텍스트의 시기 등이 결정되어도 실제로 해당 비율과 크기로 텍스트를 선정하는 일은 쉽지 않다. 지금까지 실제 텍스트 선정 작업은 대개 우연히 접한 자료나 이미 다른 사람에 의해 입력된 자료를 손쉽게 구할 수 있었던 자료들이 꽤나 많은 것으로 판단된다. 대개 텍스트를 결정하는 것은 입력하는 사람의 주관적인 판단에 의하는 것이 일반적이기 때문이다. 실제 자료 수집에 있어서도 객관적이고 실제적인 기준이 필요하다.
 
(5) 입력 형태의 통일성 문제
입력된 자료는 각종의 프로그램에서 활용될 수 있도록 일정한 형식을 갖추지 않으면 안된다. 예컨대 어느 프로그램에서는 출전 표시를 < > 안에 표시해 주기를 원하는 것이 있는가 하면, 어느 프로그램에서는 ( ) 안에 표시해 줄 것을 요구하기도 하고, 어느 프로그램은 파일의 저장 형식이 그 확장자가 .txt일 것을 요구하는가 하면 어느 프로그램은 파일의 확장자가 .2b 일 것을 요구하는 것이 있다. 따라서 이들 자료들의 효용가치를 높이기 위해서는 이 방식을 표준화하여야 하는데, 표준화한다고 하여도 각종 프로그램에서 이것을 따르지 않는 한, 문제가 발생할 소지가 있는 것이다.
 
집필자 홍윤표 (연세대학교)
 
맨 위로