첫 화면 > 한글의 진화와 미래 > 국어 정보화 > 말뭉치는 왜 만드는가?

말뭉치는 왜 만드는가?

말뭉치는 언어 정보화의 가장 기초적인 자료이다. 그러므로 언어 정보화의 단계에서 가장 먼저 하여야 할 일이 말뭉치의 구축이다.
말뭉치 구축의 최종목표는 컴퓨터에 인간의 언어능력을 갖추도록 하는 것이다.
지금까지 컴퓨터에서의 언어처리는 주로 그 언어가 지니고 있다고 생각되는 언어 규칙에 의존하여 왔다. 그래서 컴퓨터에서 언어처리를 하기 위해서는 지금까지 언어에 대한 보편적 규칙을 찾아내어, 그 규칙에 따라 언어처리를 할 수 있었다. 그러나 언어학자들에 의해 해명된 규칙만으로는 언어처리를 완벽하게 하기 어려웠다. 왜냐 하면 그 규칙들이 완벽하게 만들어진 것이 아니기 때문이다. 예를 들어서 ‘사람이 밥을 먹는다’란 문장을 컴퓨터가 생성해 내기 위해서는 이 문장을 생성해 내는 여러 가지 규칙을 적용할 수 있을 것이다. 그러나 그 규칙들을 적용시켜서 생성된 문장들은 ‘밥이 사람을 먹는다, 밥이 밥을 먹는다, 사람이 사람을 먹는다’ 등도 포함하고 있을 것이다. 여기에 규칙을 제약시키는 새로운 규칙을 적용하면 되지만, 모든 문장들에 그러한 모든 규칙을 적용하기 힘들다. 따라서 수많은 언어 사용 현상을 보일 수 있는 수많은 말뭉치를 구축하여 놓고, 컴퓨터더러 ‘너 빨리 가서 그 수많은 문장들을 읽고 와라’라는 명령을 하면 그 컴퓨터는 자신이 해독한 문장에 대해서는 경험적으로 이해하여 우리가 문법적으로나 실제적으로 사용하지 않는 문장들을 생성해 내지 않는다.
과거의 지식을 검색하고 추론하여 얻을 수 있는 예문들을 새롭게 등장하는 문장들에 적용하여 그 새로운 문장들을 분석하고 번역하여 주는 방법은 언어를 처리하는 데에 한계가 있게 되었다. 주로 언어규칙에 의존한 기계번역 등의 처리에 오류가 있게 되었다. 그래서 오늘날에는 대규모의 말뭉치로부터 자료를 추출하고, 그 속에서 통계적 방법에 의하여 일반원리를 찾아 이것을 컴퓨터에 인식시킴으로써, 컴퓨터가 인간과 같은 언어지식을 갖추도록 하는 방법을 사용하게 되었다. 그리하여 이 말뭉치의 구축은 오늘날 모든 컴퓨터를 운용하는 시스템이나 소프트웨어 작성에 절대적인 가치를 지니게 되었다.
말뭉치는 자연 언어 처리와도 밀접하게 관계가 있어서, 자연 언어 처리에 필요한 언어 정보를 제공하는 자료의 원천이면서 동시에 말뭉치를 수집, 정리 및 분석하는 작업 자체가 또한 좁은 의미의 자연 언어 처리라고 할 수 있다. 따라서 잘 만들어진 말뭉치는 자연 언어 처리 결과물의 실험자원으로 사용될 수 있다는 점에서 그 이용 가능성이 널리 인식되고 있다.
 
집필자 홍윤표 (연세대학교)
 
맨 위로