디지털 한글박물관
첫 화면 박물관 소개 박물관 도우미 관련 누리집 누리집 지도 로그인 회원 가입 English
통합 검색
첫 화면>미래관>국어 정보화>국어 정보화란 무엇인가?
01 국어 정보화란 무엇인가?
 
오늘날의 사회를 정보화 사회(information oriented society)라고 한다. 정보화 사회란 정보를 대량으로 생산하여 유통시키고 이것을 대량으로 소비하는 것을 특징으로 하는 사회를 말한다. 다시 말하면
사회가 지식 정보를 주체적으로 생산하는 사회로, 그리고 이를 위해 컴퓨터를 활용하는 시스템 중심의 사회로 변화하는 사회를 말한다. 그리고 이러한 사회가 주체가 되는 시대를 정보화 시대라고 한다.
정보(information)란 어떤 목적을 위해서 정리 또는 가공된 자료(data)의 집합이며 또한 이들 자료를 통하여 얻을 수 있는 지식의 총체이다. 따라서 정보는 이용자들의 요구를 충족시키기 위하여 자료를 수집, 분류, 가공 처리한 결과라고 할 수 있다. 그리고 정보화란 이들 자료들을 일정한 목적에 맞게 가공 처리하는 과정이라고 할 수 있다.
정보 중에서 가장 중요한 것은 언어정보이다. 왜냐 하면 인간이 문화 창조물을 계승‧전달하기 위하여 일정한 형태로 기록한 것은 주로 언어와 문자로 기록된 언어자료이며 인간이 이 언어자료를 통해서 얻을 수 있는 지식은 대부분이 언어정보이기 때문이다. 이 정보화 시대의 도래는 인간의 의사전달 방식의 변화에 따른 필연적인 것이다.
컴퓨터는 거기에 정보를 제공하여 주지 않는 한 인간과 같은 언어능력을 가지지 못한다. 따라서 컴퓨터와의 의사소통을 가능케 하기 위해서는 그 컴퓨터에 언어능력을 지니도록 하여야 한다. 컴퓨터가 언어능력을 갖도록 하기 위해서는 언어를 구성하는 모든 규칙을 제공하여 주고, 이것을 컴퓨터에서 활용할 수 있도록 하는 여러 가지 작업이 선행되어야 한다.
인간은 머릿속에 지니고 있는 단어들의 조합으로, 문장을 상황에 적합하게 이해하고 생성하는 언어능력을 지니고 있다. 컴퓨터가 언어지식을 습득하는 과정도 사람과 비슷하다. 그래서 각 단어와 단어 사이를 연결함으로써 어느 정도 언어를 이해하고 생성하는 능력을 가질 수 있다. 그러나 컴퓨터는 인간과는 달리 연상능력이나 추론 능력이 없다. 그래서 인간의 다양한 언어이해 능력과 생성 능력을 컴퓨터에 이식시키려면 대규모의 언어자료(말뭉치)와 언어정보(단어, 지식, 문법체계 등의 정보)를 제공해 주어야 한다. 우리나라의 컴퓨터에 국어의 이러한 언어능력을 갖게 하는 일이 국어 정보화이다.
또한 인간은 연상을 통해서 새로운 단어를 습득하는 것이 가능하다. 그러나 태어나면서부터 이러한 능력을 가지는 것이 아니고 꾸준한 교육과 학습으로 가능할 때가 있다. 예컨대 ‘사과’(apple)라는 단어를 떠올리면 ‘먹다’, ‘붉다’, ‘맛있다’, 등의 단어와는 연결성이 있으나, ‘걷다’, ‘말하다’, ‘놀다’ 등의 단어와는 전혀 관계가 없음을 감각기관의 학습과 사회적인 교육을 통해 습득하게 된다.
컴퓨터가 언어지식을 습득하는 과정도 이와 비슷하게, 각 단어와 단어 사이를 연결함으로써 어느 정도의 언어 이해와 생성능력을 나타낼 수 있다. 그러나 인간과는 달리 연상능력이나 추론 능력이 없으므로 새로운 신조어가 입력되면 이것을 기존 단어들과 모두 연결하는 작업이 필요하고, 가지고 있는 문법체계나 언어 지식체계에 조금이라도 어긋나면 인식을 포기해 버린다. 그래서 인간의 다양한 언어이해와 생성 메카니즘을 컴퓨터에 이식시키려면 대규모의 데이터(단어, 지식, 문법체계 등)와 그것들의 정련과정 그리고 다양한 언어현상의 반영 등이 필요하다.
 
국어 정보화란 무엇인가? 1
 
인간의 언어 메카니즘을 컴퓨터에 이식하는 과정이 바로 자연언어 처리라고 할 수 있다. 일반인이 접하는 응용시스템에서 이런 기술을 이용하는 것으로는 ‘자동번역시스템’, ‘정보 검색시스템’, ‘문자‧음성 인식시스템’, ‘맞춤법 교정 시스템’ 등을 들 수 있다. 그러나 이런 응용시스템의 성능을 좌우하는 것은 바로 시스템들에 공통적으로 필요한 ‘지식 베이스’와 ‘기반 기술’이다. 컴퓨터는 새로이 단어를 습득하는 능력이 없으므로 인간이 다루는 모든 단어들을 컴퓨터가 인식할 수 있는 형태로 바꾸어야 하는데 이렇게 바꾸어서 저장한 형태를 ‘지식 베이스’라고 할 수 있다. 예로써 ‘전자사전’, ‘말뭉치’(corpus) 등을 말한다. ‘전자사전’은 일반 사전과는 달리 컴퓨터가 문장을 분석하는데 필요한 정보만을 추출하여 저장하게 된다. 그리고 한 문장이나 단어를 컴퓨터가 이해할 수 있는 메카니즘으로 변형하는 과정에 필요한 기반이 ‘기반 기술’이라 할 수 있고, ‘형태소 분석’, ‘구문 분석’, ‘문맥 처리 기술’ 등이 여기에 속한다.
이러한 현상으로 보아서, 컴퓨터에서 자연언어 처리를 위하여, 국어학에서는 이러한 모든 자료를 제공해 주지 않으면, 안될 것이다. 이것은 컴퓨터가 언어를 이해하는 과정을 보이면 쉽게 알 수 있을 것이다.
 
국어 정보화란 무엇인가? 2
 
먼저 어느 글이 있을 때, 그 글을 구성하고 있는 형태소들을 분석하여야 한다. 그러나 이것을 사람이 직접 일일이 분석해 주다가는 형태소 분석에만 시간을 다 허비하게 될 것이다. 그래서 이것을 해결하기 위해 컴퓨터가 형태소를 자동으로 분석해 주는 ‘형태소 분석 프로그램’을 개발하였다. 그러나 각 형태소가 지니고 있는 의미의 합이 그 형태소로 구성되어 있는 문장의 의미가 아니다. 형태소간의 구문 관계를 분석하지 않으면 안된다. 그래서 구문처리를 해 주어야 하고, 또한 문장과 문장 사이의 관계를 분석해 주어야 하며, 그렇게 분석된 자료들의 의미를 파악해 주어야 어느 글의 의미 전달이 된다고 할 수 있다. 이러한 모든 과정을 컴퓨터가 자동으로 해 줄 수 있도록 하는 일이 넓은 의미의 언어 정보화이며, 이 언어가 한국어일 때, 우리는 이러한 일을 국어 정보화라고 한다.
 
집필자 홍윤표 (연세대학교)
 
국립국어원 문화체육관광부 한국어세계화재단 주소
 
 
 
바로 가기
전시관 둘러보기
특별 기획전
동영상으로 보는 한글
그림으로 보는 한글
조선어독본 청취
누리집 이용 프로그램
한글 게임