디지털 한글박물관
첫 화면 박물관 소개 박물관 도우미 관련 누리집 누리집 지도 로그인 회원 가입 English
통합 검색
첫 화면>미래관>통일관>북한의 국어 정보화
01 북한의 국어 정보화
 
1 2 3 4 5 6
V. 조선어 정보처리 현황
 
1. 「조선어 정보처리」단행본
북한은 언어정보처리가 인민경제 모든 부문의 생산기술 공정과 생산방법, 경영활동을 새로운 과학적 토대위에 올려놓기 위한 중요한 연구사업으로 보고 있다. 그 이유는 과거에는 생산공정의 로봇화, 전자계산기화가 실현됨에 따라 컴퓨터가 수학적계산이나 판단의 도구로만 쓰였으나 앞으로는 점차 인간의 지식을 대신하여 주는 지적기계로 발전해 나가기 때문이라 한다. 즉 컴퓨터가 인간이 진행하는 것과 같은 지적활동을 모방하려면 자연언어를 이해하고 합성할 수 있어야 한다는 것이다.
조선어 정보처리의 목표는 정보화의 시대적 흐름을 반영하여 조선어를 자유로이 쓸 수 있는 능력을 컴퓨터에 부여하는데 있다. 여기서 정보처리는 구체적으로 정보의 자동처리를 말하며 정보전달 수단으로서의 글자와 정보자료로서의 언어자료(본문)를 컴퓨터가 ‘읽’고 ‘이해’한 다음 여러 가지 과업 즉 번역, 초록, 색인, 검색, 해독을 하는데 맞게 가공하는 것을 말한다. 오늘날 정보의 자동처리는 이론적 측면에서는 정보공학의 중심을 이루며 실제적 측면에서는 정보산업의 중심을 이룬다고 보고 있다. 이러한 특성으로 인하여 응용언어학으로서의 정보처리는 글자와 언어자료를 자동처리하는데에서 일어나는 언어학적 문제를 기본 연구대상으로 하면서도 수학, 전자공학, 기호학, 서지학, 번역이론 등과 밀접한 연관을 맺고 있다.
조선어 정보처리는 글자와 언어자료의 측면에서 조선어를 기본자료로 취급하고 있으며 컴퓨터와 연관하여 조선글자와 조선어 자료의 입?출력, 조선어의 분석종합의 자동화 원리와 방법, 그리고 번역, 검색, 질의응답 등을 주된 연구대상으로 하고 있다. 이러한 연구는 우리글자, 단어, 문장을 ‘읽’고 ‘이해’하고 번역, 검색하는 언어학적 문제를 해결하는 것으로서 컴퓨터로 하여금 조선어를 자유로이 쓸 수 있는 능력을 가지게 하는 것과 관련되어 있어 매우 어렵고 복잡한 문제이다.
북한의 사회과학원통보연구소 실장인 권종성준박사는 이러한 조선어 정보처리의 이론적 고찰과 실제응용분야인 기계번역 및 정보검색에 필요한 연구를 하는데 필요한 지식을 책으로 엮었으며 「과학백과사전 종합출판사」가 이를 출판하였다. 그 목차를 보면 <표 8>과 같다.
 
<표 8> 「조선어 정보처리」목차
 
차 례

머리말 ------------------------------------------- (4)

제 1 장. 글자처리 -------------------------------- (6)
제1절. 조선글자의 구성 및 형태상 특성 ----------- (6)
aaaa1. 조선글자의 창제와 그 변화 --------------- (6)
aaaa2. 조선글자의 구성상 특성 ------------------ (11)
aaaa3. 조선글자의 형태상 특성 ------------------ (13)
제2절. 조선글자의 확률통계적특성 --------------- (15)
aaaa1. 자모음글자의 확률통계적특성 ------------ (15)
aaaa2. 네모글자의 확률통계적특성 -------------- (18)
제3절. 조선글자의 기계적처리-------------------- (19)
aaaa1. 평판타자기------------------------------ (19)
aaaa2. 구문개조타자기-------------------------- (20)
제4절. 조선글자의 자동처리---------------------- (21)
aaaa1. 전자계산기에 의한 글자의 입력, 리해, 생성, 출력 공정 ------------------------- (22)
aaaa2. 글자의 자동처리공정에서 제기되는 언어학적문제 ------------------------------ (23)

제 2 장. 형태론적분석----------------------------- (32)
제1절. 형태론적분석에 대한 일반적리해 ----------- (32)
제2절. 조선어형태단어의 구조와 결합규칙 --------- (36)
제3절. 조선어형태론적분석수법 ------------------- (38)
aaaa1. 한 개 띄여쓰기단위의 뒤글자로부터 한자씩 떼내여 분석하는 수법 ---------------- (39)
aaaa2. 추적배렬탐색법????????????????????????????? (40)
제4절. 조선어형태론적분석을 진행하는데서 제기 될 수 있는 문제점 --------------------- (48)

제 3 장. 문장론적분석 ------------------------- (51)
제1절. 조선어문장구조의 특성 --------------------- (51)
aaaa1. 교착어류형에 속하는 조선어문장구조의 기본형과 그 특징 ----------------------- (52)
aaaa2. 조선어 단어들의 맞물림의 특성 ----------- (52)
aaaa3. 조선어문장의 상대적자유어순 ------------ (53)
aaaa4. 문장속에서의 형태단어들의 걸림과 받음의 성격 -------------------------------- (54)
제2절. 문장론적분석을 위한 모형화의 기초 ------- (55)
aaaa1. 문장의 구조와 구구조 및 구구조규칙 ----- (56)
aaaa2. 형식언어리론 -------------------------- (62)
aaaa3. 문장론적분석의 진행방법과 구구조나무 --- (65)
제3절. 문장론적분석수법 ----------------------- (66)
aaaa1. 하강되돌이형(종형하강형)문장분석 ------ (66)
aaaa2. 상승되돌이형(종형상승형)문장분석 ------ (69)
aaaa3. 상승병행형(횡형상승형)문장분석 (CKY법) --------------------------------- (72)
aaaa4. 하강병행형(횡형하강형)문장분석 (Earley법) ------------------------------- (83)
aaaa5. 상승병행형과 하강병행형 분석의 결합 (LINGOL) --------------------------- (94)

제 4 장. 의미의 표현과 처리 ------------------------ (99)
제1절. 의미처리의 일반적인 리해 -------------------- (99)
제2절. 의미표현형식 -------------------------------- (101)
aaaa1. 의미그물틀형식 ------------------------------ (101)
aaaa2. 격틀형식 ------------------------------------ (104)
aaaa3. 결합가문법 ---------------------------------- (107)
aaaa4. 개념의존표현형식 ---------------------------- (108)
aaaa5. 론리형식에 의한 의미표현 --------------------- (110)

 
 
2. 조선어 정보처리와 관련된 논문
북한에서 연구 개발된 소프트웨어 제품은 매우 다양하고 수도 많아 모두 소개할 수는 없고 이곳에서는 국가과학원, KCC, PIC 및 은별 등에서 연구 개발한 소프트웨어 중 특징적인 것 몇 가지를 소개한다.
 
   
  가. 전자계산기에 의한 조선어처리기술에서 해결해야 할 과학기술 문제와 그의 표준화에 대하여
  리수락(조선콤퓨터쎈터 부교수)
   
  1) 전자계산기에서 조선어 처리 과학기술적 문제점
- 입력방식, 생성방식 및 부호화방법의 해결
- 체계프로그램 준위에서 우리글 처리를 실현
- 조선어처리가 안받침된 응용프로그램들을 개발, 개작
- 우리 글 인식(OCR), 우리말합성과 같은 인공지능기술 적용
- 우리 글 및 우리 말 능률적 처리를 위한 주변장치 개발
   
  2) 조선글 처리 표준화의 주요 내용
 
(1) 조선글의 건반입력
- 라틴문자 입력 - 영문건반이용, 입력방법 표준 <전자법(Transliteration)>
- 조선어 자모건반입력 - 자무건반의 종류와 갯수 규정, 자판배치, 29개 이하의 건반체계에서 문자자동 구분을 위한 타건규칙 문제 해결
(2) 정보 교환용 조선어부호체계
- 정보교환용부호와 내부처리용부호, 부호의 길이, 부호화문제
- 1바이트, 바이트, 통일 2바이트
(3) 정보 교환용 점폰트
- (화면표시용(16×14, 16×16))
- (인쇄용(24×24, 32×32, 48×48))
(4) 조립식(조합형)과 일체식(완성형) ⇒ 조립식을 선호하는 입장
   
  3) 조선글 처리기술표준화의 해결원칙
 
(1) 주체적 입장 (2) 국제 규격 고려 (3) 타분야 호환성 고려
(4) 계승과 장래 발전성 (5) 과학적 공정성 (6) 전민족 통일 규격화
<주체적 이해와 과학적 공정성이란 민족의 이해와 독창성에 입각해서 우리의 기술과 우리의 힘으로 풀어야 한다는 입장을 말하며 과학적 공정성은 행정 실무적이 아닌 본질적 공정성에 기초한다는 입장을 말한다.>
   
 
   
  나. 콤퓨터처리를 위한 조선음절자 구성과 자모순 문제에 대하여
  문영호(조선사회과학원언어연구소 실장)
   
  1) 음절자 선정방법
- 언어학적방법 + 통계적방법과 경험적방법으로 대조분석한 우리 음절글자 폰트수는 1수준에서 2420자, 2수준에서 1743자 보충선정하면 도합 5163자를 대상으로 해야 한다.
   
  2) 통계적 경험적으로 출현하는 음절수
   
 
표1. 통계적 경험적으로 출현하는 음절수




조선사회과학연구소 (조선어빈도수사전)
김일성 대학
김책공대
조선전산센터
평양프로그램센터
2394
2558
2408
2412
2408
통계적 조사





총 출력 총국
평양 종합 인쇄공장
로동신문 인쇄공장
교육도서 인쇄공장
민주조선사 인쇄공장
제 2 자연 과학원 인쇄공장
2636
3158
2737
3037
2288
1569
경험적
   
  3) 자모순 문제
- 자모음의 차례 - 자모의 위치에 의해 자음이 끝난다음 모음을 따로 모아 배열
- 된소리자음의 차례 - 된소리자음(ㄲ, ㄸ, ㅃ, ㅆ, ㅉ)은 자음뒤에 따로 배열
- 받침자의 차례 - 초성자 배열 순서에 준해 모든 받침자 뒤에 된소리받침자를 배열
<ㄱ, ㄱㅅ, ㄴ, ㄴㅈ, ㄷ, … ㄲ, ㅆ>
이와 같은 3가지 관점에 입각하여 음절자 갯수를 초기 2420, 그 수준에 1743, 도합 4163을 선택하였다.
   
  4) 언어학적 우리글 음절자수
   
 
표2. 언어학적 우리글 음절자수
  닿소리 홀소리 받침 음절수  
가 - 총음절수(A) 19 21 27 11172  
나 - 발음되는 받침자만(B) 고려한 경우 19 21 7* 2793 (ㄱ,ㄴ,ㄷ,ㄹ,ㅁ,ㅂ,ㅇ)
다 - 발음되나 하지 단어표기에 않쓰는 경우(C)       1240  
라 - 발음은 않으나 표기에 쓰는 경우(D)       314  
마 - A-B+D       1867  
바 - 외래어표기용(E)       230  
사 - A-B+C+D 2097     2097  
   
 
1 2 3 4 5 6
 
국립국어원 문화체육관광부 한국어세계화재단 주소
 
 
 
바로 가기
전시관 둘러보기
특별 기획전
동영상으로 보는 한글
그림으로 보는 한글
조선어독본 청취
누리집 이용 프로그램
한글 게임