디지털 한글박물관
첫 화면 박물관 소개 박물관 도우미 관련 누리집 누리집 지도 로그인 회원 가입 English
통합 검색
첫 화면>미래관>국어 정보화>한글 자료 처리 프로그램
09 한글 자료 처리 프로그램
 
 
한글 자료 처리 프로그램
이 프로그램은 말뭉치 파일의 형식을 변환하거나 여러 개의 말뭉치 파일을
  하나로 통합할 수 있는 프로그램입니다.
한글 자료 처리 프로그램 내려받기
 
01 Ⅰ. 설치 방법
  1. dotnetfx.exe을 실행하여 닷넷 프레임워크를 설치한다.
2. langpack.exe을 실행하여 닷넷 프레임워크의 한국어 언어팩을 설치한다.
3. Setup.exe을 실행하여 프로그램을 설치한다.
   
  Ⅱ. 사용 설명
  1. 사용환경
(1)
프로그램 사용에 필요한 하드웨어의 최소 사양은 펜티엄3, 메모리 256MB 이상 이다.
(2) 설치 및 사용이 가능한 운영체제는 Windows 2000 이상이다. (Windows98, Windows ME 제외)
(3) 또한 Microsoft에서 제공하는 DotNet Framework 1.1이 설치되어 있어야 한다.
 
02 2. 문서 변환 및 통합
  (1) 이 프로그램은 말뭉치 파일의 형식을 변환하거나 여러 개의 말뭉치 파일을 하나로 통합할 수 있는 프로그램이다. 가능한 파일의 형식은 HWP, 2B, 유니코드 텍스트, 완성형 텍스트, 조합형 텍스트 등이다.
(2) 프로그램에서 '문서 변환 및 통합'을 클릭한다.
(3) 아래의 화면에서 아이콘을 클릭하여 작업할 파일의 목록을 선택한다. 각 아이콘들의 기능은 아래와 같다.
 
문서 변환 및 통합 1
 
1) 파일들을 파일목록에 추가한다.
2) 파일 목록에서 선택한 파일을 파일목록에서 삭제한다.
3) 파일 목록에서 모든 파일을 삭제한다.
4) 파일 목록을 정렬한다.
5) 선택된 파일을 한 칸 위로 올린다.
6) 선택된 파일을 한 칸 아래로 내린다.
 
 
  (4) 말뭉치 파일들을 통합할 경우에는 '합치기' 버튼을 클릭한다.
 
문서 변환 및 통합 2
 
 
  (5) 말뭉치 파일들을 다른 형식으로 변환할 경우에는 '변환하기' 버튼을 클릭한다.
 
문서 변환 및 통합 3
 
 
03 3. 어절 색인 만들기
  (1) 이 프로그램은 말뭉치 파일에서 어절 색인을 만들기 위한 프로그램이다.
(2) 프로그램에서 '어절 색인 만들기'를 클릭한다.
(3) 아래의 화면에서 아이콘을 클릭하여 작업할 파일의 목록을 선택한다. 각 아이콘들의 기능은 아래와 같다.
 
어절 색인 만들기 1
 
1) 파일들을 파일목록에 추가한다.
2) 파일 목록에서 선택한 파일을 파일목록에서 삭제한다.
3) 파일 목록에서 모든 파일을 삭제한다.
4) 파일 목록을 정렬한다.
5) 선택된 파일을 한 칸 위로 올린다.
6) 선택된 파일을 한 칸 아래로 내린다.
 
 
  (4) 선택 사항
 
1) 형태소 분석 후 색인 : 형태소 분석을 수행하여 형태소 단위로 색인을 만든다. 단, 대상 말뭉치가 현대 한국어 말뭉치일 때만 사용한다.
2) 어절 색인 : 어절 단위로 색인을 만든다.
3) 모든 단어 리스트 : 중복을 고려하지 않고 어절이나, 형태소를 배열한다.
4) 형태가 같은 단어는 하나로 합침 : 같은 어절이나 형태소가 중복되어 나타나는 경우 어휘는 하나로 표시하고 뒤에 출전 표시를 추가한다.
5) 페이지 시작 태그, 페이지 끝 태그 : 페이지를 표시하는 태그의 시작과 끝 태그를 기록한다. 일반적인 경우 페이지 시작, 끝 태그는 '<', '>'이고, 세종 말뭉치인 경우는 '<pb', '>'이다.
6) 페이지 태그를 제외한 모든 태그 제거 : 말뭉치에 여러 가지 태그가 나타나는 경우(예, 세종 말뭉치) 위에서 명시한 페이지 태그를 제외한 모든 태그를 무시한다.
 
어절 색인 만들기 2
 
 
  (5) 작업한 결과를 화면으로 보고 싶은 경우는 '화면으로 보기' 버튼을 클릭한다.
 
어절 색인 만들기 3
 
 
  (6) '파일로 저장' 버튼을 클릭하면 작업한 결과를 파일로 저장한다.
 
어절 색인 만들기 4
 
 
 
04 4. 역순 사전 만들기
  (1) 이 프로그램은 말뭉치 파일에서 어절이나 형태소 단위로 역순 사전을 만들기 위한 프로그램이다.
(2) 프로그램에서 '역순 사전 만들기'를 클릭한다.
(3) 아래의 화면에서 아이콘을 클릭하여 작업할 파일의 목록을 선택한다. 각 아이콘들의 기능은 아래와 같다.
 
역순 사전 만들기 1
 
1) 파일들을 파일목록에 추가한다.
2) 파일 목록에서 선택한 파일을 파일목록에서 삭제한다.
3) 파일 목록에서 모든 파일을 삭제한다.
4) 파일 목록을 정렬한다.
5) 선택된 파일을 한 칸 위로 올린다.
6) 선택된 파일을 한 칸 아래로 내린다.
 
 
  (4) 선택 사항
 
역순 사전 만들기 2
 
1) 형태소 단위 : 형태소 분석을 수행하여 형태소 단위로 역순 사전을 만든다.
2) 어절 단위 : 어절 단위로 역순 사전을 만든다.
3) 음절별 역순 정렬 : 음절 단위로 역순 정렬한다.
4) 자소별 역순 정렬 : 자소 단위로 역순 정렬한다.
5) 각각의 화일별로 : 작업 파일 목록에 지정한 파일별로 작업하여 별도의 파일로 저장한다.
6) 모든 파일 합치기 : 작업 파일 목록에 지정한 파일을 모두 하나로 합쳐서 저장한다.
7) 오름 차순 정렬 : 오름 차순으로 정렬하여 저장한다.
8) 내림 차순 정렬 : 내림 차순으로 정렬하여 저장한다.
 
 
  (5) 작업한 결과를 화면으로 보고 싶은 경우는 '화면으로 보기' 버튼을 클릭한다.
 
역순 사전 만들기 3
 
 
  (6) '파일로 저장' 버튼을 클릭하면 작업한 결과를 파일로 저장한다.
 
역순 사전 만들기 4
 
 
  (7) 다음은 4개의 파일을 형태소 단위, 자소별 역순 정렬, 각각의 파일별, 오름차순의 선택사항으로 실행한 결과 화면이다.
인터넷에 연결되어 있는 경우 오른쪽 화면에는 선택한 단어를 네이버 사전에서 검색하여 보여준다.
 
역순 사전 만들기 5
 
 
05 5. 용례 사전 만들기
  (1) 이 프로그램은 말뭉치 파일에서 용례사전을 만들기 위한 프로그램이다.
(2) 프로그램에서 '용례 사전 만들기'를 클릭한다.
(3) 아래의 화면에서 아이콘을 클릭하여 작업할 파일의 목록을 선택한다. 각 아이콘들의 기능은 아래와 같다.
 
용례 사전 만들기 1
 
1) 파일들을 파일목록에 추가한다.
2) 파일 목록에서 선택한 파일을 파일목록에서 삭제한다.
3) 파일 목록에서 모든 파일을 삭제한다.
4) 파일 목록을 정렬한다.
5) 선택된 파일을 한 칸 위로 올린다.
6) 선택된 파일을 한 칸 아래로 내린다.
 
 
  (4) 선택 사항
 
용례 사전 만들기 2
 
1) 형태소 단위 : 형태소 분석을 수행하여 형태소 단위로 용례 사전을 만든다.
2) 어절 단위 : 어절 단위로 용례 사전을 만든다.
3) 출현한 순서대로 최대 n개 : 용례를 출현한 순서대로 지정한 갯수만큼. '0'일 경우 제한하지 않음을 의미한다.
4) 무작위로 최대 n개 : 해당 용례를 무작위로 추출하여 지정한 갯수만큼.
5) 문맥 제한
5-1) 사용자 입력 : 사용자가 좌우 어절 수를 제한할 수 있다.
5-2) 문장(리턴으로 구분) : 엔터 문자까지를 하나의 문장으로 지정한다.
5-3) 문장(문장 마침 기호로 구분) : 문장 마침 기호(., ?, !)까지를 하나의 문장으로 지정한다.
5-4) 말뭉치 종류 : 출전을 가져오는 방식을 결정한다. 세종말뭉치로 선택한 경우는 TEI 마크업을 따르며, 깜짝새말뭉치로 선택한 경우는 '<...>'이 출전으로 간주된다.
 
 
  (5) 다음은 형태소 단위, 출현한 순서대로, 좌우 10어절, 세종 말뭉치로 선택하여 프로그램을 수행할 결과 화면이다.
 
용례 사전 만들기 3
 
 
06 6. 시 분석
  (1) 이 프로그램은 입력된 시에서 어절, 음절, 음보 수를 계산할 수 있는 프로그램이다.
(2) 프로그램에서 '시(Poem) 분석'을 클릭한다.
(3) 아래의 화면에 보이는 텍스트 편집기에 시를 입력하거나 저장된 시 파일을 '문서 열기'를 이용하여 읽어 온다.
(4) 입력 형태는 유니코드로 저장되어 있어야 하며 마크업 체계는 다음과 같다.
 
<?xml version="1.0" encoding="unicode"?>
<group>
<div name="division name">
<poem number="번호" title="시의 제목" author="저자" pubDate="출판년월">
<!-- lg태그는 시의 연 수만큼 반복할 수 있다. -->
<lg>
<!-- l태그는 연의 행 수만큼 반복할 수 있다. -->
<l>1행</l>
<l>2행</l>
<l>3행</l>
<l>...</l>
</lg>
<lg>
<l>1행</l>
<l>2행</l>
<l>3행</l>
<l>...</l>
</lg>
</poem>
</group>
 
 
  (5) 다음은 분석된 시의 일부이다.
 
# 古今歌曲 219 [2004-01-01]
----------------------------------------------------------------------------------------------
00001 1연 1행 6어절 15음절 3 2 2 4 2 2
00001 1연 2행 5어절 13음절 2 4 3 2 2
00001 1연 3행 7어절 15음절 1 2 2 3 2 2 3
----------------------------------------------------------------------------------------------
1연 3행 18어절 43음절

# 馬史抄 [ ]
----------------------------------------------------------------------------------------------
00002 1연 1행 5어절 15음절 3 4 2 2 4
00002 1연 2행 5어절 15음절 3 2 2 4 4
00002 1연 3행 5어절 16음절 3 3 3 4 3
00002 2연 1행 6어절 15음절 1 2 2 2 4 4
00002 2연 2행 7어절 15음절 1 2 2 2 1 3 4
00002 2연 3행 8어절 17음절 3 1 2 3 1 1 3 3
----------------------------------------------------------------------------------------------
2연 6행 36어절 93음절

# 金剛永言錄 47 [2004-01-01]
----------------------------------------------------------------------------------------------
00003 1연 1행 9어절 15음절 1 2 2 2 1 1 2 2 2
00003 1연 2행 10어절 20음절 1 3 2 2 2 2 2 2 1 3
00003 1연 3행 6어절 18음절 3 3 4 2 2 4
----------------------------------------------------------------------------------------------
1연 3행 25어절 53음절

 
 
07 7. 한자어 표기 변환
  (1) 이 프로그램은 말뭉치에 나타나는 한자어의 표기를 변환하는 프로그램이다.
(2) 아래의 화면에서 아이콘을 클릭하여 작업할 파일의 목록을 선택한다. 각 아이콘들의 기능은 아래와 같다.
 
한자어 표기 변환 1
 
1) 파일들을 파일목록에 추가한다.
2) 파일 목록에서 선택한 파일을 파일목록에서 삭제한다.
3) 파일 목록에서 모든 파일을 삭제한다.
4) 파일 목록을 정렬한다.
5) 선택된 파일을 한 칸 위로 올린다.
6) 선택된 파일을 한 칸 아래로 내린다.
 
 
  (3) 선택 사항
 
한자어 표기 변환 2
 
1) 해당 어절의 방점 삭제 : 변환 대상 어절의 방점만을 삭제한다.
2) 모든 방점 삭제 : 파일 전체의 방점을 삭제한다.
3) 변경방식
3-1) 中듕國귁 -> 中國듕귁
3-2) 中듕國귁 -> 中國(듕귁)
3-3) 中듕國귁 -> 듕귁
 
 
08 8. KWOC 만들기
  (1) 이 프로그램은 지정된 파일에서 KWOC를 만들어 주는 프로그램이다.
(2) 아래의 화면에서 아이콘을 클릭하여 작업할 파일의 목록을 선택한다. 각 아이콘들의 기능은 아래와 같다.
 
KWOC 만들기
 
1) 파일들을 파일목록에 추가한다.
2) 파일 목록에서 선택한 파일을 파일목록에서 삭제한다.
3) 파일 목록에서 모든 파일을 삭제한다.
4) 파일 목록을 정렬한다.
5) 선택된 파일을 한 칸 위로 올린다.
6) 선택된 파일을 한 칸 아래로 내린다.
 
 
  (3) 다음은 작업 결과의 일부이다. '<탭>'은 탭 문자를 의미한다.
 
한스는<탭>한스는 가슴이 후련했다.<탭><안개속을 걷는 사람들>
가슴이<탭>한스는 가슴이 후련했다.<탭><안개속을 걷는 사람들>
후련했다.<탭>한스는 가슴이 후련했다.<탭><안개속을 걷는 사람들>
로즈마리<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
총장의<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
미소가<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
매우<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
따뜻함을<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
느끼면서<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
진행<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
장면을<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
녹화하는<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
데<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
열을<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
올리고<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
있었다.<탭>로즈마리 총장의 미소가 매우 따뜻함을 느끼면서 진행 장면을 녹화하는 데 열을 올리고 있었다.<탭><안개속을 걷는 사람들>
한스는<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
그들의<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
시어와<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
감성을<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
잘<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
이해할<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
수는<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
없었지만<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
그래도<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
지루하지는<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
않았다.<탭>한스는 그들의 시어와 감성을 잘 이해할 수는 없었지만 그래도 지루하지는 않았다.<탭><안개속을 걷는 사람들>
 
 
 
 
국립국어원 문화체육관광부 한국어세계화재단 주소
 
 
 
바로 가기
전시관 둘러보기
특별 기획전
동영상으로 보는 한글
그림으로 보는 한글
조선어독본 청취
누리집 이용 프로그램
한글 게임