Nothing Special   »   [go: up one dir, main page]

KR980004154A - 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법 - Google Patents

접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법 Download PDF

Info

Publication number
KR980004154A
KR980004154A KR1019960025914A KR19960025914A KR980004154A KR 980004154 A KR980004154 A KR 980004154A KR 1019960025914 A KR1019960025914 A KR 1019960025914A KR 19960025914 A KR19960025914 A KR 19960025914A KR 980004154 A KR980004154 A KR 980004154A
Authority
KR
South Korea
Prior art keywords
dictionary
prefix
word
disk
memory
Prior art date
Application number
KR1019960025914A
Other languages
English (en)
Inventor
김정수
이혜정
Original Assignee
김광호
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 김광호, 삼성전자 주식회사 filed Critical 김광호
Priority to KR1019960025914A priority Critical patent/KR980004154A/ko
Publication of KR980004154A publication Critical patent/KR980004154A/ko

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

전자 사전의 표제어가 동일하게 포함하고 있는 접두어(prefix)를 이용하여 전자 사전의 크기와 검색 시간을 줄이는 전자 사전 및 그에 적합한 압축 및 검색 방법이 기술된다.
본 발명에 따른 전자 사전은 소정 길이 내의 단어들에 대하여 형태소범주 수를 고정하여 메모리에 적재될 수 있는 메모리 사전; 소정 길이보다 긴 단어들에 대하여 접두어가 같은 단어를 모다진 복수의 사전 블록을 가지며 디스크에 저장되는 디스크 사전; 상기 디스크 사전에서 동일한 접두어로 시작되는 단어들이 모여 있는 사전 블록의 시작점에 관한 정보를 담고 있는 접두어 색인; 및 상기 디스크 사전에있는 사진 블록 중에서 가장 큰 크기를 가지는 사전 블록이 적재될 수 있는 용량을 가지는 블록 버퍼를 포함한다.
본 발명에 따른 전자 사전은 소정의 길이보다 짧은 단어는 메모리에 저장하고, 그 외의 단어들은 디스크에 저장함으로써 전자 사전의 크기를 줄이는 효과가 있다.

Description

접두어를 이용한 전자 사전 및 그에 적합한 압축 및 검색 방법
본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음
제4도는 본 발명에 따른 접두어를 이용한 전자 사전의 압축 방법을 보이는 흐름도이다.
제5도는 본 발명에 따른 접두어를 이용한 전자 사전의 검색 방법을 보이는 흐름도이다.

Claims (3)

  1. 소정 길이 내의 단어들에 대하여 형태소 범주 수를 고정하여 구성하여 메모리에 적재될 수 있는 메모리 사전; 소정 길이보다 긴 단어들에 대하여 접두어가 같은 단어를 모다진 복수의 사전 블록을 가지며 디스크에 저장되는 디스크 사전; 상기 디스크 사전에서 동일한 접두어로 시작되는 단어들이 모여 있는 사전 블록의 시작점에 관한 정보를 담고 있는 접두어 색인; 및 상기 디스크 사전에있는 사진 블록 중에서 가장 큰 크기를 가지는 사전 블록이 적재될 수 있는 용량을 가지는 블록 버퍼를 포함하는 전자 사전.
  2. 제1항에 의해 청구되는 전자 사전을 위한 압축 방법에 있어서, 메모리 사전과 디스크 사전 파일을 생성(open)한다. 또한, 접두어 색인 파일도 생성하고 첫 번째 접두어와 색인 값을 등록(write)하는 초기화 단계; 전자 사전에 등록할 단어의 길이가 소정의 길이 이내인가를 비교하는 단어 길이 비교 단계; 소정의 길이 이내인 단어이면 표제어의 길이와 형태소 범주 수를 고정하여 발음 정보, 기타 정보와 함께 메모리 사전에 등록하는 메모리 사전 등록 단계; 단어의 길이가 소정의 길이보다 길면 마지막으로 등록된 접두어와 현재 단어의 접두어가 동일한 가를 비교하는 동일 접두어 확인 단계; 서로 다른 경우는 새로운 접두어, 그 접두어로 시작되는 사전 블록을 가리키는 색인 정보를 등록하는 접두어 색인 등록 단계; 단어에서 접두어를 생략한 표제어의 길이와 형태소 범주 수를 가변으로 하여 발음 정보, 기타 정보와 함께 디스크 사전에 등록하는 디스크 사전 등록 단계; 현재의 단어가 등록시키고자 하는 마지막 단어인가를 검사하여 마지막 단어이면 메모리 사전, 디스크 사전, 접두어 색인 파일을 완료하고 그렇지 않으면 단어 길이 비교 단계로 복귀하는 단계를 포함하는 전자 사전 압축 방법.
  3. 제1항에 의해 청구되는 전자 사전에서 원하는 단어를 검색하는 방법에 있어서, 접두어 색인과 메모리 사전을 메모리 적재하는 초기화 단계; 검색하고자 하는 단어의 길이가 소정의 길이 이내인가를 비교하는 단어 길이 비교 단계; 단어의 길이가 소정의 길이 이내인 경우 해당 단어를 키로 하여 메모리 사전에서 탐색하는 메모리 사전 검색 단계; 단어의 길이가 소정의 길이보다 길면 단어에서 접두어 부분을 키로하여 탐색하는 접두어 색인 검색 단계; 접두어 색인 검색에 성공하면 접두어 색인을 시작점으로 디스크 사전의 해당 블록을 블록 버퍼에 복사하는 단계; 단어에서 접두어 부분을 뺀 나머지 부분을 키로 블록 버퍼에서 순차탐색하는 디스크 사전 검색 단계; 메모리 사전 또는 디스크 사전 검색에 성공하면 검색한 단어에 해당하는 형태소 범주, 발음 정보, 기타 정보를 출력하는 사전 정보 출력 단계를 포함하는 전자 사전 검색 방법.
    ※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.
KR1019960025914A 1996-06-29 1996-06-29 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법 KR980004154A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019960025914A KR980004154A (ko) 1996-06-29 1996-06-29 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019960025914A KR980004154A (ko) 1996-06-29 1996-06-29 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법

Publications (1)

Publication Number Publication Date
KR980004154A true KR980004154A (ko) 1998-03-30

Family

ID=66241402

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960025914A KR980004154A (ko) 1996-06-29 1996-06-29 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법

Country Status (1)

Country Link
KR (1) KR980004154A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100414236B1 (ko) * 1998-07-10 2004-01-07 패스트 서치 & 트랜스퍼 에이에스에이 데이터의 검색을 위한 서치 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6368972A (ja) * 1986-09-10 1988-03-28 Hitachi Ltd 未登録語処理方式
US5202986A (en) * 1989-09-28 1993-04-13 Bull Hn Information Systems Inc. Prefix search tree partial key branching
US5229936A (en) * 1991-01-04 1993-07-20 Franklin Electronic Publishers, Incorporated Device and method for the storage and retrieval of inflection information for electronic reference products
JPH07319900A (ja) * 1994-05-23 1995-12-08 Ibm Japan Ltd 文字列検索システム及び方法
KR960018967A (ko) * 1994-11-21 1996-06-17 김만제 언어 형태소 분석 시스템의 계층적 기호 접속 정보표기 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6368972A (ja) * 1986-09-10 1988-03-28 Hitachi Ltd 未登録語処理方式
US5202986A (en) * 1989-09-28 1993-04-13 Bull Hn Information Systems Inc. Prefix search tree partial key branching
US5229936A (en) * 1991-01-04 1993-07-20 Franklin Electronic Publishers, Incorporated Device and method for the storage and retrieval of inflection information for electronic reference products
JPH07319900A (ja) * 1994-05-23 1995-12-08 Ibm Japan Ltd 文字列検索システム及び方法
KR960018967A (ko) * 1994-11-21 1996-06-17 김만제 언어 형태소 분석 시스템의 계층적 기호 접속 정보표기 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100414236B1 (ko) * 1998-07-10 2004-01-07 패스트 서치 & 트랜스퍼 에이에스에이 데이터의 검색을 위한 서치 시스템 및 방법

Similar Documents

Publication Publication Date Title
CA2007285C (en) Method for use of morphological information to cross reference keywords used for information retrieval
US5333313A (en) Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part
US5331556A (en) Method for natural language data processing using morphological and part-of-speech information
US7031910B2 (en) Method and system for encoding and accessing linguistic frequency data
JP2929963B2 (ja) 文書検索装置および単語索引作成方法および文書検索方法
KR101157693B1 (ko) 토큰스페이스 저장소와 함께 사용하기 위한 멀티-스테이지질의 처리 시스템 및 방법
US6122626A (en) Sparse index search method
US20080133565A1 (en) Device and method for constructing inverted indexes
JPH07160684A (ja) 文書圧縮装置および文書圧縮方法
CA2051135C (en) Compressed language dictionary
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
KR100495593B1 (ko) 파일 처리 방법, 데이터 처리 장치, 및 기억 매체
US6470334B1 (en) Document retrieval apparatus
KR980004154A (ko) 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법
CA2235868A1 (en) Method for converting formatted documents to ordered word lists
KR970049752A (ko) 동사정보를 이용한 한국어 자연어 질의 정보검색 방법
JPH0140372B2 (ko)
KR910017312A (ko) 입력문자열과 키워드와의 근사적 합치(Match)를 이용한 정보 검색 시스템 및 그 합치방법
JPH0140370B2 (ko)
JPH07182354A (ja) 電子文書の作成方法
JPH0410104B2 (ko)
KR20090066470A (ko) 기 분석 데이터를 이용한 한국어 형태소 분석 시스템 및방법
JP3329476B2 (ja) かな漢字変換装置
JPS6057421A (ja) 文書作成装置
JPS6389976A (ja) 言語解析装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application