KR101753768B1 - 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 - Google Patents
가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 Download PDFInfo
- Publication number
- KR101753768B1 KR101753768B1 KR1020150138734A KR20150138734A KR101753768B1 KR 101753768 B1 KR101753768 B1 KR 101753768B1 KR 1020150138734 A KR1020150138734 A KR 1020150138734A KR 20150138734 A KR20150138734 A KR 20150138734A KR 101753768 B1 KR101753768 B1 KR 101753768B1
- Authority
- KR
- South Korea
- Prior art keywords
- document
- word
- field
- words
- representative
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G06F17/30011—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G06F17/277—
-
- G06F17/30312—
-
- G06F17/30651—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
분야별 대표 색인어를 이용하여 해당 문서의 각 분야의 유사도를 산출하고, 검색된 문서에 대한 분야 정보를 각 분야별 유사도를 이용하여 검색결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것으로서, 샘플 문서들로부터 대표 단어들을 추출하여 저장하는 대표단어 관리부; 각 문서에 대하여, 각 분야별 대표 색인어와 해당 문서 간의 유사도를 이용하여 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부; 및, 문서 검색 요청에 따라 문서를 검색하고, 검색된 문서를 표시하여 제공하되, 검색된 문서의 각 분야별 유사도를 표시하는 검색부를 포함하는 구성을 마련한다.
상기와 같은 지식관리 시스템에 의하여, 분야별 대표 색인어를 추출하고 이를 이용하여 각 분야별 문서와의 유사도로 해당 분야의 소속 정도를 구함으로써. 문서나 산출물들을 보다 정확하게 분야별로 속하는 정도를 분석할 수 있고, 이를 통해, 보다 정확한 분야별 검색을 제공할 수 있다.
상기와 같은 지식관리 시스템에 의하여, 분야별 대표 색인어를 추출하고 이를 이용하여 각 분야별 문서와의 유사도로 해당 분야의 소속 정도를 구함으로써. 문서나 산출물들을 보다 정확하게 분야별로 속하는 정도를 분석할 수 있고, 이를 통해, 보다 정확한 분야별 검색을 제공할 수 있다.
Description
본 발명은 분야별 대표 색인어를 이용하여 해당 문서의 각 분야의 유사도를 산출하고, 검색된 문서에 대한 분야 정보를 각 분야별 유사도를 이용하여 검색결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것이다.
또한, 본 발명은 문서를 분야별 대표 색인어와 유사도에 의하여 각 분야에 속하는 정도를 구하여, 사용자가 각 분야의 최소 유사도를 주어 문서를 검색하면, 다수 분야에 연관된 문서를 검색하여 그 결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것이다.
일반적으로, 지식관리 시스템(knowledge management system)은 지식을 얻기 위한 과정인 수집, 축적, 공유, 활용에서 공유와, 활용에 초점을 맞춰 자료를 찾는 사용자들이 정확한 자료를 찾고 활용할 수 있도록 지원해주는 시스템을 말한다. 지식 관리 시스템은 조직구성원의 지식자산에 대한 자세, 조직의 지식 평가/보상 체계, 지식공유 문화 등 조직차원의 인프라와 통신 네트워크, 하드웨어, 각종 소프트웨어 및 도구 등 정보기술 차원의 인프라를 기본 전제로 하고 있다.
지식관리시스템은 지식베이스, 지식스키마, 지식맵의 3가지 요소로 구성되어 있다. 지식베이스가 원시데이터를 저장하는 데이터베이스에 비유된다면, 지식스키마는 원시데이터에 대한 메타데이터를 담고 있는 데이터 사전 또는 데이터베이스 스키마에 비유될 수 있다. 지식스키마 내에는 개별 지식의 유형, 중요도, 동의어, 주요 인덱스, 보안단계, 생성-조회-갱신-관리 부서 정보등과 전사적인 지식분류체계 등의 내용이 들어 있다. 집을 지을 때 설계가 중요하듯이 지식관리시스템을 구축할 때에도 먼저 지식스키마가 잘 구축되어야만 향후 저장된 지식을 활용하거나 유지-보수하는 작업이 효율적으로 수행될 수 있다.
기업 등 조직들은 지식을 체계적으로 관리하고, 그것을 바탕으로 지식경영을 완성하기 위하여 지식관리시스템을 도입한다. 여기에서 지식관리란, "기업의 목표달성을 위하여 조직 내외에 산재해 있는 지식을 획득하고 조합하여 체계적으로 공유시키는 제반 행위"를 말한다. 지식관리에 관하여 자주 인용되곤 하는 가트너 그룹에 의하면 "지식경영이란 기업의 지적 자산을 생성, 채집, 구조화, 접근 및 사용을 하기 위한 관리방법론으로, 데이터베이스, 문서, 업무규정 및 절차뿐만 아니라 직원들 머리속에 담겨있는 전문지식이나 경험들까지 포함하는 것이다" 라고 하였다. 확실히, 지식이란 것은 특정폴더나 서류박스 안에 담겨있는 것은 아니라. 위로 CEO로부터 아래로 청소부에 이르기까지 전 임직원의 머리속에 담겨있는 것이 지식, 노하우이다. 이것을 꺼내어 체계적으로 공유하고자 하는 것이 바로 지식관리다. 그리고 지식경영이란, "지식관리활동을 기업의 비즈니스에 연결함으로써 어떠한 가치를 창출해 내는 일련의 과정"을 말한다. 결과적으로 말하자면, 기업이 지식관리시스템을 도입하는 이유는 개개인의 머리속에 담겨있는 지식과 노하우를 꺼내어 체계적으로 공유, 관리하고, 그것을 이용하여 기업만의 고유한 가치를 창출하기 위함이라고 볼 수 있다.
특히, 기업 등 조직에서는 특정한 과제(또는 프로젝트)가 정해지거나 주어지면, 일정한 기간 내에 해당 과제를 진행하여 완성시키는 경우가 많다. 이때, 해당 과제 또는 프로젝트를 수행하면서, 수 많은 문서나 자료들을 참고하고, 또한, 새로운 문서나 자료들을 생산한다. 이렇게 프로젝트 진행중에 참고되거나 생산된 문서들은 해당 조직에게는 매우 소중한 지식과 노하우들 포함하고 있다. 따라서 상기와 같은 프로젝트 결과물들을 지식 베이스화하여 관리하는 것인 매우 중요한 일이다.
특히, 기업 등 조직에서 수행하는 프로젝트들은 서로 연관성을 갖거나 유사한 경우가 많다. 따라서 기업 등 조직의 담당자가 과거에 진행된 프로젝트의 결과물들을 손쉽게 접근하여 자신이 원하는 문서 등 결과들을 정확하게 검색할 수 있다면, 이들 검색 결과를 활용하여 자신의 프로젝트를 보다 빠르고 품질 높은 결과물들을 도출할 수 있을 것이다.
이를 위한 지식관리 시스템은 프로젝트 진행시 참고한 문서나 새로 생산된 산출물을 수집하는 수집 기능, 수집한 자료들을 색인화하고 분류하여 축적하는 축적 기능, 축적된 지식을 쉽게 검색하도록 제공하는 공유 기능, 및, 검색된 자료들을 프로젝트에 활용하도록 지원하는 활용 기능 등을 제공해야 한다.
특히, 문서나 결과물(또는 산출물)의 검색을 위해서는 색인화하고 분류하여 축적하는 기능은 매우 중요하다. 또한, 수집한 자료들을 분야별로 검색할 수 있도록 제공할 수 있고, 분야별로 문서나 산출물들을 정확하게 검색하는 기술이 필요하다.
[비특허문헌 1] 노동부(2010). 2010년 지식관리시스템 개선사업
[비특허문헌 2] 강효정, 강인태, 이용호, 박용태(2002). 상용 지식 경영 시스템(KMS)의 유형 분류와 유형별 특성의 비교 분석. 2002 대한 산업공학회/경영과학회 공동 학술대회
[비특허문헌 3] 김지숙, 문현정, 우용태(2001). 효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법. 정보기술과 데이터베이스저널, 8(1), 117-128
[비특허문헌 4] 황재영, 이응봉(2003). 자동문헌분류를 위한 대표색인어 추출에 관한 연구. 제 10회 한국정보관리학회 학술대회 논문집, 55-64
[비특허문헌 5] 승현우, 박미영(2003). 연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구. 한국문헌정보학회지, 37(2), 89-105
[비특허문헌 6] 이정화, 남상엽, 문현정, 우용태. 데이터마이닝 기법을 이용한 효율적인 전문용어 클러스터링. 210-215
[비특허문헌 7] M. O. Nassar, G. Kanaan, and H. A.H. Awad(2010). Comparison between Different Global Weighting Schemes. IMECS, 2010(1)
[비특허문헌 8] E. Chisholm and T. G. Kolda(1999). New Term Weighting Formulas For The Vector Space Method In Information Retrieval. Computer Science and Mathematics Division
[비특허문헌 9] 홍성조(2013). 산업공학 교과과정 이수체계에 관한 연구. 공학교육연구, 16(6), 78-86.
[비특허문헌 10] M., Goldszmidt and M., Sahami(1998). A Probabilistic Approach to Full-Text Document Clustering. Technical Report, ITAD-433-MS-98-044,SRI International, 434-444
[비특허문헌 11] D., Lewis and W.A., Gale(1994). A Sequential Algorithm for Training Text Classifiers. In proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, London, Springer-Verlag, 3-12.
[비특허문헌 12] 조태연, 윤성필(2006). Kano 모델과 QFD 통합을 통한 신제품 개발전략 수립에 관한 연구. 대한안정경영과학회지, 8, 57-70.
[비특허문헌 13] 김수연, 이상복(2006). Kano 모델을 기반으로 한 공연장 고객의 니즈 파악에 관한 연구. 대한산업공학회 추계학술대회 논문집 16, 116-123.
[비특허문헌 14] 특허청 지식관리시스템 사용자 매뉴얼
[비특허문헌 15] 노희승, 윤경희(2011). 경찰지식관리시스템의 활성화 방안에 관한 연구. 한국치안행정논집, 8(1), 243-264.
본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로, 분야별 대표 색인어를 이용하여 해당 문서의 각 분야의 유사도를 산출하고, 검색된 문서에 대한 분야 정보를 각 분야별 유사도의 방사형으로 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 각 분야별 대표 색인어가 해당 문서에 나타나는 빈도와, 대표 색인어의 가중치를 이용하여, 각 분야와 해당 문서의 유사도를 산출하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 제공하는 것이다.
또한, 본 발명의 목적은 문서를 분야별 대표 색인어와 유사도에 의하여 각 분야에 속하는 정도를 구하여, 사용자가 각 분야의 최소 유사도를 주어 문서를 검색하면, 다수 분야에 연관된 문서를 검색하여 그 결과를 제공하는, 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 제공하는 것이다.
상기 목적을 달성하기 위해 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 관한 것으로서, 샘플 문서들로부터 대표 단어들을 추출하여 저장하는 대표단어 관리부; 각 문서에 대하여, 각 분야별 대표 색인어와 해당 문서 간의 유사도를 이용하여 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부; 및, 문서 검색 요청에 따라 문서를 검색하고, 검색된 문서를 표시하여 제공하되, 검색된 문서의 각 분야별 유사도를 표시하는 검색부를 포함하는 것을 특징으로 한다.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 검색부는 검색된 문서의 각 분야별 유사도를 방사형 그래프로 표시하되, 상기 방사형 그래프의 방향 축을 각 분야를 나타내게 하고, 각 분야별 유사도를 해당 분야의 방향 축의 값으로 나타내게 하는 것을 특징으로 한다.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 검색부는 분야별 검색을 제공하되, 각 분야별 최소 유사도를 설정할 수 있도록 제공하고, 각 분야별 최소 유사도가 설정되면, 해당 분야의 유사도가 해당 분야에서 설정한 최소 유사도 이상인 문서들만 검색하여 제공하는 것을 특징으로 한다.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 상기 샘플 문서들의 본문 텍스트에서 형태소 분석을 하여 단어들을 추출하고, 추출한 각 단어들에 대하여 각 문서에 대한 단어 가중치를 계산하고, 상기 문서에 대한 단어 가중치를 평균하여 해당 단어의 단어 가중치를 산출하고, 가중치가 높은 상위 단어들로부터 각 분야별 대표 색인어를 구성하는 것을 특징으로 한다.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 각 문서에 대한 단어 가중치는 문서 d에서 단어 t에 대한 출현 횟수를 나타내는 단어 빈도 TF와, 단어 t가 여러 문서에 나타날 경우 중요도가 낮아지는 정도를 나타내는 역문헌 빈도 IDF를 이용하여 연산되는 것을 특징으로 한다.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 문서 d에 대한 단어 t의 단어 가중치를 w't,d 를 다음 수식 1에 의해 연산되는 것을 특징으로 한다.
[수식 1]
n은 문서 d에서 나타나는 서로 상이한 단어들의 개수이고, tft,d 는 문서 d에 대한 단어 t의 단어 빈도이고, idft 는 단어 t에 대한 역문헌 빈도임.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 대표단어 관리부는 상기 상위 단어들이 동일한 문서 내의 단어와 일치하는 것을 연관규칙으로 하여 연관성 분석을 수행하고, 상기 연관성 분석으로 상위 단어들을 연관성 집합으로 그룹화하고, 사용자의 입력에 의하여 상기 연관성 집합을 각 분야로 분류시켜서, 해당 분야로 분류된 연관성 집합에 속하는 단어들을 대표 색인어로 구성하는 것을 특징으로 한다.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 유사도 연산부는 각 분야별 대표 색인어와 해당 문서 간의 유사도는 다음 [수식 2]에 의해 연산되는 것을 특징으로 한다.
[수식 2]
단, cosθ(X,Y)는 해당 문서와 분야별 대표 색인어 간의 유사도이도, n은 분야별 대표 색인어의 개수이고, i는 대표 색인어의 인덱스이고, Xi는 해당 문서에 대한 단어 가중치이고, Yi는 대표 색인어의 단어 가중치임.
또, 본 발명은 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서, 상기 해당 문서에 대한 단어 가중치 Xi는 단어 빈도 및 역문헌 빈도에 의해 구해지되, 역문헌 빈도는 샘플 문서들에서 구한 해당 단어의 역문헌 빈도를 사용하는 것을 특징으로 한다.
상술한 바와 같이, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 의하면, 분야별 대표 색인어를 추출하고 이를 이용하여 각 분야별 문서와의 유사도로 해당 분야의 소속 정도를 구함으로써. 문서나 산출물들을 보다 정확하게 분야별로 속하는 정도를 분석할 수 있고, 이를 통해, 보다 정확한 분야별 검색을 제공할 수 있는 효과가 얻어진다.
도 1은 본 발명을 실시하기 위한 전체 시스템 일례의 구성에 대한 블록도.
도 2는 본 발명의 일실시예에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 대표단어 관리부에서 대표 단어를 추출하는 방법을 설명하는 흐름도.
도 4은 본 발명의 일실시예에 따라 수집 문서에서 본문 내용을 추출한 결과에 대한 예시도.
도 5는 본 발명의 일실시예에 따른 형태소 분석기에 의한 실행 결과에 대한 예시도.
도 6는 본 발명의 일실시예에 따른 전문용어 시소러스의 일부분에 대한 예시도.
도 7은 본 발명의 일실시예에 따른 문서 및 그 내의 단어에 대한 통계적 수치를 나타낸 표.
도 8은 본 발명의 일실시예에 따른 가중치가 높은 상위의 단어들의 일부를 나타낸 표.
도 9은 본 발명의 일실시예에 따른 상위 단위에 대한 문서 유무 판별 예시를 나타낸 표.
도 10는 본 발명의 일실시예에 따른 전문용어 "품질"에 대한 지지도/신뢰도별 연관 규칙의 수를 나타낸 표.
도 11은 본 발명의 일실시예에 따른 1차 연관 용어 집합 일부분을 나타낸 표.
도 12은 본 발명의 일실시예에 따른 분야별 대표 단어들로 추출한 것을 예시로 나타낸 표.
도 13은 본 발명의 일실시예에 따른 검색부에 의한 검색 결과에 대한 예시도.
도 14는 본 발명의 일실시예에 따른 검색부에 의한 분야별 검색 결과에 대한 예시도.
도 2는 본 발명의 일실시예에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템의 구성에 대한 블록도.
도 3은 본 발명의 일실시예에 따른 대표단어 관리부에서 대표 단어를 추출하는 방법을 설명하는 흐름도.
도 4은 본 발명의 일실시예에 따라 수집 문서에서 본문 내용을 추출한 결과에 대한 예시도.
도 5는 본 발명의 일실시예에 따른 형태소 분석기에 의한 실행 결과에 대한 예시도.
도 6는 본 발명의 일실시예에 따른 전문용어 시소러스의 일부분에 대한 예시도.
도 7은 본 발명의 일실시예에 따른 문서 및 그 내의 단어에 대한 통계적 수치를 나타낸 표.
도 8은 본 발명의 일실시예에 따른 가중치가 높은 상위의 단어들의 일부를 나타낸 표.
도 9은 본 발명의 일실시예에 따른 상위 단위에 대한 문서 유무 판별 예시를 나타낸 표.
도 10는 본 발명의 일실시예에 따른 전문용어 "품질"에 대한 지지도/신뢰도별 연관 규칙의 수를 나타낸 표.
도 11은 본 발명의 일실시예에 따른 1차 연관 용어 집합 일부분을 나타낸 표.
도 12은 본 발명의 일실시예에 따른 분야별 대표 단어들로 추출한 것을 예시로 나타낸 표.
도 13은 본 발명의 일실시예에 따른 검색부에 의한 검색 결과에 대한 예시도.
도 14는 본 발명의 일실시예에 따른 검색부에 의한 분야별 검색 결과에 대한 예시도.
이하, 본 발명의 실시를 위한 구체적인 내용을 도면에 따라서 설명한다.
또한, 본 발명을 설명하는데 있어서 동일 부분은 동일 부호를 붙이고, 그 반복 설명은 생략한다.
먼저, 본 발명을 실시하기 위한 전체 시스템의 구성에 대하여 도 1을 참조하여 설명한다.
도 1a 또는 도 1b에서 보는 바와 같이, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 상의 프로그램 시스템으로 실시될 수 있다.
도 1a와 같이, 본 발명의 실시를 위한 전체 시스템의 일례는 사용자 단말(10)과 지식관리 서버(30)로 구성되고 서로 네트워크(20)로 연결된다. 또, 필요한 데이터를 저장하기 위한 데이터베이스(40)를 더 구비할 수 있다.
사용자 단말(10)은 사용자가 이용하는 PC, 노트북, 넷북, PDA, 모바일, 태블릿, 패블릿 등의 통상의 컴퓨팅 단말기이다. 사용자는 사용자 단말(10)을 이용하여 문서 검색을 지식관리 서버(30)로 요청하거나, 검색된 문서 또는 그 결과들을 지식관리 서버(30)로부터 수신한다.
지식관리 서버(30)는 통상의 서버로서 네트워크(20)에 연결되어, 분야별 대표 색인어 및, 문서들을 저장한다. 또한, 지식관리 서버(30)는 문서에 대한 검색 기능을 제공하고, 사용자 단말(10)로부터의 검색 요청에 따라 문서들을 검색하고 그 결과를 전송한다.
한편, 지식관리 서버(30)는 상기 각 서비스들을 인터넷 상의 웹페이지로 제공하는 웹서버 또는 웹어플리케이션 서버 등으로 구현될 수 있다. 또한, 지식관리 서버(30)는 어플리케이션이나 어플리케이션 서버로서 구축될 수 있다. 지식관리 서버(30)는 문서를 수집하여 지식 베이스로 구성하고, 사용자에게 해당 문서를 검색할 수 있도록 제공한다. 이때, 지식관리 서버의 하나의 구성 요소로서 문서를 검색하여 제공하는 기능이 구축될 수 있다.
데이터베이스(40)는 지식관리 서버(30)에서 필요한 데이터를 저장하는 통상의 저장매체로서, 문서 분류를 위한 대표 색인어, 분야 등 데이터를 저장하거나, 분류된 문서들을 지식 베이스로 구축하여 저장한다.
도 1b와 같이, 본 발명의 실시를 위한 전체 시스템의 다른 예는 컴퓨터 단말(13)에 설치되는 프로그램 형태의 지식관리 장치(30)로 구성된다. 즉, 지식관리 장치(30)의 각 기능들은 컴퓨터 프로그램으로 구현되어 컴퓨터 단말(13)에 설치되어, 검색 요청 등을 컴퓨터 단말(13)의 입력장치를 통해 입력받아, 검색 요청에 다라 검색하고 그 결과를 컴퓨터 단말(13)의 출력장치를 통해 출력하거나 저장한다. 한편, 지식관리 장치(30)에서 필요한 데이터들은 컴퓨터 단말(13)의 하드디스크 등 저장공간에 저장되어 이용된다.
즉, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템은 네트워크 상의 서버 시스템 또는 컴퓨터 단말 등 컴퓨팅 장치 상의 프로그램 시스템으로 실시될 수 있다.
다음으로, 본 발명의 일실시예에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템을 도 2를 참조하여 설명한다.
도 2에서 보는 바와 같이, 본 발명에 따른 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템은 대표 단어들을 추출하여 저장하는 대표단어 관리부(31), 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부(32), 및, 문서 검색 요청에 따라 문서를 검색하여 그 결과를 제공하는 검색부(33)로 구성된다. 또한, 데이터를 저장하기 위한 데이터베이스(40)를 추가하여 구성된다.
먼저, 대표단어 관리부(31)는 샘플 문서들을 대상으로 단어들을 추출하고, 추출된 단어들로부터 각 분야별 대표 단어 또는 대표 색인어를 추출한다.
도 3에서 보는 바와 같이, 대표단어 관리부(31)는 본문 텍스트 추출 단계(S10), 본문 텍스트에서 단어들을 추출하는 단계(S20), 추출된 단어들에 대한 가중치를 산출하는 단계(S30), 및, 추출된 단어로부터 각 분야별 대표 색인어들 추출하는 단계(S40)로 구성되는 방법을 수행하여, 대표 단어(또는 대표 색인어)를 추출한다.
먼저, 샘플 문서들로부터 문서의 본문 텍스트를 추출한다(S10). 즉, 수집한 샘플 문서에서 문서의 본문 내용만을 텍스트로 추출한다.
상기 샘플 문서들은 대표 단어를 추출하기 위한 것으로서, 전체 문서 중 일부 샘플링된 문서들을 사용하거나, 현재 데이터베이스(40)에 저장된 문서들을 모두 사용할 수 있다. 문서는 관련 분야의 문서, 논문, 프로젝트 산출물 등이다. 대표 색인어(또는 대표 단어)를 추출하기 위하여, 각 분야에 모두 속하는 충분히 양의 문서들을 분석하여, 해당 문서들로부터 각 분야별 대표 색인어를 추출할 수 있다.
바람직하게는, 상기 문서들을 아파치 티카(Apache Tika)를 이용하여 문서의 본문을 추출한다. 아파치 티카는 특정 문서에서 본문 텍스트와 메타정보를 제공하는 API(Application Program Interface)이다. 즉, 아파치 티카는 문서 타입 검출 및 다양한 파일 형식에서 콘텐츠를 추출하는 기능을 제공하는 라이브러리이다. 아파치 티카는 PDF, 마이크로소프트사의 오피스 문서, 텍스트(txt) 등 다양한 문서를 지원한다.
수집한 문서에서 추출한 본문 또는 문서 내용은 *, &, ^ 등 특수 문자와 공백을 제거되고, 텍스트 파일로 저장된다. 도 4은 아파치 티카의 실행 결과를 도시하고 있다.
다음으로, 상기 본문 텍스트로부터 단어(또는 색인 단어)들을 추출한다(S20). 구체적으로, 문서의 본문 텍스트에서 형태소를 분석하여, 불용어들을 제거하고, 전문용어 사전을 참조하여 동의어를 처리한다. 즉, 상기 단어 추출 단계(S20)는 형태소 분석 단계(S21), 불용어 제거 단계(S22), 및, 전문용어에 의한 동의어 처리 단계(S23)로 구성된다.
구체적으로, 문서의 저장된 본문 내용으로부터 형태소를 분석하여, 어절 단위와 품사 구별을 수행한다(S21). 텍스트 형태로 저장된 문서 본문 내용에 형태소 분석기를 적용하여, 상기 본문 내용을 각각의 형태소로 구분한다.
바람직하게는, 상기 형태소 분석기로서, 샤인웨어(SHINEWARE)가 제작한 코모란(KOMORAN) 등의 상용화된 도구를 이용한다. 그외에도 강승식(국민대)교수가 제작한 HAM, 서울대학교IDS 에서 제작한 꼬꼬마 형태소 분석기 등 어느 형태소 분석기도 적용될 수 있다. 상기 형태소 분석기를 이용하여 어절단위와 품사구별을 한다. 도 5는 형태소 분석기에 의한 실행 결과이다.
다음으로, 구분된 형태소들에서 불용어들을 제거한다(S22). 즉, 형태소 분석기로 나누어진 형태소 중 색인단어로는 의미가 없는 불용어들을 제거한다. 불용어 제거는 형태소 분석기에 저장된 명사와 복합명사를 제외하고 조사, 동사, 접속사, 형용사 등과 같은 다른 품사는 모두 제거한다.
예를 들어, 색인 단어로 필요하지 않은 ‘와’, ‘같습니다’ 등은 불용어로서, 제거되어야 한다. 구체적으로, “생산관리는 산업공학 분야에서 기업의 생산을 향상시키는 중요한 과목이다”라는 문장을 형태소 분석기로 분석하면, ‘생산관리’+ ‘산업공학’ + ‘분야’+ ‘기업’ + ‘생산’+ ‘향상’ + ‘과목’으로 분리한다. 위의 예문과 같이 복합명사, 명사를 제외하고는 모두 제외한다고 볼 수 있다.
다음으로, 전문용어 사전을 이용하여, 단어에 대하여 전문용어의 동의어를 처리한다(S23). 즉, 동일한 의미이지만 서로 다른 형태로 표시되는 단어(또는 용어)들을 동일한 단어 또는 동일한 용어로 처리한다. 바람직하게는, 동일한 의미를 가지는 다수의 단어 중에서 대표 단어를 선택하고, 대표 색인 단어와 동일한 의미를 갖는 모든 단어 또는 용어들을 대표 단어 또는 대표 용어로 처리한다.
문서분류 과정에서 동의어 처리는 꼭 필요한 부분이라고 할 수 있다. 예를 들어 ‘공급망관리, 공급사슬관리, SCM, Supply Chain Management’는 의미가 같은 전문용어다. 이를 같은 용어로 처리하기 위해서는 동의어 처리가 필요 하다.
바람직하게는, 전문용어는 전문용어 사전을 이용한다. 즉, 전문용어 사전의 전문용어들을 토대로 전문용어 시소러스를 제작한다. 시소러스란 데이터 검색을 위한 키워드(색인어)간의 관계, 즉 동의어, 하위어, 관련어 등의 관계를 나타낸 사전을 말한다. 도 6는 전문용어 시소러스의 일부분을 보여준다.
도 6에서 보는 바와 같이, 간반, 간판, 칸반, 칸반 시스템과 같은 의미는 같은데 형태가 다르게 나타난 단어들이 있다. 산업공학 용어 사전을 참고해 의미는 같은데 형태가 다른 단어들을 대표 단어 하나로 취급한다. 즉, 간반, 간판, 칸반을 칸반 시스템으로 통합하고 칸반 시스템이라는 단어가 총 4번 나온 것으로 처리한다. 즉, 의미는 같지만 형태가 다르게 나타난 단어를 처리한다.
다음으로, 추출한 단어들에 대하여, 단어의 가중치를 계산한다(S30). 각 문서에 대한 단어의 가중치를 계산하고, 이들을 평균하여 각 단어의 가중치를 계산한다.
문서에 대한 단어 가중치는 단어 빈도(TF, Term Frequency)와 역문헌 빈도(IDF, Inverse Document Frequency)에 의해 계산한다. 즉, 하나의 문서 D에서 단어 w에 대한 가중치(weight)값을 산출하여, 여러 문서들 중 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치로 표현한다.
문서와 단어에 대한 통계적 수치들은 다음과 같다.
TF(Term Frequency)는 하나의 문서 d에서 단어 t에 대한 출현 횟수를 의미하며, tft,d로 표시한다. 이를 단어 빈도라 부르기로 한다.
또한, DF(Document Frequency)는 단어 t를 포함한 문서의 수를 의미하며, 이를 dft로 표시한다. 이를 문서 빈도라 부르기로 한다.
또한, IDF(Inverse Document Frequency)는 단어 t가 여러 문서에 나타날 경우 중요도가 낮아짐을 나타내며, 이를 idft 로 표시한다. 또한, 이를 역문헌 빈도라 부르기로 한다.,
즉, 역문헌 빈도 IDF는 다음 [수학식 1]과 같이 표현될 수 있다.
[수학식 1]
여기서, N은 문서의 총수를 의미한다.
따라서 문서에서 단어 가중치는 다음 [수학식 2]에 의해 계산한다.
[수학식 2]
여기서, wt,d는 하나의 문서 d에서 단어 t에 대한 가중치이다.
상기와 같은 문서에 대한 통계적 수치를 세부적으로 나타내면, 도 7과 같이 다양하게 표시될 수 있다.
도 7의 TF 공식들의 정확도를 살펴본다. 길이가 긴 문서는 일반적으로 단어들이 반복적으로 나타나기 때문에 길이가 짧은 문서에 비하여 비교적 높은 가중치를 나타낸다. 또한, 동일한 단어가 짧은 문서에서 3번 나타는 것과 긴 문서에서 3번 나타나는 것이 같은 가중치를 가진다고 말하기 어렵기 때문에 각 문서의 크기와 단어의 비중을 같게 만들기 위해 문서길이 정규화를 추가로 적용한다.
즉, 문서 길이에 대하여 문서를 정규화하고, 정규화된 문서 d에 데하여 단어 가중치를 구한다. 다음 수학식 3은 정규화된 문서 d에 대한 단어 가중치 w't,d를 나타낸 것이다.
[수학식 3]
여기서, n은 문서에서 나타나는 단어(서로 상이한 단어들)의 개수를 나타낸다.
상기와 같은 단어 가중치를 적용하여 모든 문서에서 공통적으로 출현하는 단어에 대한 가중치를 정규화하여 조정한다.
그리고 동일한 단어에 대하여, 각 문서에 대한 단어 가중치들을 평균하여, 해당 단어에 대한 가중치(이하 단어 가중치)를 계산한다.
다음으로, 추출된 단어들로부터 대표 색인어를 구성한다(S40).
상기 각 분야별 대표 단어를 구성하는 단계(S40)는 추출된 단어에서 가중치가 높은 상위 단어들을 선정하는 단계(S41), 상위 단어들이 동일한 문서에 나타나는 것을 연관규칙으로 하여 연관성 분석을 수행하는 단계(S42), 연관성 분석에 의해 단어들을 연관성 집합으로 그룹화하는 단계(S43), 사용자의 입력에 의하여 연관성 집합을 각 분야로 분류시키는 단계(S44), 및, 사용자의 입력에 의하여 연관성 집합 내의 단어들을 보정하여 각 분야별 대표 단어들을 구성하는 단계(S45)로 구성된다.
먼저, 추출된 단어에서 가중치가 높은 상위 단어들을 선정한다. 즉, 앞서 단계(S20)에서 추출한 단어들 중 가중치가 높은 상위 M개의 단어들 또는 상위 M%의 단어들을 선정한다. 이하에서 가중치가 높아 선정된 단어들을 상위 단어라 부르기로 한다.
예를 들어, 전처리 과정을 거쳐 35000개의 단어들 중 분야별 대표 색인어 추출을 위해 TF*IDF 가중치가 높은 순으로 상위 5%인 1500개의 단어를 추출한다. 도 7의 표는 TF*IDF 가중치 상위 단어 추출 일부를 나타낸 표이다.
다음으로, 연관성 분석을 수행하여(S42), 상위 단어들을 연관성 집합으로 구성한다(S43)
상위 단어들이 문서 내의 단어와 일치하는지 여부를 나타내는 값을 구하고, 구한 값을 이용하여 연관성 분석을 수행한다. 즉, 상위 단어 A가 하나의 문서 내의 단어와 일치하는 것이 X이고, 다른 상위 단어 B가 해당 문서 내의 단어와 일치하는 것이 Y로 표시하면, 다음과 같은 연관규칙으로 표시할 수 있다.
R : X -> Y
연관성 분석은 다음과 같은 선험적(Apriori) 규칙이 적용된다.
1) 한 단어집합(또는 항목집합)이 빈발하다면, 이 단어집합의 모든 부분집합은 역시 빈발항목집합이다.
2) 한 단어집합이 비빈발하다면, 이 단어집합을 포함하는 모든 집합은 비빈발항목 집합이다.
예를 들어, 모든 단어들의 집합을 I={a,b,c,d}라 한다. 만일 {b,c,d}가 빈발항목집합(빈발단어집합)이라면 ,이 단어의 부분집합{b,c},{b,d},{c,d},{b},{c},{d}는 역시 빈발단어집합이 되는데 ,이를 선험적 규칙이라고 한다. 만일 {a,b}가 최소 지지도 기준을 넘지못한 비빈발 단어집합이라면, 이 집합을 포함하는 {a,b,c},{a,b,d},{a,b,c,d}는 빈발단어집합이 될 수 없다. 이 사실을 이용하면 최소 지지도 기준을 넘지 못하는 단어집합들을 쉽게 가지치기 할 수 있는데, 이를 선험적 규칙을 이용한 빈발단어집합 추출 방법이라고 한다[비특허문헌 5].
상기와 같은 선험적 규칙에 따라 각 문서마다 단어들의 유/무 판단을 하여 빈발단어집합 I를 찾아낸다. 그런 다음 모든 빈발 단어집합 I에 대하여 I의 모든 공집합이 아닌 부분집합들을 찾는다.
도 10의 표에서 보는 바와 같이, 연관 규칙은 최소 지지도와 신뢰도의 변화에 따라 다양하게 출력된다. 여기서 지지도는 전체 문서에서 연관 규칙을 이루는 단어 쌍이 동시에 출현한 문서 수를 의미한다. 지지도가 너무 낮을 경우에는 연관성이 높지 않은 단어에 대해서도 연관 규칙은 만족하므로 지나치게 많은 수의 군집을 형성한다.
구체적으로, 문서 300편의 3.3% 정도인 지지도 10을 최소지지도로 설정한다. 그리고 신뢰도는 연관규칙 a -> b에서 a 단어를 기준으로 a와 b가 동시에 출현하는 비율을 의미한다. 신뢰도를 높이면 b의 출현 빈도에 따라 연관 규칙의 수는 줄어든다. 따라서 바람직하게는, 지지도와 신뢰도를 정적치인 10/55로 설정한다.
구체적으로, 데이터마이닝 툴 IBM SPSS Modeler 14.2를 사용하기 위해 상위 1500개의 단어들을 추출한 후, 각 문서 내의 단어들과 비교하여 유무 판별을 한다. 즉, 상위 1500개의 단어들이 문서 내의 단어와 일치할 때 T, 불일치 할 때 F로 표기한다. 도 9의 표는 상위 단어들과 문서 내의 단어 유무 판별을 한 예시이다.
SPSS Modeler 14.2를 통해 분야별 전문용어와 관련이 없는 단어들은 필터 노드(Node)를 통해 제거한다.
또한, 대표 색인어를 추출하는데 지지도와 신뢰도를 각각 다르게 설정하여 적절한 연관 규칙의 수를 설정한다. 도 10의 표는 전문용어 ‘품질’에 대한 지지도/신뢰도별 연관 규칙의 수를 나타낸 것이다. 바람직하게는, 본 발명에서는 대표 색인어 추출을 위해 지지도 10, 신뢰도 55로 설정한다.
그리고 연관성 분석 후 각 단어들 간의 1차 연관성 집합을 구성한다. 연관성 집합을 구성한 후 분야 영역(시스템분석, 생산/물류, 품질/서비스, 인간공학, 정보시스템, 경영공학 분야 등)으로 단어 집합을 재구성한다[비특허문헌 9].
도 11의 표는 1차 연관성 집합 일부분을 나타낸다.
다음으로, 사용자의 입력을 통해, 상기 연관성 집합들을 각 분야로 분류하고(S44), 상기 연관성 집합 내 단어들을 보정하여 최종적으로 분야별 대표 단어 또는 대표 색인어를 추출한다(S45).
앞서 연관성 분석을 통해 다수의 연관성 집합들이 구성되면, 각 연관성 집합들이 어느 분야에 속하는지를 결정한다. 이때, 사용자의 입력을 통해 분야가 정해진다.
또한, 보다 정확한 연관용어 집합 및 대표 색인어 추출을 위하여, 관리자 등 사용자의 입력을 받는다. 사용자의 입력에 의하여, 해당 영역에 대표 용어 또는 대표 단어라고 보기 어려운 단어들을 제거하고, 상기 연관성 집합에서 지지도가 임계치 이하여서 추출되지 못한 해당 영역과 밀접한 관련이 있는 단어들을 추출한다.
예를 들어, 연관성 집합에서 추출된 공급, 기업, 고객 등과 같이 “생산/물류” 영역을 대표하는 단어라고 보기 어려운 단어들을 제거한다. 또한, 연관성 집합에서 지지도가 임계치 이하여서 추출되지 못한 납기, 자재, 주문 등과 같은 용어들은 “생산/물류” 분야와 밀접한 관련이 있는 단어로 추출한다.
또한, TF*IDF 가중치가 낮아 상위 단어에 포함되지 않았던 단어들 중 각 분야 영역을 대표하는 단어 또는 용어들을 추가로 포함하여 분야별 대표 단어를 일정한 개수만큼 추출한다. 바람직하게는, 각 분야별 30개씩 총 180개 추출한다.
도 12은 분야별 대표 단어들로 추출한 것을 나타내고 있다.
다음으로, 유사도 연산부(32)는 각 분야별 대표 색인어와, 각 문서들 간의 유사도를 구하여, 각 문서에 대한 분야별 유사도를 저장한다.
유사도 연산부(32)는 해당 분야별로 대표 색인어와 해당 문서 간의 유사도를 산출한다.
대표 색인어와 문서간의 유사도 계산을 위해 코사인 계수를 사용한다. 코사인 계수는 비교하고자 하는 두 대상에 대한 특징 간의 일치 정도를 측정할 수 있다[비특허문헌 10]. 코사인 계수의 식은 다음과 같다.
[수학식 4]
여기서, X는 해당 문서의 문서에 대한 단어 가중치 벡터이고, Y는 해당 분야에서의 대표 색인어의 가중치 벡터이다. n은 분야별 또는 영역별 대표 색인어(또는 대표 단어)의 개수를 말하고, i는 대표 단어의 인덱스를 말한다.
즉, Xi는 해당 문서 단어의 가중치이며, Yi의 대표 단어 가중치의 대표 단어와 동일한 의미를 갖는 단어에 대한 가중치이다. 한편, Xi는 해당 문서에서의 해당 단어의 문서 빈도(df)에 역문헌 빈도(idf)를 곱하여 구해진다.
특히, 대표 단어의 가중치 Yi는 앞서 구한 단어 가중치를 이용한다. 또한, 해당 문서의 가중치 Xi는 수학식 2 또는 수학식 3의 문서에 대한 단어 가중치를 구하여 사용한다. 이때, 문서 빈도 tf는 해당 문서에서 직접 구하고, 역문헌 빈도 idf는 샘플 문서를 대상으로 구한 각 단어의 idf를 그대로 사용한다.
예를 들어, 인간공학 대표 단어에 ‘의자’가 있다고 가정하면, ‘의자’라는 단어가 해당 문서에 몇 개 있는지 확인후(빈도수) 빈도수 곱하기 대표단어 ‘의자’의 역문헌 빈도(idf)를 한다. 이렇게 하면 해당 문서 단어의 가중치 Xi값이 나오게 된다. 이때, i는 "의자"를 나타내는 대표 단어의 인덱스를 말한다.
즉, 앞서 수학식 4의 유사도는 해당 분야에서의 문서의 유사도로서, 해당 문서가 해당 분야에 얼마나 속하는지를 나타내는 지표이다.
다음으로, 검색부(33)는 검색 요청을 받아 문서들을 검색하고 그 결과를 전송하거나 표시한다.
도 13에서 보는 바와 같이, 검색부(33)는 키워드 검색 등 통상의 검색 기능을 제공한다. 도 13은 검색부(33)에 의해 검색된 결과를 표시한 화면을 나타낸다.
검색부(33)는 단순히 단어 존재 유무에 따른 검색이 아닌 코사인 유사도 계산을 통해 검색어와 가장 유사한 과거프로젝트 자료와 외부 문서자료를 제공할 수 있다.
검색결과는 문서 제목 뿐만 아니라 작성연도, 출처, 분야, 문서형식 등 지식에 대한 메타정보를 제공한다. 또한, 문서 안에 사용된 키워드를 파악할 수 있도록, 키워드가 나타난 부분을 하이라이트 시켜 표시한다. 이를 통해, 사용자가 원하는 지식을 빠르게 검색 할 수 있다.
구체적으로, 다수의 영역 또는 분야로 분류된 문서를 조회할 수 있으며, 실시간으로 키워드가 포함되어 있는 문서를 검색할 수 있다. 이때, 문서 이름순, 작성연도 순, 확장자 별로 검색이 가능하며 본문내용 열람이 가능하여 사용자가 문서 다운로드 전에 확인할 수 있다.
또한, 검색부(33)는 분야별 대표 단어와 문서와의 유사도 계산을 적용한 방사형 차트를 제공한다. 이를 통해, 문서의 분야를 직관적으로 파악할 수 있도록 제공한다.
도 13 또는 도 14에서 보는 바와 같이, 방사형 그래프에서 방향 축이 각 분야를 나타내고, 유사도의 수치에 의해 각 방향 축에서의 값이 결정된다. 유사도가 클수록 해당 분야에 속하는 정도가 크다. 방사형 그래프 등을 통해 검색된 문서가 어느 분야에 속하는지를 직관적으로 볼 수 있게 제공한다.
한편, 검색부(33)는 분야별 검색을 제공하고, 이때, 각 분야별 최소 유사도를 설정할 수 있도록 제공한다. 즉, 사용자가 각 분야별 최소 유사도를 설정하면, 해당 분야의 유사도가 해당 분야에서 설정한 최소 유사도 이상인 문서들만 검색하여 제공한다.
이상, 본 발명자에 의해서 이루어진 발명을 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.
10 : 사용자 단말 13 : 컴퓨터 단말
20 : 네트워크 30 : 지식관리 서버
40 : 데이터베이스
20 : 네트워크 30 : 지식관리 서버
40 : 데이터베이스
Claims (9)
- 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템에 있어서,
샘플 문서들로부터 대표 단어들을 추출하여 저장하는 대표단어 관리부;
각 문서에 대하여, 각 분야별 대표 색인어와 해당 문서 간의 유사도를 이용하여 해당 문서의 각 분야별 유사도를 산출하여 저장하는 유사도 연산부; 및,
문서 검색 요청에 따라 문서를 검색하고, 검색된 문서를 표시하여 제공하되, 검색된 문서의 각 분야별 유사도를 표시하는 검색부를 포함하고,
상기 대표단어 관리부는 상기 샘플 문서들의 본문 텍스트에서 형태소 분석을 하여 단어들을 추출하고, 추출한 각 단어들에 대하여 각 문서에 대한 단어 가중치를 계산하고, 상기 문서에 대한 단어 가중치를 평균하여 해당 단어의 단어 가중치를 산출하고, 가중치가 높은 상위 단어들로부터 각 분야별 대표 색인어를 구성하고,
상기 대표단어 관리부는 상기 상위 단어들이 동일한 문서 내에 나타나는 것을 연관규칙으로 하여 연관성 분석을 수행하고, 상기 연관성 분석으로 상위 단어들을 연관성 집합으로 그룹화하고, 사용자의 입력에 의하여 상기 연관성 집합을 각 분야로 분류시켜서, 해당 분야로 분류된 연관성 집합에 속하는 단어들을 대표 색인어로 구성하고,
상기 대표단어 관리부는 전문용어 사전을 이용하여 단어에 대하여 동의어를 처리하되, 동일한 의미를 가지는 다수의 단어 중에서 대표 단어를 선택하고, 대표 단어와 동일한 의미를 갖는 모든 단어들을 대표 단어로 처리하고,
상기 검색부는 검색된 문서의 각 분야별 유사도를 방사형 그래프로 표시하되, 상기 방사형 그래프의 방향 축을 각 분야를 나타내게 하고, 각 분야별 유사도를 해당 분야의 방향 축의 값으로 나타내게 하고,
상기 대표단어 관리부는 각 문서에 대한 단어 가중치는 문서 d에서 단어 t에 대한 출현 횟수를 나타내는 단어 빈도 TF와, 단어 t가 여러 문서에 나타날 경우 중요도가 낮아지는 정도를 나타내는 역문헌 빈도 IDF를 이용하여 연산되고,
상기 대표단어 관리부는 문서 d에 대한 단어 t의 단어 가중치를 w't,d 를 다음 수식 1에 의해 연산되는 것을 특징으로 하는 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템.
[수식 1]
n은 문서 d에서 나타나는 서로 상이한 단어들의 개수이고, tft,d 는 문서 d에 대한 단어 t의 단어 빈도이고, idft 는 단어 t에 대한 역문헌 빈도임.
- 삭제
- 제1항에 있어서,
상기 검색부는 분야별 검색을 제공하되, 각 분야별 최소 유사도를 설정할 수 있도록 제공하고, 각 분야별 최소 유사도가 설정되면, 해당 분야의 유사도가 해당 분야에서 설정한 최소 유사도 이상인 문서들만 검색하여 제공하는 것을 특징으로 하는 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템.
- 삭제
- 삭제
- 삭제
- 삭제
- 제8항에 있어서,
상기 해당 문서에 대한 단어 가중치 Xi는 단어 빈도 및 역문헌 빈도에 의해 구해지되, 역문헌 빈도는 샘플 문서들에서 구한 해당 단어의 역문헌 빈도를 사용하는 것을 특징으로 하는 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150138734A KR101753768B1 (ko) | 2015-10-01 | 2015-10-01 | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 |
PCT/KR2016/010225 WO2017057858A1 (ko) | 2015-10-01 | 2016-09-12 | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150138734A KR101753768B1 (ko) | 2015-10-01 | 2015-10-01 | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170045403A KR20170045403A (ko) | 2017-04-27 |
KR101753768B1 true KR101753768B1 (ko) | 2017-07-04 |
Family
ID=58427782
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150138734A KR101753768B1 (ko) | 2015-10-01 | 2015-10-01 | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101753768B1 (ko) |
WO (1) | WO2017057858A1 (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033222B (zh) * | 2018-06-29 | 2021-07-13 | 北京奇虎科技有限公司 | 兴趣点poi与检索关键字的相关性分析方法和装置 |
CN109359290B (zh) * | 2018-08-20 | 2023-05-05 | 国政通科技有限公司 | 试题文本的知识点确定方法、电子设备及存储介质 |
KR102371224B1 (ko) * | 2019-12-31 | 2022-03-07 | 인천국제공항공사 | 공항 및 항공 기술의 트렌드 분석 장치 및 방법 |
KR102318674B1 (ko) * | 2020-10-27 | 2021-10-28 | (주)메디아이플러스 | 임상 시험 주요 키워드 예측 방법 및 이를 실행하는 서버 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001043236A (ja) * | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
KR100685023B1 (ko) * | 2001-11-13 | 2007-02-20 | 주식회사 포스코 | 유사성 판단을 위한 예제기반 검색 방법 및 검색 시스템 |
KR20040048548A (ko) * | 2002-12-03 | 2004-06-10 | 김상수 | 지능형 데이터베이스 및 검색 편집 프로그램을 통한사용자 맞춤 검색 방법 및 시스템 |
US7933900B2 (en) * | 2005-10-23 | 2011-04-26 | Google Inc. | Search over structured data |
KR20100007695A (ko) * | 2008-07-11 | 2010-01-22 | 오성환 | 인터넷 검색 시스템 및 그 방법 |
-
2015
- 2015-10-01 KR KR1020150138734A patent/KR101753768B1/ko active IP Right Grant
-
2016
- 2016-09-12 WO PCT/KR2016/010225 patent/WO2017057858A1/ko active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2017057858A1 (ko) | 2017-04-06 |
KR20170045403A (ko) | 2017-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101681109B1 (ko) | 대표 색인어와 유사도를 이용한 문서 자동 분류 방법 | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
US8577834B2 (en) | Methodologies and analytics tools for locating experts with specific sets of expertise | |
US20060179051A1 (en) | Methods and apparatus for steering the analyses of collections of documents | |
CN112632228A (zh) | 一种基于文本挖掘的辅助评标方法及系统 | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
CN106383836B (zh) | 将可操作属性归于描述个人身份的数据 | |
US20060080315A1 (en) | Statistical natural language processing algorithm for use with massively parallel relational database management system | |
US10747759B2 (en) | System and method for conducting a textual data search | |
KR101753768B1 (ko) | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
Zen et al. | TF-IDF Method and Vector Space Model Regarding the Covid-19 Vaccine on Online News | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
Mohemad et al. | Performance analysis in text clustering using k-means and k-medoids algorithms for Malay crime documents | |
Francis | Taming text: An introduction to text mining | |
Fatudimu et al. | Knowledge discovery in online repositories: a text mining approach | |
Osiński et al. | Dimensionality reduction techniques for search results clustering | |
Mustapha et al. | Automatic textual aggregation approach of scientific articles in OLAP context | |
Boden et al. | FactCrawl: A Fact Retrieval Framework for Full-Text Indices. | |
Negm et al. | Investigate the performance of document clustering approach based on association rules mining | |
Ajitha et al. | EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML. | |
Singh et al. | A study of similarity functions used in textual information retrieval in Wide Area Networks | |
Jayabharathy et al. | Correlation based multi-document summarization for scientific articles and news group | |
Galiotou et al. | On the effect of stemming algorithms on extractive summarization: a case study | |
KR20190084370A (ko) | 지능형 법률정보 검색 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |