KR102371224B1 - 공항 및 항공 기술의 트렌드 분석 장치 및 방법 - Google Patents
공항 및 항공 기술의 트렌드 분석 장치 및 방법 Download PDFInfo
- Publication number
- KR102371224B1 KR102371224B1 KR1020200043886A KR20200043886A KR102371224B1 KR 102371224 B1 KR102371224 B1 KR 102371224B1 KR 1020200043886 A KR1020200043886 A KR 1020200043886A KR 20200043886 A KR20200043886 A KR 20200043886A KR 102371224 B1 KR102371224 B1 KR 102371224B1
- Authority
- KR
- South Korea
- Prior art keywords
- keywords
- document
- airport
- nouns
- extracted
- Prior art date
Links
- 238000005516 engineering process Methods 0.000 title claims abstract description 83
- 238000004458 analytical method Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 86
- 239000000284 extract Substances 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 16
- 238000005065 mining Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법에 관한 것이다.
본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법은 웹으로부터 공항 및 항공 기술에 관련된 문서들을 수집하는 단계와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계와, 식별된 형태소들 중 명사를 추출하는 단계와, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계와, 상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함한다.
본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법은 웹으로부터 공항 및 항공 기술에 관련된 문서들을 수집하는 단계와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계와, 식별된 형태소들 중 명사를 추출하는 단계와, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계와, 상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함한다.
Description
본 발명은 공항 및 항공 기술의 트렌드 분석 장치 및 방법에 관한 것으로, 보다 자세하게는 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법에 관한 것이다.
최근 자유롭게 기술된 대량의 텍스트 데이터를 해석하고, 해석 결과로부터 유용한 정보를 구하는 키워드 분석 시스템이 주목받고 있다. 키워드 분석 시스템은 자연어로 이루어진 비구조화 자료에서 유용한 정보를 얻어내기 위해 구조화 데이터로 변환한 후 분석하는 기법이다. 인터넷 검색 엔진이나 열람실의 검색 시스템 등에 키워드 분석 시스템을 적용할 수 있으며, 기존의 주어진 범주에 따라 문서들을 분류할 수도 있다.
그러나, 종래의 키워드 분석 시스템들은 항공 데이터에 특화되지 않고 SNS 정보나 뉴스에서의 동향만 파악 가능했으며, 기술에 대한 상세한 정보를 알지 못하는 한계가 존재하며 특허, 과제, 학술 등의 정보가 사이트마다 별도로 운영되어 공항 및 항공 기술의 정보가 파편화되어 있는 문제가 있다.
또한, 키워드 분석 기술의 핵심은 문자의 형태소를 분석을 통한 핵심 명사를 추출하는 것으로 기존 기술은 핵심 명사에 대한 정보가 없으면 명사로 인식하지 못하여 추출하지 못하는 문제가 있다. 이에 신규 항공 기술에 대한 신규 명사 또는 복합 명사에 대한 추출 방안이 필요한 실정이다.
또한, 4차 산업 혁명에 따라 공항 및 항공산업 기술은 빠르게 변화하고 발전하는 상황이며 그에 맞춰 공항 및 항공산업의 기술의 트렌드를 분석하고 예측하여 산업의 흐름에 맞는 기술 개발을 통한 기술 산업을 주도하기 위한 방안이 요구되는 실정이다.
본 발명은 앞에서 설명한 문제점을 해결하기 위한 것으로, 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법을 제공하는 것을 목적으로 한다.
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법은 웹으로부터 공항 및 항공 기술에 관련된 문서들을 수집하는 단계와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계와, 식별된 형태소들 중 명사를 추출하는 단계와, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계와, 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함할 수 있다.
한편, 앞에서 설명한 목적을 달성하기 위한 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치는 웹으로부터 공항 및 항공 기술에 관련되어 수집되는 문서들을 저장하는 메모리와, 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하고, 식별된 형태소들 중 명사를 추출하고, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하고, 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 프로세서를 포함할 수 있다.
본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치 및 방법은 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석할 수 있다.
또한, 기존 여러 사이트로 분산되어 있는 공항 및 항공 기술에 대한 정보를 수집하고 통합 관리하여 정보의 파편화 문제를 해결하여 일원화된 정보 분석이 가능할 수 있다.
다수의 비정형 알고리즘을 통하여 공항 및 항공 기술에 대한 비정형 분석을 수행하고 알고리즘에 따른 다수의 분석결과를 조합한 분석을 통하여 보다 정확하고 객관적인 기술 분석이 가능할 수 있다.
또한, 공항 및 항공 기술 정보의 통합을 통하여 기술의 핵심 키워드를 추출하고 키워드의 노출 수의 변화량을 분석함으로써 시간 흐름에 따른 공항 및 항공 기술의 발전 방향을 파악하고 급변하는 기술 시장에 대한 기술의 발전을 예측할 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템에 관한 것이다.
도 2는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치를 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 수집된 문서들에서 텍스트를 추출하는 것을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 추출된 텍스트에서 형태소를 분석하고, 명사를 추출하는 것을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 문서 단어 행렬을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 키워드 맵을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 키워드들을 정렬하는 것을 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 집합들을 정렬하는 것을 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법을 나타내는 도면이다.
도 2는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치를 나타내는 도면이다.
도 3은 본 발명의 실시 예에 따른 수집된 문서들에서 텍스트를 추출하는 것을 나타내는 도면이다.
도 4는 본 발명의 실시 예에 따른 추출된 텍스트에서 형태소를 분석하고, 명사를 추출하는 것을 나타내는 도면이다.
도 5는 본 발명의 실시 예에 따른 문서 단어 행렬을 나타내는 도면이다.
도 6은 본 발명의 실시 예에 따른 키워드 맵을 나타내는 도면이다.
도 7은 본 발명의 실시 예에 따른 키워드들을 정렬하는 것을 나타내는 도면이다.
도 8은 본 발명의 실시 예에 따른 집합들을 정렬하는 것을 나타내는 도면이다.
도 9는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법을 나타내는 도면이다.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.
다르게 정의하지는 않았지만, 여기에 사용되는 기술용어 및 과학용어를 포함하는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 일반적으로 이해하는 의미와 동일한 의미를 가진다. 보통 사용되는 사전에 정의된 용어들은 관련 기술문헌과 현재 개시된 내용에 부합하는 의미를 가지는 것으로 추가 해석되고, 정의되지 않는 한 이상적이거나 매우 공식적인 의미로 해석되지 않는다.
이하, 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
도 1은 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템에 관한 것이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 시스템(1000)은 웹(100), 공항 및 항공 기술의 트렌드 분석 장치(200, 이하 트렌드 분석 장치)를 포함할 수 있다.
웹(100)은 일반적으로 인터넷 공간을 의미할 수 있다. 웹(100)에는 뉴스, 학술, R&D 과제, 특허 및 정책 등의 정보가 개시될 수 있고, 각 정보들은 해당 정보들이 개시되는 각 사이트에 개시될 수 있다. 이때, 각 사이트들은 HTML(Hyper Text Markup Language)문서일 수 있다. 예컨대, 뉴스 정보는 뉴스 사이트에 개시될 수 있고, 해당 뉴스 사이트는 HTML 문서일 수 있다.
트렌드 분석 장치(200)는 웹(100)으로부터 뉴스, 학술, R&D 과제, 특허 및 정책 등의 정보를 각 사이트로부터 수집할 수 있다. 이때, 트렌드 분석 장치(200)는 각 사이트로부터 HTML 문서를 수집하는 것일 수 있다. 여기서, 트렌드 분석 장치(200)는 웹(100)으부터 공항 및 항공 기술에 대한 문서들을 수집할 수 있다. 또한, 트렌드 분석 장치(200)는 웹(100)으로부터 수집된 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링하고, 필터링된 공항 및 항공 기술에 대한 문서들을 저장할 수 있다.
트렌드 분석 장치(200)는 각 사이트로부터 수집된 문서들(또는 필터링된 문서들)에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다. 트렌드 분석 장치(200)는 식별된 형태소에서 명사를 추출하고, 추출된 명사들을 문서 단어 행렬로 변환할 수 있다. 트렌드 분석 장치(200)는 변환된 문서 단어 행렬을 이용하여 각 사이트로부터 수집된 문서들간의 유사도 및 연관도 등을 분석하고, 분석된 결과를 이용자에게 제공할 수 있다. 또한, 트렌드 분석 장치(220)는 변환된 문서 단어 행렬을 이용하여 추출된 명사들간의 유사도 및 연관도 등을 분석하고, 분석된 결과를 이용자에게 제공할 수 있다. 여기서, 트렌드 분석 장치(200)는 분석된 결과를 출력장치를 통해 디스플레이에 표시할 수 있다. 이때, 출력장치는 트렌드 분석 장치(200)에 포함되는 일 구성이거나, 별도의 구성일 수 있다
트렌드 분석 장치(200)는 웹(100)으로부터 수집되는 문서들에서 명사를 추출하여 분석함으로써, 웹 콘텐츠에 개시되는 정보들의 트렌드를 분석할 수 있다. 예컨대, 여러 분야의 문서들에서 많은 빈도로 기재된 명사의 경우, 최근 많이 사용되는 명사일 수 있다. 이에 따라, 최근에 많이 사용되는 명사들을 기초로 웹(100)으로부터 수집되는 명사들을 분석함으로써 최근 트렌드를 분석할 수 있다.
도 2는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치를 나타내는 도면이다.
도 2를 참조하면, 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 장치(200, 이하 트렌드 분석 장치)는 메모리(210) 및 프로세서(220)를 포함할 수 있다.
메모리(210)는 웹(100)으로부터 수집되는 정보들을 저장할 수 있다. 즉, 웹(100)으로부터 수집되는 뉴스 정보, 학술 정보, R&D 과제 정보, 특허 정보 및 정책 정보 등을 저장할 수 있다. 여기서, 웹(100)으로부터 수집되는 정보들은 뉴스, 학술, R&D 과제, 특허, 정책 사이트의 HTML 문서일 수 있다.
또한, 메모리(210)에는 형태소 사전이 저장될 수 있다. 형태소 사전은 형태소들을 저장하고 있을 수 있다. 형태소 사전은 사전에 미리 구성되어 메모리(210)에 저장될 수 있고, 웹(100)으로부터 수집되는 정보들에 의해 업데이트되거나, 이용자의 입력에 의해 업데이트될 수 있다. 여기서, 형태소 사전에 저장되는 형태소들은 공항 및 항공에 관련된 단어로부터 식별된 형태소들일 수 있다.
프로세서(220)는 웹(100)으로부터 수집된 문서들이 개시된 사이트의 HTML 태그를 분석하여 각 문서들의 대표 키워드들을 수집할 수 있다. HTML 태그는 제목, 단락, 목록 등과 같은 본문을 위한 구조적 의미를 나타낼 수 있다. 이에 따라, HTML 태그를 분석함에 따라 본문, 즉, 사이트에 개시된 문서의 제목, 단락, 목록 등을 판단할 수 있다. 프로세서(220)는 판단된 제목, 단락, 목록 등을 통해 해당 문서에서 중점적으로 개시하고 있는 대표 키워드를 수집할 수 있다.
예컨대, 프로세서(220)는 '탑승'에 관련된 특허 문서가 개시된 사이트의 HTML 태그를 분석할 수 있다. 프로세서(220)는 HTML 태그를 분석하여 해당 문서의 제목, 단락, 목록 등을 판단할 수 있고, 판단한 결과, 해당 문서에서 중점적으로 개시하고 있는 대표 키워드는 '탑승'임을 판단하고, 이를 수집할 수 있다.
프로세서(220)는 수집된 대표 키워드들을 기초로 형태소 사전을 업데이트할 수 있다. 프로세서(220)는 수집된 대표 키워드들 중 형태소 사전에 저장되어 있지 않은 키워드들을 기초로 형태소 사전을 업데이트할 수 있다. 여기서, 프로세서(220)는 대표 키워드들을 형태소 형태로 변환하고, 형태소 형태로 변환된 대표 키워드를 형태소 사전에 업데이트할 수 있다. 이때, 형태소 사전에 업데이트되는 형태소는 공항 및 항공에 관련된 키워드로부터 변환된 형태소일 수 있다. 즉, 공항 및 항공 기술에 관련된 키워드들이 형태소 형태로 형태소 사전에 저장될 수 있다.
프로세서(220)는 웹(100)으로부터 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 텍스트 마이닝을 통해 수집된 문서들에서 텍스트를 추출할 수 있다. 프로세서(220)는 추출된 텍스트와 형태소 사전에 저장된 형태소들을 각각 비교하여 추출된 텍스트에서 형태소를 식별할 수 있다. 여기서, 프로세서(220)는 수집된 문서들 각각에 대해 텍스트를 추출할 수 있고, 추출된 각각의 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 추출된 각각의 텍스트에서 형태소 사전에 저장된 형태소와 동일한 텍스트를 형태소로써 식별할 수 있다.
프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다. 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 '나이' 및 '연령' 등과 같은 동의어의 경우, '나이' 또는 '연령'중 하나의 형태소로 통일되도록 형태소를 변환할 수 있다. 프로세서(220)에 의해 동의어를 하나의 형태소로 변환하여 동의어를 통일시킴으로써 형태소(키워드)의 분석이 더 정확하게 이루어질 수 있다. 여기서, 프로세서(220)는 불용어를 삭제하고 추출되는 명사에서 동의어를 하나의 형태소로 변환할 수도 있으며, 식별된 형태소들 중 동의어를 하나의 형태소로 변환한 후, 불용어를 삭제하여 명사를 추출할 수도 있다.
프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다. 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.
문서 단어 행렬의 행은 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 또한, 문서 단어 행렬의 행은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열은 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다.
또한, 문서 단어 행렬의 행의 개수는 추출된 명사들의 개수이고, 열의 개수는 수집된 문서들의 개수일 수 있다. 또한, 문서 단어 행렬의 행의 개수는 수집된 문서들의 개수이고, 열의 개수는 추출된 명사들의 개수일 수 있다.
프로세서(220)는 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도, 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 이용자에게 제공할 수 있다.
프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다. 프로세서(220)는 키워드들간의 거리를 계산하여 키워드들을 트리형태로 연결할 수 있다.
프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 특정 키워드에 대해 N만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 또한, 특정 키워드에 대해 M만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 이때, N이 M보다 작은 수인 경우, N만큼의 거리 차이를 가지는 키워드들의 계층은 M만큼의 거리 차이를 가지는 키워드들의 계층에 비해 특정 키워드와 더 가까운 위치에 위치할 수 있다.
또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 특정 키워드 'A'에 대해 N 이내의 거리 차이를 가지는 키워드들 'B' 및 'C'를 특정 키워드 'A'와 연결할 수 있다. 또한, 특정 키워드에 연결된 N 이내의 거리 차이를 가지는 키워드들 'B' 및 'C'각각에 대해 M 이내의 거리 차이를 가지는 가지는 키워드들을 특정 키워드에 연결된 N 이내의 거리 차이를 가지는 키워드들 각각과 연결할 수 있다. 즉, 키워드 'B'와 M 이내의 거리 차이를 가지는 키워드 'D', 및 'E'는 키워드 'B'와 연결될 수 있다. 또한, 키원드 'C'와 M 이내의 거리 차이를 가지는 키워드 'F'는 키워드 'C'와 연결될 수 있다. 여기서, N과 M은 동일한 값일 수 있고, 다른 값일 수도 있다.
프로세서(220)는 이용자의 조작에 따라 생성된 키워드 맵을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 키워드 맵을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 연관된 키워드들을 파악하는데 용이할 수 있다.
프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. 예컨대, 문서 단어 행렬의 행이 추출된 명사들 각각이 문서들에 개시되는 개수인 경우, 행은 순차적으로 키워드 1이 문서들에 개시되는 개수, 키워드 2가 문서들에 개시되는 개수, ??, 키워드 n이 문서들에 개시되는 개수일 수 있다. 이때, 프로세서(220)는 키워드 3이 문서들에 개시되는 개수가 키워드 1이 문서들에 개시되는 개수보다 많은 경우, 키워드 3이 문서들에 개시되는 개수가 키워드 1이 문서들에 개시되는 개수보다 더 앞 순서로 개시되도록 키워드의 순서를 정렬할 수 있다. 여기서, 앞 순서는 행렬(Hij)의 i 및 j의 숫자가 작은 원소를 의미할 수 있다.
또한, 프로세서(220)는 키워드의 개수가 많은 순서대로 키워드들을 별도로 정렬할 수 있다. 예컨대, 프로세서(220)는 (키워드1, 키워드2, 키워드3, ??)의 형태로 키워드들을 정렬할 수도 있다.
프로세서(220)는 이용자의 조작에 따라 정렬된 키워드들을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 정렬된 키워드들을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 주요 키워드들을 파악하는데 용이할 수 있다.
프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다.
프로세서(220)는 이용자의 조작에 따라 정렬된 집합들을 제공할 수 있다. 즉, 프로세서(220)는 출력장치에 정렬된 집합들을 표시하는 것일 수 있다. 이에 따라, 이용자는 복수의 문서들에서 유사한 키워드들을 파악하는데 용이할 수 있다.
도 3은 본 발명의 실시 예에 따른 수집된 문서들에서 텍스트를 추출하는 것을 나타내는 도면이다.
도 3을 참조하면, 프로세서(220)는 웹(100)으로부터 문서를 수집할 수 있다. 프로세서(220)는 뉴스, 학술, R&D 과제, 특허, 정책 사이트에 개시되는 문서들을 수집할 수 있다. 예컨대, 프로세서(220)는 특허 사이트에서 제1문서를 수집하고, 뉴스 사이트에서 제2문서를 수집하고, 정책 사이트에서 제3문서를 수집할 수 있다. 여기서, 각각의 사이트로부터 수집되는 제1문서, 제2문서 및 제3문서는 공항 및 항공 기술에 관련된 문서일 수 있다.
또한, 프로세서(220)는 각각의 사이트로부터 수집되는 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링할 수 있고, 공항 및 항공 기술에 대한 문서들로 필터링된 결과가 제1문서, 제2문서 및 제3문서일 수 있다. 예컨대, 프로세서(220)는 사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 수집되는 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링할 수 있다.
프로세서(220)는 텍스트 마이닝을 통해 각각의 문서들로부터 텍스트를 추출할 수 있다. 즉, 프로세서(220)는 제1문서에서 텍스트를 추출하고, 제2문서에서 텍스트를 추출하고, 제3문서에서 텍스트를 추출할 수 있다.
도 4는 본 발명의 실시 예에 따른 추출된 텍스트에서 형태소를 분석하고, 명사를 추출하는 것을 나타내는 도면이다.
도 4를 참조하면, 프로세서(220)는 각각의 문서들에서 추출된 텍스트를 메모리(210)에 저장된 형태소 사전과 비교할 수 있다. 프로세서(220)는 형태소 사전에 저장된 복수의 형태소들과 텍스트들을 비교할 수 있다. 프로세서(220)는 텍스트들 중 형태소 사전에 저장된 형태소들과 동일한 텍스트를 형태소로써 식별할 수 있다. 여기서, 형태소 사전에 저장된 형태소들은 공항 및 항공 기술과 관련된 형태소들일 수 있고, 이에 따라, 프로세서(220)는 각각의 문서들로부터 공항 및 항공 기술에 관련된 형태소들을 식별할 수 있다. 즉, 프로세서(220)는 문서들에서 추출된 텍스트들을 형태소 사전에 저장된 형태소들과 비교하여 문서들에서 형태소를 식별할 수 있다. 이때, 형태소 사전에 저장된 형태소가 공항 및 항공에 관련된 형태소이므로, 문서들에서 식별되는 형태소 또한 공항 및 항공에 관련된 형태소일 수 있다.
프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다. 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 동의어를 하나의 형태소로 변환하여 동의어를 통일시킬 수 있다. 예컨대, 가족 및 식구라는 키워드가 문서들에 모두 존재할 수 있고, 가족 및 식구는 동일한 의미로 쓰이는 동의어일 수 있다. 이때, 프로세서(220)에 의해 가족 및 식구의 키워드는 가족 또는 식구 중 하나의 키워드로 통일될 수 있다. 한편, 프로세서(220)에 의해 동의어가 하나의 키워드로 통일되지 않는 경우 각각의 키워드는 별도의 키워드로 분석될 수 있다. 이런 경우, 키워드의 분석이 정확하지 않을 수 있다. 예컨대, 가족 및 식구 키워드를 가족으로 변환하여 분석하는 경우 가족 키워드와 식구 키워드가 모두 합쳐진 개수로 분석될 수 있다. 한편, 가족 및 식구 키워드를 각각 별도의 키워드로 분석하는 경우 각각의 개수로 분석될 수 있다. 이런 경우, 동의어를 변환하여 분석하는 경우에는 가장 개수가 많은 키워드일 수 있으나, 별도로 분석하는 경우에는 두개의 키워드 모두 가장 개수가 많은 키워드가 아닐 수 있다. 이에 따라, 프로세서(220)는 동의어를 하나의 키워드로 통일시킴으로써 분석의 결과가 더 정확하도록 할 수 있다.
이때, 프로세서(220)는 기 설정되어 있는 키워드에 따라 동의어를 하나의 키워드로 변환할 수 있다. 예컨대, 프로세서(220)에는 식구 및 가족의 동의어에 대해 가족으로 통일하라는 것으로 기 설정되어 있을 수 있고, 이에 따라 프로세서(220)는 식구 키워드를 모두 가족 키워드로 변환할 수 있다.
또한, 프로세서(220)는 동의어에 대해 개수가 더 많은 키워드로 통일하여 동의어를 변환할 수도 있다.
도 5는 본 발명의 실시 예에 따른 문서 단어 행렬을 나타내는 도면이다.
도 5를 참조하면, (a)는 제1형태의 문서 단어 행렬을 나타내고, (b)는 제2형태의 문서 단어 행렬을 나타낼 수 있다.
프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다. 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.
제1형태의 문서 단어 행렬의 행은 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 즉, 제1형태의 문서 단어 행렬의 행의 개수는 추출된 명사들의 개수이고, 열의 개수는 수집된 문서들의 개수일 수 있다.
제2형태의 문서 단어 행렬의 행은 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열은 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다. 즉, 제2형태의 문서 단어 행렬의 행의 개수는 수집된 문서들의 개수이고, 열의 개수는 추출된 명사들의 개수일 수 있다.
도 6은 본 발명의 실시 예에 따른 키워드 맵을 나타내는 도면이다.
도 6을 참조하면, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다.
프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 즉, 키워드들간의 거리를 계산한 결과, 특정 키워드에 대해 N만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1와 N만큼의 거리 차이를 가지는 키워드들은 키워드2 및 키워드4일 수 있다. 프로세서(220)는 키워드2 및 키워드4를 동일한 계층으로 분류할 수 있다.
또한, 프로세서(220)는 특정 키워드에 대해 M만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1과 M만큼의 거리 차이를 가지는 키워드는 키워드3일 수 있다.
또한, 프로세서(220)는 특정 키워드에 대해 K만큼의 거리 차이를 가지는 키워드들을 동일한 계층으로 분류할 수 있다. 예컨대, 키워드1과 K만큼의 거리 차이를 가지는 키워드는 키워드5일 수 있다.
프로세서(220)는 특정 키워드와의 거리에 따른 계층별로 연결하여 키워드 트리를 생성할 수 있다.
또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다. 예컨대, 키워드들간의 거리를 계산한 결과, 프로세서(220)는 특정 키워드인 키워드1에 대해 N 이내의 거리 차이를 가지는 키워드인 키워드2 및 키워드4를 키워드1과 연결할 수 있다. 또한, 프로세서(220)는 키워드2 및 키워드 4와 M 이내의 거리 차이를 가지는 키워드인 키워드3을 키워드2 및 키워드4와 연결할 수 있다. 또한, 프로세서(220)는 키워드3과 K 이내의 거리 차이를 가지는 키워드인 키워드5를 연결할 수 있다.
여기서, 키워드2 및 키워드4에서 M 이내의 거리 차이를 가지는 키워드를 키워드3 하나로 정의하였으나, 이에 한정되지 않고, 복수개의 키워드에 연결될 수 있다. 또한, 키워드2 및 키워드4에 M 이내의 거리 차이를 가지는 키워드는 상이할 수 있고, M 이내의 거리 차이를 가지는 키워드들 각각은 키워드2 또는 키워드4중 적어도 하나의 키워드에 연결될 수 있다.
프로세서(220)는 출력장치에 키워드 맵을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 연관된 키워드들을 파악하는데 용이할 수 있다.
도 7은 본 발명의 실시 예에 따른 키워드들을 정렬하는 것을 나타내는 도면이다.
도 7을 참조하면, (a)는 행이 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수인 제1형태의 문서 단어 행렬인 경우를 나타내고, (b)는 행이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열이 추출된 명사들 각각이 특정 문서에 개시되는 개수인 제2형태의 문서 단어 행렬인 경우를 나타낼 수 있다.
프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다. 예컨대, 제1형태의 문서 단어 행렬인 경우, 명사들 각각이 문서들에 개시되는 개수는 행에 기재될 수 있다. 각 키워드들이 문서들에 개시되는 개수는 키워드1은 8이고, 키워드2는 9이고, 키워드3은 15이고, 키워드4는 10이고, 키워드5는 2일 수 있다. 이에 따라, 키워드의 개수가 많은 순서로 키워드들을 정렬하면 키워드3-키워드4-키워드2-키워드1-키워드5의 순서일 수 있다. 이에 따라, 프로세서(220)는 키워드들이 문서들에 개시되는 개수가 기재되는 행의 순서를 변환할 수 있다. 이에 따라, 프로세서(220)는 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수 있다.
또한, 제2형태의 문서 단어 행렬인 경우, 명사들 각각이 문서들에 개시되는 개수는 열에 기재될 수 있다. 각 키워드들이 문서들에 개시되는 개수는 키워드1은 8이고, 키워드2는 9이고, 키워드3은 15이고, 키워드4는 10이고, 키워드5는 2일 수 있다. 이에 따라, 키워드의 개수가 많은 순서로 키워드들을 정렬하면 키워드3-키워드4-키워드2-키워드1-키워드5의 순서일 수 있다. 이에 따라, 프로세서(220)는 키워드들이 문서들에 개시되는 개수가 기재되는 열의 순서를 변환할 수 있다. 이에 따라, 프로세서(220)는 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수 있다.
여기서, 프로세서(220)는 문서들의 비중에 따라 키워드들이 문서들에 포함되는 개수에 따른 비중을 각각 계산할 수 있고, 계산된 비중에 따라 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 키워드들을 정렬할 수도 있다.
프로세서(220)는 출력장치에 정렬된 키워드들을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 주요 키워드들을 파악하는데 용이할 수 있다.
도 8은 본 발명의 실시 예에 따른 집합들을 정렬하는 것을 나타내는 도면이다.
도 8을 참조하면, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다. 여기서, 각 원의 크기는 분류된 키워드의 개수에 따라 상이할 수 있고, 각 원들간의 거리는 키워드들간의 거리를 나타낼 수 있다.
프로세서(220)는 출력장치에 정렬된 집합들을 표시할 수 있다. 이에 따라, 이용자는 복수의 문서들에서 유사한 키워드들을 파악하는데 용이할 수 있다.
도 9는 본 발명의 실시 예에 따른 공항 및 항공 기술의 트렌드 분석 방법을 나타내는 도면이다.
도 9를 참조하면, 프로세서(220)는 웹(100)으로부터 공항 및 항공 기술에 관련된 문서들을 수집할 수 있다(S100). 프로세서(220)는 뉴스, 학술, R&D 과제, 특허 및 정책 사이트로부터 문서들을 수집할 수 있다. 프로세서(220)가 웹(100)으부터 수집하는 문서들은 공항 및 항공 기술에 관련된 문서들일 수 있다. 또한, 프로세서(220)는 웹(100)으로부터 수집된 문서들 중 공항 및 항공 기술에 대한 문서들을 필터링하고, 필터링된 공항 및 항공 기술에 대한 문서들을 저장할 수 있다.
프로세서(220)는 웹(100)으로부터 수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별할 수 있다(S200). 프로세서(220)는 텍스트 마이닝을 통해 수집된 문서들에서 텍스트를 추출할 수 있다. 프로세서(220)는 추출된 텍스트와 형태소 사전에 저장된 형태소들을 각각 비교하여 추출된 텍스트에서 형태소를 식별할 수 있다. 프로세서(220)는 추출된 각각의 텍스트에서 형태소 사전에 저장된 형태소와 동일한 텍스트를 형태소로써 식별할 수 있다.
프로세서(220)는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출할 수 있다(S300). 여기서, 불용어는 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등을 포함할 수 있다. 즉, 프로세서(220)에 의해 식별된 형태소에서 관사, 전치사, 조사, 접속사 등이 삭제됨으로써 명사 형태의 형태소만이 남을 수 있다. 이에 따라, 프로세서(220)는 식별된 형태소들 중 명사를 추출할 수 있다. 또한, 프로세서(220)는 동의어를 하나의 형태소로 변환하여 동의어를 통일시킬 수 있다.
프로세서(220)는 추출된 명사들을 이용하여 문서 단어 행렬을 생성할 수 있다(S400). 문서 단어 행렬은 복수의 문서들에서 개시되는 각 명사들의 개수를 행렬로 표현한 것일 수 있다. 즉, 프로세서(220)는 추출된 명사들 각각이 수집된 문서들 각각에 개시되는 개수를 기초로 문서 단어 행렬을 생성할 수 있다.
문서 단어 행렬은 제1형태 및 제2형태 중 적어도 하나의 형태로 생성될 수 있다. 제1형태의 문서 단어 행렬은 행이 추출된 명사들 각각이 특정 문서에 개시되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수일 수 있다. 또한, 제1형태의 문서 단어 행렬은 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수일 수 있다.
또한, 제2형태의 문서 단어 행렬은 행이 추출된 명사들 중 특정 명사가 문서들 각각에 개시되는 개수이고, 열이 추출된 명사들 각각이 특정 문서에 개시되는 개수일 수 있다. 또한, 제2형태의 문서 단어 행렬은 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수일 수 있다.
프로세서(220)는 문서 단어 행렬을 이용하여 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도, 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 이용자에게 제공할 수 있다(S500).
프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 계산하고, 계산된 거리를 기초로 키워드 맵을 생성할 수 있다.
프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 계층별로 구분하고, 계층별 키워드들을 연결하여 키워드 맵을 생성할 수 있다.
또한, 프로세서(220)는 키워드들간의 거리를 계산하여 특정 키워드와의 거리가 일정 거리 내인 키워드들을 특정 키워드와 연결하고, 일정 거리 내의 키워드들 각각과의 거리가 일정 거리 내인 키워드들을 일정 거리 내의 키워드들과 연결할 수 있다. 즉, 프로세서(220)는 특정 키워드에 대해 거리가 가까운 키워드들을 특정 키워드와 연결하고, 특정 키워드와 연결되는 키워드들 각각에 대해 거리가 가까운 키워드들을 연결하여 키워드 맵을 생성할 수 있다.
프로세서(220)는 생성된 키워드 맵을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다.
또한, 프로세서(220)는 문서 단어 행렬에서 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬할 수 있다. 프로세서(220)는 문서 단어 행렬의 형태를 유지한 채로, 행 또는 열의 순서만을 변경하여 정렬할 수 있다.
또한, 프로세서(220)는 키워드의 개수가 많은 순서대로 키워드들을 별도로 정렬할 수 있다. 예컨대, 프로세서(220)는 (키워드1, 키워드2, 키워드3, ??)의 형태로 키워드들을 정렬할 수도 있다.
프로세서(220)는 정렬된 키워드들을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다.
또한, 프로세서(220)는 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 구성된 집합들을 정렬할 수 있다.
프로세서(220)는 정렬된 집합들을 출력장치에 표시하여 분석된 결과를 이용자에게 제공할 수 있다.
전술한 바와 같이, 본 발명의 실시 예에 따르면 웹 콘텐츠로부터 수집된 데이터에서 공항 및 항공 기술에 대한 데이터를 필터링하고, 필터링된 데이터에서 형태소를 분석하여 키워드를 추출하고, 추출된 키워드 간의 연관성을 분석하여 트렌드를 분석하는 공항 및 항공 기술의 트렌드 분석 장치 및 방법을 실현할 수 있다.
본 발명이 속하는 기술 분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있으므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 웹
200: 공항 및 항공 기술의 트렌드 분석 장치
210: 메모리
220: 프로세서
200: 공항 및 항공 기술의 트렌드 분석 장치
210: 메모리
220: 프로세서
Claims (26)
- 공항 및 항공 기술의 트렌드 분석 장치의 공항 및 항공 기술의 트렌드 분석 방법에 있어서,
웹으로부터 공항 및 항공 기술에 관련된 문서들을 수집하는 단계;
수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하는 단계;
식별된 형태소들 중 명사를 추출하는 단계;
추출된 명사들을 이용하여 문서 단어 행렬을 생성하는 단계; 및
상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 단계를 포함하며,
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 기반으로 키워드 맵을 생성하고, 생성된 키워드 맵을 제공하는 단계를 포함하며,
상기 키워드 맵은, 상기 키워드들의 계층, 및 상기 키워드들 간의 연결 관계를 나타내며,
상기 키워드들의 계층은, 상기 키워드들 사이의 거리에 따라 분류되며,
상기 키워드 맵 내에서 상기 키워드들 중 서로에 대한 거리가 지정된 거리 이내인 키워드들은 서로 연결되고, 서로에 대한 거리가 지정된 거리 이내에 해당하지 않는 키워드들은 서로 연결되지 않는, 공항 및 항공 기술의 트렌드 분석 방법. - 제1항에 있어서,
상기 문서들을 수집하는 단계는,
사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 공항 및 항공 기술에 관련된 문서들을 필터링하는 공항 및 항공 기술의 트렌드 분석 방법. - 제1항에 있어서,
상기 문서들을 수집하는 단계는,
웹에 개시되는 뉴스, 학술, R&D과제, 특허 및 정책 사이트의 HTML 태그를 분석하여 각 문서들의 대표 키워드들을 수집하는 공항 및 항공 기술의 트렌드 분석 방법. - 제3항에 있어서,
메모리에는 공항 및 항공 기술과 관련된 형태소들이 저장된 형태소 사전이 저장되고,
상기 웹으로부터 문서들을 수집하는 단계는,
수집된 대표 키워드들을 기초로 상기 형태소 사전을 업데이트하는 공항 및 항공 기술의 트렌드 분석 방법. - 제4항에 있어서,
상기 추출된 텍스트에서 형태소를 식별하는 단계는,
추출된 텍스트와 상기 형태소 사전에 저장된 형태소들을 비교하여 상기 추출된 텍스트에서 형태소를 식별하는 공항 및 항공 기술의 트렌드 분석 방법. - 제1항에 있어서,
상기 명사를 추출하는 단계는,
식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출하는 공항 및 항공 기술의 트렌드 분석 방법. - 제1항에 있어서,
상기 문서 단어 행렬을 생성하는 단계는,
추출된 명사들 각각이 문서들 각각에 개시되는 개수를 행렬로 변환하여 상기 문서 단어 행렬을 생성하는 공항 및 항공 기술의 트렌드 분석 방법. - 제1항에 있어서,
상기 문서 단어 행렬을 생성하는 단계는,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수이고,
상기 제2형태는 열이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 행이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수인 공항 및 항공 기술의 트렌드 분석 방법. - 제1항에 있어서,
상기 문서 단어 행렬을 생성하는 단계는,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수이고,
상기 제2형태는 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수인 공항 및 항공 기술의 트렌드 분석 방법. - 삭제
- 삭제
- 제1항에 있어서,
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬하고, 정렬된 키워드를 제공하는 단계를 더 포함하는, 공항 및 항공 기술의 트렌드 분석 방법. - 제1항에 있어서,
상기 분석한 결과를 제공하는 단계는,
상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 집합들을 정렬하고, 정렬된 집합들을 제공하는 단계를 더 포함하는, 공항 및 항공 기술의 트렌드 분석 방법. - 웹으로부터 공항 및 항공 기술에 관련되어 수집되는 문서들을 저장하는 메모리; 및
수집된 문서들에서 텍스트를 추출하고, 추출된 텍스트에서 형태소를 식별하고, 식별된 형태소들 중 명사를 추출하고, 추출된 명사들을 이용하여 문서 단어 행렬을 생성하고, 상기 문서 단어 행렬을 이용하여 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 유사도 및 연관도와, 각 문서들간의 유사도 및 연관도를 분석하고, 분석한 결과를 제공하는 프로세서를 포함하며,
상기 프로세서는, 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들간의 거리를 기반으로 키워드 맵을 생성하고, 생성된 키워드 맵을 상기 분석한 결과로써 제공하되,
상기 키워드 맵은, 상기 키워드들의 계층, 및 상기 키워드들 간의 연결 관계를 나타내며,
상기 키워드들의 계층은, 상기 키워드들 사이의 거리에 따라 분류되며,
상기 키워드 맵 내에서 상기 키워드들 중 서로에 대한 거리가 지정된 거리 이내인 키워드들은 서로 연결되고, 서로에 대한 거리가 지정된 거리 이내에 해당하지 않는 키워드들은 서로 연결되지 않는, 공항 및 항공 기술의 트렌드 분석 장치. - 제14항에 있어서,
상기 프로세서는 사이트의 주소, 사이트의 명칭, 문서의 명칭, 문서의 내용, 문서의 저자, 사이트의 호스트 각각과 공항 및 항공 기술에 관련된 단어들 사이의 유사도를 이용하여 공항 및 항공 기술에 관련된 문서들을 필터링하는 공항 및 항공 기술의 트렌드 분석 장치. - 제14항에 있어서,
상기 메모리는 웹에 개시되는 뉴스, 학술, R&D과제, 특허 및 정책 사이트의 HTML 태그를 분석하여 수집되는 각 문서들의 대표 키워드들을 저장하는 공항 및 항공 기술의 트렌드 분석 장치. - 제16항에 있어서,
상기 메모리에는 공항 및 항공 기술과 관련된 형태소들이 저장된 형태소 사전이 저장되고,
수집된 대표 키워드들을 기초로 상기 형태소 사전이 업데이트되는 공항 및 항공 기술의 트렌드 분석 장치. - 제17항에 있어서,
상기 프로세서는 추출된 텍스트와 상기 형태소 사전에 저장된 형태소들을 비교하여 상기 추출된 텍스트에서 형태소를 식별하는 공항 및 항공 기술의 트렌드 분석 장치. - 제14항에 있어서,
상기 프로세서는 식별된 형태소들 중 불용어를 삭제하고, 식별된 형태소들 중 동의어를 하나의 형태소로 변환하여 명사를 추출하는 공항 및 항공 기술의 트렌드 분석 장치. - 제14항에 있어서,
상기 프로세서는 추출된 명사들 각각이 문서들 각각에 개시되는 개수를 행렬로 변환하여 상기 문서 단어 행렬을 생성하는 공항 및 항공 기술의 트렌드 분석 장치. - 제14항에 있어서,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 열이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수이고,
상기 제2형태는 열이 추출된 명사들 각각이 특정 문서에 포함되는 개수이고, 행이 추출된 명사들 중 특정 명사가 문서들 각각에 포함되는 개수인 공항 및 항공 기술의 트렌드 분석 장치. - 제14항에 있어서,
상기 문서 단어 행렬은 제1형태 또는 제2형태 중 적어도 하나의 형태로 생성되고,
상기 제1형태는 행의 개수가 추출된 명사들의 개수이고, 열의 개수가 수집된 문서들의 개수이고,
상기 제2형태는 행의 개수가 수집된 문서들의 개수이고, 열의 개수가 추출된 명사들의 개수인 공항 및 항공 기술의 트렌드 분석 장치. - 삭제
- 삭제
- 제14항에 있어서,
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 개수가 가장 많은 키워드부터 개수가 가장 적은 키워드의 순서로 순차적으로 정렬하고, 정렬된 키워드를 제공하는 공항 및 항공 기술의 트렌드 분석 장치. - 제14항에 있어서,
상기 프로세서는 상기 문서 단어 행렬의 각 원소에 해당하는 키워드들을 유사한 키워드별로 집합을 구성하고, 구성된 집합들간의 거리를 계산하여 거리에 따라 집합들을 정렬하고, 정렬된 집합들을 제공하는 공항 및 항공 기술의 트렌드 분석 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190179921 | 2019-12-31 | ||
KR20190179921 | 2019-12-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210086402A KR20210086402A (ko) | 2021-07-08 |
KR102371224B1 true KR102371224B1 (ko) | 2022-03-07 |
Family
ID=76894474
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200043886A KR102371224B1 (ko) | 2019-12-31 | 2020-04-10 | 공항 및 항공 기술의 트렌드 분석 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102371224B1 (ko) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230057114A (ko) | 2021-10-21 | 2023-04-28 | 삼성전자주식회사 | 기술 문서 데이터 베이스를 통한 키워드 도출 방법 및 장치 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108569A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101061075B1 (ko) * | 2009-11-27 | 2011-08-31 | 한국 한의학 연구원 | 연구 동향 분석을 위한 등고선 맵 생성 방법 |
KR101560456B1 (ko) * | 2013-11-01 | 2015-10-15 | 황성봉 | 어휘 분석을 이용한 트렌드정보 추출 및 예측 방법 |
KR101753768B1 (ko) * | 2015-10-01 | 2017-07-04 | 한국외국어대학교 연구산학협력단 | 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템 |
KR102007437B1 (ko) * | 2016-11-25 | 2019-08-05 | 한국전자통신연구원 | 콘텐츠 분류 장치 및 방법 |
-
2020
- 2020-04-10 KR KR1020200043886A patent/KR102371224B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003108569A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 分類処理装置、分類処理装置の制御方法、制御プログラムおよび記録媒体 |
Non-Patent Citations (1)
Title |
---|
김현정 외 2명, "항공산업 미래유망분야 선정을 위한 텍스트 마이닝 기반의 트렌드 분석", 한국지능정보시스템 학회 지능정보연구 제21권 제1호,2015.03.31., pp65-82. 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR20210086402A (ko) | 2021-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Inzalkar et al. | A survey on text mining-techniques and application | |
KR102123974B1 (ko) | 유사 특허 검색 서비스 시스템 및 방법 | |
JP5746286B2 (ja) | コプロセッサを使った高性能のデータメタタグ付けおよびデータ索引付けの方法およびシステム | |
US20110295857A1 (en) | System and method for aligning and indexing multilingual documents | |
US20080195568A1 (en) | Methodologies and analytics tools for identifying white space opportunities in a given industry | |
US9996742B2 (en) | System and method for global identification in a collection of documents | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
JP2003288362A (ja) | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 | |
CN115186050B (zh) | 基于自然语言处理的选题推荐方法、系统及相关设备 | |
Chi et al. | Developing base domain ontology from a reference collection to aid information retrieval | |
KR102091633B1 (ko) | 연관법령 제공 방법 | |
Yeasmin et al. | Study of abstractive text summarization techniques | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Jeon et al. | Making a graph database from unstructured text | |
KR102371224B1 (ko) | 공항 및 항공 기술의 트렌드 분석 장치 및 방법 | |
JP2000276487A (ja) | 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体 | |
Nanba et al. | Bilingual PRESRI-Integration of Multiple Research Paper Databases. | |
Korayem et al. | Query sense disambiguation leveraging large scale user behavioral data | |
Roslan et al. | Biodiversity Knowledge Retrieval Application Using Natural Language Processing Technique | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
Shaikh et al. | Bringing shape to textual data-a feasible demonstration | |
KR101088483B1 (ko) | 이종 분류체계들을 매핑시키는 방법 및 장치 | |
JP7167996B2 (ja) | 事例検索方法 | |
Mukherjee et al. | Automatic extraction of significant terms from the title and abstract of scientific papers using the machine learning algorithm: A multiple module approach | |
El Idrissi et al. | HCHIRSIMEX: An extended method for domain ontology learning based on conditional mutual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |