Nothing Special   »   [go: up one dir, main page]

KR101850886B1 - 감소 질의를 추천하는 검색 시스템 및 방법 - Google Patents

감소 질의를 추천하는 검색 시스템 및 방법 Download PDF

Info

Publication number
KR101850886B1
KR101850886B1 KR1020110121487A KR20110121487A KR101850886B1 KR 101850886 B1 KR101850886 B1 KR 101850886B1 KR 1020110121487 A KR1020110121487 A KR 1020110121487A KR 20110121487 A KR20110121487 A KR 20110121487A KR 101850886 B1 KR101850886 B1 KR 101850886B1
Authority
KR
South Korea
Prior art keywords
query
terms
weight
term
extracted
Prior art date
Application number
KR1020110121487A
Other languages
English (en)
Other versions
KR20120132610A (ko
Inventor
최지훈
김지승
이윤식
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020110121487A priority Critical patent/KR101850886B1/ko
Priority to JP2011279933A priority patent/JP5838086B2/ja
Priority to US13/333,667 priority patent/US9128982B2/en
Publication of KR20120132610A publication Critical patent/KR20120132610A/ko
Application granted granted Critical
Publication of KR101850886B1 publication Critical patent/KR101850886B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24528Standardisation; Simplification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

감소 질의를 추천하는 검색 시스템 및 방법이 개시된다. 검색 시스템은 입력된 질의에서 둘 이상의 용어(term)를 추출하는 용어 추출부, 추출된 용어 각각의 가중치를 계산하는 가중치 계산부 및 계산된 가중치를 기준으로 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공하는 감소 질의 추천부를 포함한다.

Description

감소 질의를 추천하는 검색 시스템 및 방법{SEARCH SYSTEM AND MEHTOD FOR RECOMMENDING REDUCTION QUERY}
본 발명의 실시예들은 감소 질의를 추천하는 검색 시스템 및 방법에 관한 것이다.
종래기술에 따른 검색 방법에 따른 통합검색이나 상품검색에서 질의에 대한 검색 결과가 없거나 너무 적은 수의 검색 결과만을 포함하는 경우가 매우 많다. 이러한 경우는 질의가 너무 길거나 상세한 경우, 그리고 질의와 무관한 부가어가 포함된 경우를 포함하는 경우가 대부분이다. 예를 들어, 상품검색에서 "정관장 레드맥스플러스"나 "필립스 스팀다리미 2860" 또는 "아비노 데일리 모이스처 바디워시(354ml) + 스트레스 릴리프 버블바스(295ml)"와 같은 질의는 질의가 너무 길거나 상세한 경우에 해당할 수 있다. 또한, "베네통 후드 스타일 폭스머플러"나 "앱솔루트궁 원래가격" 또는 "셀프앞머리파마" 등과 같은 질의는 부가어에 의해 검색 결과가 없거나 너무 적은 수의 검색 결과만을 포함하는 경우에 해당할 수 있다. 이외에도, "주얼리 명품시계태그호이어"나 "라코스테 공유 단화" 또는 "수입 아즈나브로 프랑스 에트로 헤어핀" 등과 같이 카테고리명/브랜드명/제조사명을 나열하는 형태의 질의에 대해서도 검색 결과가 없거나 너무 적은 수의 검색 결과만을 포함하는 경우가 존재한다. 즉, 적합하거나 유사한 상품이나 검색 결과가 존재함에도 불구하고, 모든 질의에 포함된 용어에 모두 적합한 상품이나 검색 결과가 없거나 부족하다.
본 명세서에서는 보다 효과적으로 검색 결과를 제공할 수 있는 시스템 및 방법이 제공된다.
입력된 질의에 포함된 용어 각각의 가중치를 계산하고, 가중치를 기준으로 적어도 하나의 용어를 제거하여 감소 질의를 제공함으로써, 너무 긴 질의나 검색 결과가 존재하지 않거나 검색 결과의 수가 너무 적은 질의에 대해서도 효과적으로 검색 결과를 제공할 수 있는 검색 시스템 및 방법이 제공된다.
형태소 분석을 통해 추출된 용어들간의 상호 정보량을 질의 로그를 이용하여 계산하고, 상호 정보량을 이용하여 질의에서 보다 효과적으로 용어를 추출할 수 있는 검색 시스템 및 방법이 제공된다.
각 용어에 대해 문서상에서의 중요성, 정확하게 매칭되는 질의 로그상의 쿼리의 수, 부분적으로 매칭되는 질의 로그상의 쿼리의 수 및 정확하게 매칭되는 쿼리의 수와 부분적으로 매칭되는 쿼리의 수간의 비율 등을 이용하여 각 용어의 가중치를 계산함으로써, 보다 질의에 적합한 용어를 선택할 수 있는 검색 시스템 및 방법이 제공된다.
계산된 가중치를 이용하여 기선정된 순위 이하의 용어를 제거하고, 나머지 용어들을 이용하여 감소 질의를 추천할 수 있는 검색 시스템 및 방법에 제공된다.
입력된 질의에서 둘 이상의 용어(term)를 추출하는 용어 추출부, 추출된 용어 각각의 가중치를 계산하는 가중치 계산부 및 계산된 가중치를 기준으로 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공하는 감소 질의 추천부를 포함하는 검색 시스템이 제공된다.
일측에 따르면, 질의는 질의를 통한 검색 결과가 기선정된 개수 이하인 질의를 포함할 수 있다.
다른 측면에 따르면, 용어 추출부는 질의를 형태소 분석하여 복수의 용어들을 추출하는 형태소 분석부 및 질의 로그를 이용하여 복수의 용어들 중 질의내에서 서로 인접한 용어들간의 상호 정보량(mutual information)을 계산하고, 상호 정보량이 임계값 이상인 서로 인접한 용어들을 하나의 용어로서 결합하는 위크 컨셉(weak concept) 추출부를 포함할 수 있다.
또 다른 측면에 따르면, 상호 정보량은 질의 로그에서 서로 인접한 용어들이 각각 이용된 횟수 및 서로 인접한 용어들이 함께 이용된 횟수를 이용하여 계산될 수 있다.
또 다른 측면에 따르면, 가중치 계산부는 추출된 용어 각각에 대해, 전체 문서의 수 및 해당 용어가 포함된 문서의 수에 기초하여 계산되는 제1 가중치, 질의 로그에 포함된 질의의 수 및 해당 용어와 질의 로그에 포함된 질의가 정확하게 매칭되는 수에 기초하여 계산되는 제2 가중치, 질의 로그에 포함된 질의의 수와 해당 용어와 질의 로그에 포함된 질의가 부분적으로 매칭되는 수에 기초하여 계산되는 제3 가중치 및 제2 가중치의 제3 가중치에 대한 비율에 기초하여 계산되는 제4 가중치 중 적어도 하나의 가중치를 이용하여 추출된 용어 각각의 가중치를 계산할 수 있다.
또 다른 측면에 따르면, 감소 질의 추천부는 추출된 용어에서 가중치를 기준으로 기선정된 순위 이하의 용어를 제거하는 용어 제거부 및 제거된 용어를 제외한 나머지 용어를 이용하여 적어도 하나의 감소 질의를 생성하는 감소 질의 생성부를 포함할 수 있다.
또 다른 측면에 따르면, 감소 질의 생성부는 가중치가 가장 높은 용어를 키 용어로 선정하고, 키 용어와 나머지 용어 중 다른 용어의 조합에 기초하여 적어도 하나의 감소 질의를 생성할 수 있다.
또 다른 측면에 따르면, 검색 시스템은 적어도 하나의 감소 질의를 이용하여 질의를 입력한 사용자에게 검색 결과를 제공하는 검색 결과 제공부를 더 포함할 수 있다.
또 다른 측면에 따르면, 검색 결과 제공부는 적어도 하나의 감소 질의 및 적어도 하나의 감소 질의 각각에 따른 검색 결과의 개수를 사용자에게 제공하고, 사용자로부터 선택된 감소 질의에 대한 검색 결과를 사용자에게 제공할 수 있다.
또 다른 측면에 따르면, 검색 결과 제공부는 적어도 하나의 감소 질의 중 검색 결과가 가장 많은 감소 질의에 대한 검색 결과를 사용자에게 제공하거나 또는 적어도 하나의 감소 질의에 대한 전체 검색 결과를 사용자에게 제공할 수 있다.
또 다른 측면에 따르면, 질의는 상품 검색을 위해 사용자로부터 입력된 질의로서 질의를 통해 검색된 상품이 기선정된 개수 이하인 질의를 포함할 수 있다.
입력된 질의에서 둘 이상의 용어를 추출하는 단계, 추출된 용어 각각의 가중치를 계산하는 단계 및 계산된 가중치를 기준으로 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공하는 단계를 포함하는 검색 방법이 제공된다.
입력된 질의에 포함된 용어 각각의 가중치를 계산하고, 가중치를 기준으로 적어도 하나의 용어를 제거하여 감소 질의를 제공함으로써, 너무 긴 질의나 검색 결과가 존재하지 않거나 검색 결과의 수가 너무 적은 질의에 대해서도 효과적으로 검색 결과를 제공할 수 있다.
형태소 분석을 통해 추출된 용어들간의 상호 정보량을 질의 로그를 이용하여 계산하고, 상호 정보량을 이용하여 질의에서 보다 효과적으로 용어를 추출할 수 있다.
각 용어에 대해 문서상에서의 중요성, 정확하게 매칭되는 질의 로그상의 쿼리의 수, 부분적으로 매칭되는 질의 로그상의 쿼리의 수 및 정확하게 매칭되는 쿼리의 수와 부분적으로 매칭되는 쿼리의 수간의 비율 등을 이용하여 각 용어의 가중치를 계산함으로써, 보다 질의에 적합한 용어를 선택할 수 있다.
계산된 가중치를 이용하여 기선정된 순위 이하의 용어를 제거하고, 나머지 용어들을 이용하여 감소 질의를 추천할 수 있다.
도 1은 본 발명의 일실시예에 있어서, 상품 검색에서 임의의 용어들을 사용자 인기(popularity)와 상품 특수성(specificity)에 따라 나타낸 그래프이다.
도 2는 본 발명의 일실시예에 있어서, 위크 컨셉 추출을 위한 상호 정보량의 임계값을 설명하기 위한 그래프이다.
도 3은 본 발명의 일실시예에 있어서, 입력된 질의에서 추출된 용어와 용어별로 계산된 가중치를 나타낸 표이다.
도 4는 본 발명의 일실시예에 있어서, 감소 질의를 생성하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 있어서, 검색 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 6은 본 발명의 일실시예에 있어서, 검색 방법을 도시한 흐름도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 있어서, 상품 검색에서 임의의 용어들을 사용자 인기(popularity)와 상품 특수성(specificity)에 따라 나타낸 그래프이다. 그래프(100)에서 x-축은 용어에 대한 사용자 인기를 수치화한 값을 나타내고, y-축은 상품 특수성을 수치화한 값을 나타낸다. 즉, 그래프(100)는 상품 검색에서 질의가 너무 길거나 상세한 경우나 질의와 무관한 부가어가 포함된 경우에 사용자 인기가 낮은 용어와 상품 특수성이 낮은 용어를 제거함으로써, 질의에 따라 검색된 상품이나 검색 결과가 존재하지 않거나 검색된 상품이나 검색 결과의 수가 너무 적은 경우, 검색 품질이 떨어지는 문제점을 해결할 수 있다. 예를 들어, 그래프(100)에서 질의에 포함될 수 있는 용어들 중 '230ml'이나 '21인치', '주얼리', '수입', '이효리' 및 '가격비교' 등은 상품 검색에 있어서는 사용자 인기나 상품 특수성 또는 사용자 인기와 상품 특수성 둘 모두가 낮기 때문에 검색된 상품이나 검색 결과의 수가 기선정된 수 이하인 경우에는 질의에서 제거할 수 있다. 이 경우, '230ml'이나 '21인치'는 사용자들이 잘 사용하지 않는 용어로서, '수입', '이효리' 및 '가격비교'는 단일 쇼핑 질의가 되기 어려운 부가어로서, '주얼리'는 상품 특수성이 부족한 용어로서 각각 제거될 수 있다.
반면, 영역(110)내에 나타난 용어 '아즈나브로', '에어맥스', '50d', '청바지', '원피스'는 사용자 인기나 상품 특수성 또는 사용자 인기와 상품 특수성 둘 모두가 높기 때문에 감소 질의(reduction query)를 구성하는 용어로서 이용될 수 있다.
우선, 사용자로부터 입력되는 질의에서 상술한 용어를 추출하기 위해, 본 실시예에 따른 검색 시스템은 질의를 형태소 분석을 통해 형태소별로 용어들을 추출한 후, 용어들간의 상호 정보량을 이용하여 필요에 따라 서로 인접한 용어들을 결합할 수 있다. 예를 들어, 질의 "수입 아즈나브로 프랑스 에트로 헤어핀"를 형태소 분석하는 경우, "수입/아즈나/브로/프랑스/에트로/헤어/핀"과 같은 용어들이 추출될 수 있다. 그러나, 용어 "아즈나"와 "브로" 그리고 "헤어"나 "핀"과 같은 단어는 각각의 용어로 분리되는 경우, 질의의 의도가 모호해질 수 있다. 따라서, 이 경우에는 "아즈나브로" 및 "헤어핀"과 같이 결합된 경우가 질의의 의도에 더 가까울 수 있다. 또 다른 예로, "아비노/데일리/모이스처/바디/워시"의 "바디/워시"나, "필립스/스팀/다리미/2860"의 "스팀/다리미" 그리고 "버버리/트렌치/코트"의 "트렌치/코트" 등은 각각의 용어로 분리되는 것보다 결합되는 것이 질의의 의도에 더 가깝다. 따라서, 검색 시스템은 상술한 바와 같이, "바디/워시", "스팀/다리미", 및 "트렌치/코트"를 각각 하나의 용어 "바디워시", "스팀다리미" 및 "트렌치코트"로 결합하여 이용할 수 있다.
이를 위해, 검색 시스템은 형태소 분석을 통해 추출된 용어들 중 서로 인접한 용어들에 대해 상호 정보량을 산출할 수 있다. 예를 들어, 상호 정보량은 아래 수학식 1과 같이 계산될 수 있다.
Figure 112011091829409-pat00001
여기서, 'MI'는 상호 정보량을, 'x' 및 'y'는 서로 인접한 용어들을 각각 의미할 수 있다. 또한, 'n(x, y)'는 질의 로그에서 'x' 및 'y'가 하나의 질의에 포함된 경우의 수를 의미할 수 있고, 'n(x)'는 질의 로그에서 'x'가 포함된 질의의 수를, 'n(y)'는 질의 로그에서 'y'가 포함된 질의의 수를 각각 의미할 수 있다. 또한, 'T'는 질의 로그에서 용어 출현의 전체 수를 의미할 수 있다.
이와 같이, 검색 시스템은 서로 인접한 용어간의 상호 정보량이 계산한 후, 상호 정보량에 대한 임계값을 이용하여 서로 결합하기 위한 용어들인 위크 컨셉(weak concept)을 추출할 수 있다. 이때, 위크 컨셉을 추출하기 위한 임계값은 아래 수학식 2와 같이 정의될 수 있다.
Figure 112011091829409-pat00002
여기서, 'p(weakconcept=1|x, y)'는 용어 'x', 'y'가 위크 컨셉일 확률을, 'p(weakconcept=0|x, y)'는 용어 'x', 'y'가 위크 컨셉이 아닐 확률을 각각 의미할 수 있다. 도 2는 본 발명의 일실시예에 있어서, 위크 컨셉 추출을 위한 상호 정보량의 임계값을 설명하기 위한 그래프이다. 그래프(200)에서 x-축은 상호 정보량의 값을 나타내고, y-축은 비율을 나타낼 수 있다. 보다 자세하게, 용어 'x', 'y'에 대한 상호 정보량의 값을 구간별로 히스토그램으로 나타내면, 상술한 'p(weakconcept=1|x, y)'과 'p(weakconcept=0|x, y)'의 빈도를 확인할 수 있고, 이러한 빈도를 상기 비율로서 나타낼 수 있다. 이때, 제1 꺽은선(210)은 'p(weakconcept=1|x, y)'를, 제2 꺽은선(220)은 'p(weakconcept=0|x, y)'를 각각 표현하고 있다. 즉, 그래프(200)는 상호 정보량의 값이 1.0에 가까울수록 용어 'x', 'y'가 위크 컨셉일 확률이 증가함을 나타내고 있다.
다시 수학식 2를 참조하면, 'p(weakconcept=1|x, y)/p(weakconcept=0|x, y) '의 값이 1.0보다 크다는 의미는 그래프(200)에서 제1 꺽은선(210)과 제2 꺽은선(220)이 교차하는 지점을 의미하며, 이때의 상호 정보량 구간을 임계값으로 정의하고, 임계값 이상의 상호 정보량을 갖는 용어 'x', 'y'를 위크 컨셉으로서 추출할 수 있다. 이 경우, 임계값이 너무 크면 위크 컨셉의 추출 재현율(커버리지)이 떨어질 수 있고, 너무 작으면 위크 컨셉의 추출 정확률이 떨어질 수 있다.
도 3은 본 발명의 일실시예에 있어서, 입력된 질의에서 추출된 용어와 용어별로 계산된 가중치를 나타낸 표이다. 표(300)는 질의 "수입 아즈나브로 프랑스 에트로 헤어핀"에서 도 1을 통해 설명한 방법과 같이 용어 "수입", "아즈나브로", "프랑스", "에트로" 및 "헤어핀"을 추출한 후, 각각의 용어에 대해 계산된 가중치를 나타내고 있다. 본 명세서에서 '가중치'는 각각의 용어들에 대해, 검색에서의 중요성을 수치화하여, 제거할 용어를 선택하기 위한 기준으로 이용되는 것으로, 도 3에서 설명하는 가중치는 설명의 이해를 돕기 위한 하나의 일례일 뿐, 본 실시예들에서의 '가중치'가 도 3의 일례로 한정되는 것은 아니다. 예를 들어, 이후 설명될 제1 가중치 내지 제4 가중치 모두가 이용될 수도 있으나, 제1 가중치 내지 제4 가중치 중 적어도 하나의 가중치가 이용될 수도 있다. 또한, 제1 가중치 내지 제4 가중치가 아닌 다른 형태로 용어들의 중요성을 수치화한 가중치가 이용될 수도 있다.
이때, 표(300)에서 'termNo'는 용어를 식별하기 위해 임의로 부가한 식별자를, 'term'은 추출된 각각의 용어를 나타낸다.
'IDF(inverted document frequency)'는 문서들에서 특정 용어의 노출빈도를 이용하여 계산되는 제1 가중치로서, 아래 수학식 3과 같이 조건에 따라 서로 다른 값으로 계산될 수 있다.
Figure 112011091829409-pat00003
여기서, 't'는 해당 용어를, 'N'은 해당되는 전체 문서의 수를 각각 의미할 수 있다. 또한, 'dft'는 용어 't'가 포함된 문서의 수, 즉 용어 't'를 포함하는 문서의 빈도를 의미할 수 있다.
'QE(Query Exactly match)'는 해당 용어와 질의 로그에 포함된 질의가 정확하게 매칭되는 수를 이용하여 계산되는 제2 가중치로서, 아래 수학식 4와 같이 계산될 수 있다.
Figure 112011091829409-pat00004
여기서, 'QEt'는 용어 't'에 대한 'QE'를, 'eqft'는 해당 용어 't'와 질의 로그에 포함된 질의가 정확하게 매칭되는 수를, 'T'는 질의 로그에 포함된 전체 질의의 수를 각각 의미할 수 있다. 이때, "정확하게 매칭"은 해당 용어가 질의로서 입력된 경우를 의미할 수 있다.
'QP(Query Partially match)'는 해당 용어와 질의 로그에 포함된 질의가 부분적으로 매칭되는 수를 이용하여 계산되는 제3 가중치로서, 아래 수학식 5와 같이 계산될 수 있다.
Figure 112011091829409-pat00005
여기서, 'QPt'는 용어 't'에 대한 'QP'를, 'pqft'는 해당 용어 't'와 질의 로그에 포함된 질의가 부분적으로 매칭되는 수를, 'T'는 질의 로그에 포함된 전체 질의의 수를 각각 의미할 수 있다. 이때, "부분적으로 매칭"은 해당 용어가 질의에 포함된 경우를 의미할 수 있다.
'QE/QP ratio'는 'QE'와 'QP'의 비율을 이용하여 계산되는 제4 가중치로서, 아래 수학식 6과 같이 계산될 수 있다.
Figure 112011091829409-pat00006
여기서, 'QEQPt'는 용어 't'에 대한 'QE/QP ratio'를 의미할 수 있다.
'weight'는 용어에 부여되는 최종 가중치로서, 제1 가중치 내지 제4 가중치 중 적어도 하나의 가중치를 이용하여 계산될 수 있다. 도 3의 일례에서 최종 가중치는 아래 수학식 7과 같이 계산될 수 있다.
Figure 112011091829409-pat00007
여기서, 'weightt'는 용어 't'의 최종 가중치를 의미할 수 있고, 'a', 'b', 'c' 및 'd'는 미리 결정된 값으로, 각각 제1 가중치 내지 제4 가중치에 대한 가중치를 의미할 수 있다. 즉, 도 3의 일례에서는 제1 가중치 내지 제4 가중치의 가중합으로, 최종 가중치 'weight'가 계산될 수 있다.
검색 시스템은 용어 각각의 가중치가 계산되면, 아래 도 4에서와 같이, 상기 계산된 가중치를 기준으로 상기 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공할 수 있다.
도 4는 본 발명의 일실시예에 있어서, 감소 질의를 생성하는 방법을 설명하기 위한 도면이다. 도 4에서 숫자가 기재된 네모박스 각각은 하나의 용어를 의미할 수 있고, 네모박스 속의 숫자는 해당 용어의 가중치를 의미할 수 있다.
제1 단계는 용어들의 가중치를 계산하는 단계로, 제1 점선박스(410)는 임의의 질의에서 추출된 6개의 용어들 및 해당 용어들의 계산된 가중치를 나타내고 있다.
제2 단계는 가중치를 기준으로 용어들을 정렬하는 단계로, 제2 점선박스(420)는 상술한 6개의 용어들이 가중치를 기준으로 정렬된 모습을 나타내고 있다.
제3 단계는 기선정된 순위(도 4의 일례에서는 5위) 이하의 용어를 제거하는 단계로, 제3 점선박스(430)는 두 개의 용어가 제거된 모습을 나타내고 있다. 도 4에서 제거된 용어에 해당하는 네모박스는 점선으로 표시하였다.
제4 단계는 가중치가 가장 높은 용어를 키 용어로 선정하는 단계로, 제4 점선박스(440)는 가중치가 '1.0'인 용어가 키 용어로 선정된 모습을 나타내고 있다.
제 5 단계는 키 용어와 나머지 3개의 후보 용어로 감소 질의를 추천하는 단계로, 제5 점선박스(450)는 가중치가 '0.5'인 용어, 가중치가 '0.7'인 용어 및 가중치가 '0.9'인 용어를 차례로 제거하고, 나머지 용어들의 조합으로 감소 질의를 생성하는 모습을 나타내고 있다.
예를 들어, 질의 "수입 아즈나브로 프랑스 에트로 헤어핀"에 대해, 용어 "수입" 및 "프랑스"가 삭제된 감소 질의 "아즈나브로 에트로 헤어핀"와 용어 "프랑스" 및 "에트로"가 삭제된 다른 감소 질의 "수입 아즈나브로 헤어핀"가 추천될 수 있다. 상품 검색 또는 통합 검색 등에서 이러한 용어 감소의 효과는 검색된 상품의 수나 검색 결과의 증가로 나타날 수 있다.
도 5는 본 발명의 일실시예에 있어서, 검색 시스템의 내부 구성을 설명하기 위한 블록도이다. 본 실시예에 따른 검색 시스템(500)은 도 5에 도시된 바와 같이, 용어 추출부(510), 가중치 계산부(520), 감소 질의 추천부(530) 및 검색 결과 제공부(540)를 포함할 수 있다. 여기서, 검색 결과 제공부(540)는 필요에 따라, 포함될 수 있다. 예를 들어, 검색 시스템(500)은 감소 질의를 제공하고, 다른 시스템에서 제공된 감소 질의를 이용하여 감소 질의를 사용자에게 제공하거나 감소 질의에 따른 검색 결과를 사용자에게 제공할 수도 있다.
용어 추출부(510)는 입력된 질의에서 둘 이상의 용어를 추출한다. 여기서, 질의는 질의를 통한 검색 결과가 기선정된 개수 이하인 질의를 대상으로 포함할 수 있다. 다른 예로, 질의는 상품 검색을 위해 사용자로부터 입력된 질의로서 질의를 통해 검색된 상품이 기선정된 개수 이하인 질의를 대상으로 포함할 수도 있다. 이때, 용어 추출부(510)는 단순히 형태소 분석을 통해 용어들을 추출하는 것이 아니라 이미 상술한 바와 같이, 위크 컨셉 추출을 통해 상호 정보량이 임계치 이상인 서로 인접한 용어들을 결합하여 하나의 용어로서 추출할 수 있다. 이를 위해, 용어 추출부(510)는 도 5에 도시된 바와 같이, 질의를 형태소 분석하여 복수의 용어들을 추출하는 형태소 분석부(511) 및 질의 로그를 이용하여 복수의 용어들 중 질의내에서 서로 인접한 용어들간의 상호 정보량을 계산하고, 상호 정보량이 임계값 이상인 서로 인접한 용어들을 하나의 용어로서 결합하는 위크 컨셉 추출부(512)를 포함할 수 있다.
가중치 계산부(520)는 추출된 용어 각각의 가중치를 계산한다. 이 경우, 가중치 계산부(520)는 추출된 용어 각각에 대해, 전체 문서의 수 및 해당 용어가 포함된 문서의 수에 기초하여 계산되는 제1 가중치, 질의 로그에 포함된 질의의 수 및 해당 용어와 질의 로그에 포함된 질의가 정확하게 매칭되는 수에 기초하여 계산되는 제2 가중치, 질의 로그에 포함된 질의의 수와 해당 용어와 질의 로그에 포함된 질의가 부분적으로 매칭되는 수에 기초하여 계산되는 제3 가중치 및 제2 가중치의 제3 가중치에 대한 비율에 기초하여 계산되는 제4 가중치 중 적어도 하나의 가중치를 이용하여 추출된 용어 각각의 가중치를 계산할 수 있다.
감소 질의 추천부(530)는 계산된 가중치를 기준으로 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공한다. 즉, 감소 질의 추천부(530)는 가중치가 낮은 일정 수의 용어를 제거하고, 나머지 용어들의 조합을 이용하여 감소 질의를 제공할 수 있다.
이를 위해, 감소 질의 추천부(530)는 추출된 용어에서 가중치를 기준으로 기선정된 순위 이하의 용어를 제거하는 용어 제거부(531) 및 제거된 용어를 제외한 나머지 용어를 이용하여 적어도 하나의 감소 질의를 생성하는 감소 질의 생성부(532)를 포함할 수 있다. 이 경우, 감소 질의 생성부(532)는 가중치가 가장 높은 용어를 키 용어로 선정하고, 키 용어와 나머지 용어 중 다른 용어의 조합에 기초하여 적어도 하나의 감소 질의를 생성할 수 있다.
검색 결과 제공부(540)는 적어도 하나의 감소 질의를 이용하여 질의를 입력한 사용자에게 검색 결과를 제공한다. 일례로, 검색 결과 제공부(540)는 적어도 하나의 감소 질의 및 적어도 하나의 감소 질의 각각에 따른 검색 결과의 개수를 사용자에게 제공하고, 사용자로부터 선택된 감소 질의에 대한 검색 결과를 사용자에게 제공할 수 있다. 예를 들어, 제1 감소 질의의 검색 결과가 5개이고, 제2 감소 질의의 검색 결과가 40개, 제3 감소 질의의 검색 결과가 50개 인 경우, 검색 결과 제공부(540)는 "제1 감소 질의: 5개, 제2 감소 질의: 40개, 제3 감소 질의: 50개"와 같이, 감소 질의 및 감소 질의 각각에 따른 검색 결과의 개수를 사용자에게 제공하고, 사용자로부터 선택된 감소 질의의 검색 결과를 사용자에게 제공할 수 있다.
또 다른 예로, 검색 결과 제공부(540)는 적어도 하나의 감소 질의 중 검색 결과가 가장 많은 감소 질의에 대한 검색 결과를 사용자에게 제공하거나 또는 적어도 하나의 감소 질의에 대한 전체 검색 결과를 사용자에게 제공할 수 있다. 즉, 상술한 예에서, 검색 결과 제공부(540)는 가장 많은 검색 결과를 갖는 감소 질의인 제3 감소 질의에 대한 검색 결과 50개를 사용자에게 제공하거나 전체 검색 결과 95개를 사용자에게 제공할 수 있다. 이 경우, 중복되는 검색 결과는 제거되고 제공될 수 있다.
도 5에서 생략된 내용은 도 1 내지 도 4를 참조할 수 있다.
도 6은 본 발명의 일실시예에 있어서, 검색 방법을 도시한 흐름도이다. 본 실시예에 따른 검색 방법은 도 5를 통해 설명한 검색 시스템(500)에 의해 수행될 수 있다. 도 6에서는 검색 시스템(500)을 통해 각각의 단계가 수행되는 과정을 설명함으로써, 검색 방법을 설명한다. 이 경우 단계(640)는 필요에 따라, 포함될 수 있다. 예를 들어, 단계(640)는 검색 시스템(500)과 연계된 다른 시스템에 의해 수행될 수도 있다.
단계(610)에서 검색 시스템(500)은 입력된 질의에서 둘 이상의 용어를 추출한다. 여기서, 질의는 질의를 통한 검색 결과가 기선정된 개수 이하인 질의를 대상으로 포함할 수 있다. 다른 예로, 질의는 상품 검색을 위해 사용자로부터 입력된 질의로서 질의를 통해 검색된 상품이 기선정된 개수 이하인 질의를 대상으로 포함할 수도 있다. 이때, 검색 시스템(500)은 단순히 형태소 분석을 통해 용어들을 추출하는 것이 아니라 이미 상술한 바와 같이, 위크 컨셉 추출을 통해 상호 정보량이 임계치 이상인 서로 인접한 용어들을 결합하여 하나의 용어로서 추출할 수 있다. 이를 위해, 검색 시스템(500)은 단계(610)에 질의를 형태소 분석하여 복수의 용어들을 추출하는 단계(미도시) 및 질의 로그를 이용하여 복수의 용어들 중 질의내에서 서로 인접한 용어들간의 상호 정보량을 계산하고, 상호 정보량이 임계값 이상인 서로 인접한 용어들을 하나의 용어로서 결합하는 위크 컨셉 추출부(미도시)를 포함하여 수행할 수 있다.
단계(610)에서 검색 시스템(500)은 추출된 용어 각각의 가중치를 계산한다. 이 경우, 검색 시스템(500)은 추출된 용어 각각에 대해, 전체 문서의 수 및 해당 용어가 포함된 문서의 수에 기초하여 계산되는 제1 가중치, 질의 로그에 포함된 질의의 수 및 해당 용어와 질의 로그에 포함된 질의가 정확하게 매칭되는 수에 기초하여 계산되는 제2 가중치, 질의 로그에 포함된 질의의 수와 해당 용어와 질의 로그에 포함된 질의가 부분적으로 매칭되는 수에 기초하여 계산되는 제3 가중치 및 제2 가중치의 제3 가중치에 대한 비율에 기초하여 계산되는 제4 가중치 중 적어도 하나의 가중치를 이용하여 추출된 용어 각각의 가중치를 계산할 수 있다.
단계(610)에서 검색 시스템(500)은 계산된 가중치를 기준으로 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공한다. 즉, 검색 시스템(500)은 가중치가 낮은 일정 수의 용어를 제거하고, 나머지 용어들의 조합을 이용하여 감소 질의를 제공할 수 있다.
이를 위해, 검색 시스템(500)은 추출된 용어에서 가중치를 기준으로 기선정된 순위 이하의 용어를 제거하는 단계(미도시) 및 제거된 용어를 제외한 나머지 용어를 이용하여 적어도 하나의 감소 질의를 생성하는 단계(미도시)를 포함할 수 있다. 이 경우, 검색 시스템(500)은 가중치가 가장 높은 용어를 키 용어로 선정하고, 키 용어와 나머지 용어 중 다른 용어의 조합에 기초하여 적어도 하나의 감소 질의를 생성할 수 있다.
단계(610)에서 검색 시스템(500)은 적어도 하나의 감소 질의를 이용하여 질의를 입력한 사용자에게 검색 결과를 제공한다. 일례로, 검색 시스템(500)은 적어도 하나의 감소 질의 및 적어도 하나의 감소 질의 각각에 따른 검색 결과의 개수를 사용자에게 제공하고, 사용자로부터 선택된 감소 질의에 대한 검색 결과를 사용자에게 제공할 수 있다. 예를 들어, 제1 감소 질의의 검색 결과가 5개이고, 제2 감소 질의의 검색 결과가 40개, 제3 감소 질의의 검색 결과가 50개 인 경우, 검색 시스템(500)은 "제1 감소 질의: 5개, 제2 감소 질의: 40개, 제3 감소 질의: 50개"와 같이, 감소 질의 및 감소 질의 각각에 따른 검색 결과의 개수를 사용자에게 제공하고, 사용자로부터 선택된 감소 질의의 검색 결과를 사용자에게 제공할 수 있다.
또 다른 예로, 검색 시스템(500)은 적어도 하나의 감소 질의 중 검색 결과가 가장 많은 감소 질의에 대한 검색 결과를 사용자에게 제공하거나 또는 적어도 하나의 감소 질의에 대한 전체 검색 결과를 사용자에게 제공할 수 있다. 즉, 상술한 예에서, 검색 시스템(500)은 가장 많은 검색 결과를 갖는 감소 질의인 제3 감소 질의에 대한 검색 결과 50개를 사용자에게 제공하거나 전체 검색 결과 95개를 사용자에게 제공할 수 있다. 이 경우, 중복되는 검색 결과는 제거되고 제공될 수 있다.
도 6에서 생략된 내용은 도 1 내지 도 4를 참조할 수 있다.
이와 같이, 본 발명의 실시예들에 따른 시스템 및 방법을 이용하면, 입력된 질의에 포함된 용어 각각의 가중치를 계산하고, 가중치를 기준으로 적어도 하나의 용어를 제거하여 감소 질의를 제공함으로써, 너무 긴 질의나 검색 결과가 존재하지 않거나 검색 결과의 수가 너무 적은 질의에 대해서도 효과적으로 검색 결과를 제공할 수 있다. 이때, 형태소 분석을 통해 추출된 용어들간의 상호 정보량을 질의 로그를 이용하여 계산하고, 상호 정보량을 이용하여 질의에서 보다 효과적으로 용어를 추출할 수 있고, 각 용어에 대해 문서상에서의 중요성, 정확하게 매칭되는 질의 로그상의 쿼리의 수, 부분적으로 매칭되는 질의 로그상의 쿼리의 수 및 정확하게 매칭되는 쿼리의 수와 부분적으로 매칭되는 쿼리의 수간의 비율 등을 이용하여 각 용어의 가중치를 계산함으로써, 보다 질의에 적합한 용어를 선택할 수 있다. 또한, 계산된 가중치를 이용하여 기선정된 순위 이하의 용어를 제거하고, 나머지 용어들을 이용하여 감소 질의를 추천할 수 있다.
본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 또한, 상술한 파일 시스템은 컴퓨터 판독이 가능한 기록 매체에 기록될 수 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
500: 검색 시스템
510: 용어 추출부
520: 가중치 계산부
530: 감소 질의 추천부
540: 검색 결과 제공부

Claims (17)

  1. 입력된 질의에서 둘 이상의 용어(term)를 추출하는 용어 추출부;
    상기 추출된 용어 각각의 가중치를 계산하는 가중치 계산부; 및
    상기 계산된 가중치를 기준으로 상기 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공하는 감소 질의 추천부
    를 포함하고,
    상기 가중치 계산부는,
    상기 추출된 용어 각각에 대해, 전체 문서의 수 및 해당 용어가 포함된 문서의 수에 기초하여 계산되는 제1 가중치, 질의 로그에 포함된 질의의 수 및 해당 용어와 상기 질의 로그에 포함된 질의가 정확하게 매칭되는 수에 기초하여 계산되는 제2 가중치, 상기 질의 로그에 포함된 질의의 수와 해당 용어와 상기 질의 로그에 포함된 질의가 부분적으로 매칭되는 수에 기초하여 계산되는 제3 가중치 및 상기 제2 가중치의 상기 제3 가중치에 대한 비율에 기초하여 계산되는 제4 가중치 중 적어도 하나의 가중치를 이용하여 상기 추출된 용어 각각의 가중치를 계산하는, 검색 시스템.
  2. 제1항에 있어서,
    상기 입력된 질의는 상기 입력된 질의를 통한 검색 결과가 기선정된 개수 이하인 질의를 포함하는, 검색 시스템.
  3. 제1항에 있어서,
    상기 용어 추출부는,
    상기 질의를 형태소 분석하여 복수의 용어들을 추출하는 형태소 분석부; 및
    질의 로그를 이용하여 상기 복수의 용어들 중 상기 질의 내에서 서로 인접한 용어들간의 상호 정보량(mutual information)을 계산하고, 상기 상호 정보량이 임계값 이상인 서로 인접한 용어들을 하나의 용어로서 결합하는 위크 컨셉(weak concept) 추출부
    를 포함하는, 검색 시스템.
  4. 제3항에 있어서,
    상기 상호 정보량은 상기 질의 로그에서 상기 서로 인접한 용어들이 각각 이용된 횟수 및 상기 서로 인접한 용어들이 함께 이용된 횟수를 이용하여 계산되는, 검색 시스템.
  5. 삭제
  6. 제1항에 있어서,
    상기 감소 질의 추천부는,
    상기 추출된 용어에서 상기 가중치를 기준으로 기선정된 순위 이하의 용어를 제거하는 용어 제거부; 및
    상기 제거된 용어를 제외한 나머지 용어를 이용하여 상기 적어도 하나의 감소 질의를 생성하는 감소 질의 생성부
    를 포함하는, 검색 시스템.
  7. 제6항에 있어서,
    상기 감소 질의 생성부는,
    상기 가중치가 가장 높은 용어를 키 용어로 선정하고, 키 용어와 상기 나머지 용어 중 다른 용어의 조합에 기초하여 상기 적어도 하나의 감소 질의를 생성하는, 검색 시스템.
  8. 제1항에 있어서,
    상기 적어도 하나의 감소 질의를 이용하여 상기 질의를 입력한 사용자에게 검색 결과를 제공하는 검색 결과 제공부
    를 더 포함하는, 검색 시스템.
  9. 제8항에 있어서,
    상기 검색 결과 제공부는,
    상기 적어도 하나의 감소 질의에 따른 검색 결과를 상기 사용자에게 제공하는, 검색 시스템.
  10. 제1항에 있어서,
    상기 입력된 질의는 상품 검색을 위해 사용자로부터 입력된 질의로서 상기 입력된 질의를 통해 검색된 상품이 기선정된 개수 이하인 질의를 포함하는, 검색 시스템.
  11. 용어 추출부, 가중치 계산부, 및 감소 질의 추천부를 포함하는 검색 시스템이 수행하는 검색 방법에 있어서,
    상기 용어 추출부에서, 입력된 질의에서 둘 이상의 용어를 추출하는 단계;
    상기 가중치 계산부에서, 상기 추출된 용어 각각의 가중치를 계산하는 단계; 및
    상기 질의 추천부에서, 상기 계산된 가중치를 기준으로 상기 추출된 용어 중 적어도 하나의 용어를 제거하고, 나머지 용어를 이용하여 적어도 하나의 감소 질의를 제공하는 단계
    를 포함하고,
    상기 추출된 용어 각각의 가중치를 계산하는 단계는,
    상기 추출된 용어 각각에 대해, 전체 문서의 수 및 해당 용어가 포함된 문서의 수에 기초하여 계산되는 제1 가중치, 질의 로그에 포함된 질의의 수 및 해당 용어와 상기 질의 로그에 포함된 질의가 정확하게 매칭되는 수에 기초하여 계산되는 제2 가중치, 상기 질의 로그에 포함된 질의의 수와 해당 용어와 상기 질의 로그에 포함된 질의가 부분적으로 매칭되는 수에 기초하여 계산되는 제3 가중치 및 상기 제2 가중치의 상기 제3 가중치에 대한 비율에 기초하여 계산되는 제4 가중치 중 적어도 하나의 가중치를 이용하여 상기 추출된 용어 각각의 가중치를 계산하는, 검색 방법.
  12. 제11항에 있어서,
    상기 입력된 질의는 상기 입력된 질의를 통한 검색 결과가 기선정된 개수 이하인 질의를 포함하는, 검색 방법.
  13. 제11항에 있어서,
    상기 입력된 질의에서 둘 이상의 용어(term)를 추출하는 단계는,
    상기 질의를 형태소 분석하여 복수의 용어들을 추출하는 단계; 및
    질의 로그를 이용하여 상기 복수의 용어들 중 상기 질의 내에서 서로 인접한 용어들간의 상호 정보량을 계산하고, 상기 상호 정보량이 임계값 이상인 서로 인접한 용어들을 하나의 용어로서 결합하는 단계
    를 포함하는, 검색 방법.
  14. 삭제
  15. 제11항에 있어서,
    상기 적어도 하나의 감소 질의를 제공하는 단계는,
    상기 추출된 용어에서 상기 가중치를 기준으로 기선정된 순위 이하의 용어를 제거하는 단계; 및
    상기 제거된 용어를 제외한 나머지 용어를 이용하여 상기 적어도 하나의 감소 질의를 생성하는 단계
    를 포함하는, 검색 방법.
  16. 제11항에 있어서,
    상기 적어도 하나의 감소 질의를 이용하여 상기 질의를 입력한 사용자에게 검색 결과를 제공하는 단계
    를 더 포함하는, 검색 방법.
  17. 제11항 내지 제13항 또는 제15항 내지 제16항 중 어느 한 항의 방법을 컴퓨터로 하여금 수행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
KR1020110121487A 2010-12-23 2011-11-21 감소 질의를 추천하는 검색 시스템 및 방법 KR101850886B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020110121487A KR101850886B1 (ko) 2010-12-23 2011-11-21 감소 질의를 추천하는 검색 시스템 및 방법
JP2011279933A JP5838086B2 (ja) 2010-12-23 2011-12-21 減少クエリを推薦する検索システムおよび検索方法
US13/333,667 US9128982B2 (en) 2010-12-23 2011-12-21 Search system and search method for recommending reduced query

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020100133136 2010-12-23
KR20100133136 2010-12-23
KR1020110121487A KR101850886B1 (ko) 2010-12-23 2011-11-21 감소 질의를 추천하는 검색 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20120132610A KR20120132610A (ko) 2012-12-06
KR101850886B1 true KR101850886B1 (ko) 2018-04-23

Family

ID=46318299

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110121487A KR101850886B1 (ko) 2010-12-23 2011-11-21 감소 질의를 추천하는 검색 시스템 및 방법

Country Status (3)

Country Link
US (1) US9128982B2 (ko)
JP (1) JP5838086B2 (ko)
KR (1) KR101850886B1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515973B1 (en) 2011-02-08 2013-08-20 Google Inc. Identifying geographic features from query prefixes
US9477748B2 (en) * 2013-12-20 2016-10-25 Adobe Systems Incorporated Filter selection in search environments
KR102052604B1 (ko) * 2014-02-28 2019-12-05 현대엠엔소프트 주식회사 내비게이션의 검색 방법 및 그 장치
US9753967B2 (en) * 2014-03-31 2017-09-05 Samsung Electronics Co., Ltd. Computing system with error detection mechanism and method of operation thereof
US10417687B1 (en) * 2014-12-12 2019-09-17 Amazon Technologies, Inc. Generating modified query to identify similar items in a data store
US10083238B2 (en) * 2015-09-28 2018-09-25 Oath Inc. Multi-touch gesture search
CN106445921B (zh) * 2016-09-29 2019-05-07 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN106503258B (zh) * 2016-11-18 2020-05-12 深圳市世强元件网络有限公司 一种网站站内精确搜索方法
CN106873801A (zh) * 2017-02-28 2017-06-20 百度在线网络技术(北京)有限公司 用于生成输入法词库中的词条组合的方法和装置
US10860809B2 (en) * 2019-04-09 2020-12-08 Sas Institute Inc. Word embeddings and virtual terms
US11556550B2 (en) * 2021-04-15 2023-01-17 RELX Inc. Methods and systems for no fail searching
US12093269B2 (en) 2022-12-15 2024-09-17 Y.E. Hub Armenia LLC Method and server for generating an enriched query

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049638A (ja) 2000-05-26 2002-02-15 Fujitsu Ltd 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP2006163623A (ja) 2004-12-03 2006-06-22 Nippon Hoso Kyokai <Nhk> 質問応答装置及び質問応答プログラム、並びに、テレビ受像機
US20080021960A1 (en) * 2006-07-18 2008-01-24 Wilson Chu Methods And Apparatuses For Dynamically Searching For Electronic Mail Messages
US7406465B2 (en) 2004-12-14 2008-07-29 Yahoo! Inc. System and methods for ranking the relative value of terms in a multi-term search query using deletion prediction

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH064584A (ja) * 1992-06-24 1994-01-14 Sharp Corp 文章検索装置
JP3611913B2 (ja) 1995-11-29 2005-01-19 沖電気工業株式会社 類似検索方法および装置
US6073130A (en) * 1997-09-23 2000-06-06 At&T Corp. Method for improving the results of a search in a structured database
JP2000029890A (ja) * 1998-07-10 2000-01-28 Nippon Telegr & Teleph Corp <Ntt> データベース検索方法及び装置及びデータベース検索プログラムを格納した記憶媒体
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
US6883001B2 (en) * 2000-05-26 2005-04-19 Fujitsu Limited Document information search apparatus and method and recording medium storing document information search program therein
JP2002230037A (ja) * 2001-01-31 2002-08-16 Kddi Corp 検索システム、方法及びプログラム
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US20040220907A1 (en) * 2003-04-30 2004-11-04 Camarillo David W. Technique for searching for contact information concerning desired parties
JP4574186B2 (ja) 2004-02-17 2010-11-04 株式会社リコー 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置
US8429184B2 (en) * 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
KR100816912B1 (ko) 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
JP2008003721A (ja) * 2006-06-20 2008-01-10 Canon Software Inc 情報検索システムおよび情報検索方法およびプログラムおよび記録媒体
US7505973B2 (en) * 2007-01-16 2009-03-17 Microsoft Corporation Efficient paging of search query results
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
JP5332128B2 (ja) 2007-03-30 2013-11-06 富士通株式会社 情報検索装置、情報検索方法およびそのプログラム
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US8051056B2 (en) * 2007-05-29 2011-11-01 Microsoft Corporation Acquiring ontological knowledge from query logs
US8032527B2 (en) * 2007-08-29 2011-10-04 Google Inc. Search filtering
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US8583670B2 (en) * 2007-10-04 2013-11-12 Microsoft Corporation Query suggestions for no result web searches
US8019748B1 (en) * 2007-11-14 2011-09-13 Google Inc. Web search refinement
US8280886B2 (en) * 2008-02-13 2012-10-02 Fujitsu Limited Determining candidate terms related to terms of a query
KR100931025B1 (ko) * 2008-03-18 2009-12-10 한국과학기술원 재현율의 저하 없이 정확도를 향상시키기 위한 추가 용어를이용한 질의 확장 방법
US20100153366A1 (en) * 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
US8108391B1 (en) * 2009-03-12 2012-01-31 Google Inc. Identifying non-compositional compounds
US8423350B1 (en) * 2009-05-21 2013-04-16 Google Inc. Segmenting text for searching
US8392441B1 (en) * 2009-08-15 2013-03-05 Google Inc. Synonym generation using online decompounding and transitivity
WO2012024580A1 (en) * 2010-08-19 2012-02-23 Othar Hansson Predictive query completion and predictive search results

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002049638A (ja) 2000-05-26 2002-02-15 Fujitsu Ltd 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP2006163623A (ja) 2004-12-03 2006-06-22 Nippon Hoso Kyokai <Nhk> 質問応答装置及び質問応答プログラム、並びに、テレビ受像機
US7406465B2 (en) 2004-12-14 2008-07-29 Yahoo! Inc. System and methods for ranking the relative value of terms in a multi-term search query using deletion prediction
US20080021960A1 (en) * 2006-07-18 2008-01-24 Wilson Chu Methods And Apparatuses For Dynamically Searching For Electronic Mail Messages

Also Published As

Publication number Publication date
JP5838086B2 (ja) 2015-12-24
KR20120132610A (ko) 2012-12-06
US20120166450A1 (en) 2012-06-28
US9128982B2 (en) 2015-09-08
JP2012133785A (ja) 2012-07-12

Similar Documents

Publication Publication Date Title
KR101850886B1 (ko) 감소 질의를 추천하는 검색 시스템 및 방법
CN105900117B (zh) 用于采集、规范、匹配和丰富数据的方法和系统
Li et al. A two-dimensional click model for query auto-completion
CN111008321B (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
US20080071740A1 (en) Discovering associative intent queries from search web logs
US10565218B2 (en) Interactive sequential pattern mining
KR101897080B1 (ko) 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치
CN103258025B (zh) 生成共现关键词的方法、提供关联搜索词的方法以及系统
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
KR101624909B1 (ko) 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
JPWO2007108529A1 (ja) 情報抽出システム、情報抽出方法、情報抽出プログラムおよび情報サービスシステム
CN106462632A (zh) 具有内容规范层的媒体商店
Gala et al. Analyzing gender bias within narrative tropes
US9552415B2 (en) Category classification processing device and method
KR20060122276A (ko) 온톨로지 자동 구축을 위한 문서로부터 개념 간의 관계추출
JP2011108034A (ja) 複数の属性を利用したWebページ推薦方法
JP5622880B2 (ja) アイテム推薦システム、アイテム推薦方法およびアイテム推薦プログラム
JP2012221431A (ja) 関連語抽出装置、関連語抽出方法、及び関連語抽出プログラム
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体
Luo et al. LightGBM using Enhanced and De-biased Item Representation for Better Session-based Fashion Recommender Systems
CN111753050B (zh) 基于话题图谱的评论生成
JP6103766B2 (ja) 行動プロセス抽出方法及び行動プロセス抽出装置
CN112989020B (zh) 信息处理方法、装置和计算机可读存储介质
JP5792871B1 (ja) 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant