KR101903522B1

KR101903522B1 - 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치

Info

Publication number: KR101903522B1
Application number: KR1020150165491A
Authority: KR
Inventors: 한영웅; 정호열; 최재훈; 김민호; 김영원; 임명은; 김대희; 김승환
Original assignee: 한국전자통신연구원
Priority date: 2015-11-25
Filing date: 2015-11-25
Publication date: 2018-11-23
Also published as: US20170147753A1; KR20170061223A

Abstract

본 발명은 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 검색에 대한 계산 복잡도가 상당히 높은 시계열 다변량(다차원)의 특성을 가지는 건강데이터를 검색하기 위해 건강데이터의 포맷을 변환하고 학습모델을 적용한 특징 추출을 통해서 건강데이터의 차원을 줄임으로써, 검색을 위한 계산 복잡도를 줄이고, 효율적인 유사사례 검색이 가능한 검색 방법 및 그 장치를 제공하고자 하는 것이다.

Description

다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치{THE METHOD OF SEARCH FOR SIMILAR CASE OF MULTI-DIMENSIONAL HEALTH DATA AND THE APPARATUS OF THEREOF}

본 발명은 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 검색에 대한 계산 복잡도가 상당히 높은 시계열 다변량(다차원)의 특성을 가지는 건강데이터를 검색하기 위해 건강데이터의 포맷을 변환하고 학습모델을 적용한 특징 추출을 통해서 건강데이터의 차원을 줄임으로써, 검색을 위한 계산 복잡도를 현저하게 줄이고, 유사도가 높은 건강데이터별로 클러스터링하여 모든 데이터에 대한 유사도 계산을 수행하지 않고 선별된 클러스터내의 건강데이터들에 대해서만 유사도 계산을 수행함으로써, 효율적인 유사사례 검색이 가능한 검색 방법 및 그 장치를 제공하고자 하는 것이다.

최근 산업기술의 발전과 소득의 증가로 사람들의 생활수준이 높아짐에 따라 우리 사회는 점점 고령화 사회로 진입하고 있으며, 생활양식의 변화와 잘못된 식생활의 습관 등으로 인한 만성질환과 같은 다양한 질병들의 유병률이 점점 증가하고 있다.
이에 따라 건강 및 웰빙에 대한 사람들의 관심이 높아지고 있으며, 국내외 대형 의료기관 또는 정부(예: 건보공단 또는 심평원 등)에서 제공하는 공공건강데이터를 이용하여 병원, 한의원 또는 건강관리 서비스를 제공하는 서비스 업자들에 의해 다양한 건강증진 서비스들이 사용자에게 제공되고 있다.
예를 들어, Patient Like Me와 같은 서비스는, 많은 사람들의 건강데이터를 수집하여 특정 사용자와 동일한 질병을 앓고 있는 사람들의 건강데이터(증상 및 처방)를 검색할 수 있는 검색 서비스를 제공하고 있으며, 상기 검색 서비스를 통해 검색한 결과를 기반으로 건강증진을 위한 참고자료를 제공하는 등 건강 빅 데이터를 활용한 다양한 서비스가 이루어지고 있다.
이렇듯 상기 건강 빅 데이터를 기반으로 하는 건강증진 서비스는, 사용자와 유사한 건강상태를 나타내는 사람들의 건강데이터를 검색하고, 검색한 건강데이터를 기반으로 해당 사람들의 건강 변화에 대한 추이를 참고하여 사용자의 미래 건강상태를 예측할 수 있고, 해당 건강데이터의 정보(예: 처방 방법 또는 식생활)을 토대로 상기 사용자의 건강을 증진할 수 있는 방법을 찾아낼 수 있으므로 상기 사용자 또는 상기 건강증진 서비스를 제공하는 서비스 업체들이 상기 사용자와 유사한 건강상태를 보이는 사람들의 건강데이터를 정확하게 검색하는 것이 매우 중요하다.
하지만 상기 건강데이터는, 개인의 정기적인 건강검진 결과에 따른 클래스가 없는(예: 병명)기록이거나 시간에 따라 개인의 건강상태에 따른 처방이나 식/생활습관 등을 기록한 시계열 데이터이며, 상기 개인의 건강상태를 다양한 수치(예: 혈당 및 혈압)정보로 구성되어 있으므로 다변량(다차원)의 데이터이다.
상기 시계열 다변량 데이터의 특성을 가지는 건강데이터 간의 유사도를 계산하려면 모든 건강데이터에 대해서 상기 각각의 건강수치를 일일이 비교하여야 하므로 계산 복잡도가 매우 높은 편이고 대용량의 빅 데이터이므로 시간 복잡도 역시 매우 높은 문제점이 있다.
종래의 건강 데이터 유사사례 검색 서비스는, 상술한 바와 같이 건강데이터의 특성으로 인해 매우 늦은 검색 속도를 보이거나 방대한 검색 결과를 도출하는 문제점이 있다.
또한 상기 종래의 건강데이터 유사사례 검색 서비스는, 특정 키워드를 입력하여, 해당 키워드를 단순히 기계적인 메커니즘에 따라 상기 건강데이터에 대한 우선순위를 두고, 상기 우선순위에 따라 건강데이터를 검색하여 제공하고 있을 뿐 사용자의 건강상태와 유사도가 높은 건강데이터를 제대로 검색하지 못하고 상기 사용자에게 양질의 건강데이터 또는 건강데이터에 기반 한 유사사례를 제공하지 못하는 문제점이 있다.
즉, 빅 데이터에 대한 단순한 검색 기술은 종래에도 존재하지만 건강데이터와 같이 시계열 다변량적인 건강데이터를 반영한 검색 기술은 전무한 실정이다.
따라서 본 발명에서는 시계열 다변량의 특성을 가지는 상기 건강데이터에 머신러닝 기반의 특징 추출(Feature Extraction)기술을 적용해 상기 건강데이터의 차원을 줄임으로써, 상기 유사도를 측정하는 계산 복잡도를 현저하게 줄일 수 있도록 하여 상기 건강증진 서비스를 제공하는 병원, 한의원 또는 다양한 서비스 업체 들이 사용자의 개인건강데이터에 기반 한 유사사례를 고속으로 검색하여 사용자의 건강상태에 따라 알맞은 건강증진 서비스를 원활하게 제공할 수 있도록 하며, 사용자에게는 자신의 건강데이터와 비슷한 사람의 건강데이터를 제공함으로써, 이를 통해 사용자 개인에게 건강증진 방법을 찾을 수 있도록 하는 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치를 제공하고자 한다.
다음으로 본 발명의 기술 분야에 존재하는 선행기술에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행기술에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
먼저 한국공개특허 제2014-0067747호(2014.06.05.)는 신체정보 유사도를 고려한 건강 컨설팅 정보의 제공방법에 관한 것으로, 사용자의 신체정보와 유사한 신체정보를 가지는 사람의 건강 컨설팅 정보를 사례 데이터베이스에서 검색하여 사용자의 신체정보에 매핑되는 정확한 건강 컨설팅 정보를 제공하는 신체정보 유사도를 고려한 건강 컨설팅 정보의 제공 방법에 관한 것이다.
상기 선행기술은, 사용자의 신체정보를 바탕으로 사용자의 신체정보와 유사한 사람을 검색하는 점에서 본 발명과 일부분 유사한 점은 있으나, 사용자의 신체정보를 빅 데이터인 다른 사람의 신체정보와 일일이 대비하여 검색한다는 점에서 기존의 검색 방법에서 나타나는 시간 복잡도에 대한 문제점을 극복하지 못한 반면에 본 발명은, 유사도가 높은 복수의 건강데이터를 미리 그룹핑하여, 사용자의 개인건강데이터와 다른 사람들의 모든 건강데이터에 대한 유사도 계산을 수행하지 않고 그룹 스크리닝을 통해 선별된 그룹 내 건강데이터들에 대해서만 유사도 계산을 수행함으로써, 상기 사용자의 개인건강데이터와 유사한 유사사례를 고속으로 검색이 가능한 특징이 있다.
또한 한국등록특허 제1189178호(2012.10.02.)는 맞춤형 사례를 통한 다이어트 정보 제공 시스템 및 그 방법에 관한 것으로, 다른 사용자들의 다이어트 사례를 저장하는 데이터베이스로부터 정보 통신망을 통해 통신접속을 이룬 사용자 단말기로부터 입력된 다이어트 조건을 수신하여 상기 수신된 다이어트 조건에 따라 다이어트 사례를 상기 데이터베이스로부터 검색하여 제공하는 맞춤형 사례를 통한 다이어트 정보 제공 시스템 및 그 방법에 관한 것이다.
상기 선행기술은 사용자의 특정 검색 조건으로부터 사용자의 상태와 유사한 다른 사용자의 정보를 검색하여 제공하는 점에서 본 발명과 일부분 유사하나 반면에 본 발명은, 특정 키워드를 사용하여 검색하는 상기 선행기술과는 달리 사용자의 개인건강데이터 자체를 이용하여 다른 사람의 유사사례를 검색하는 것으로 시계열 다변량의 건강데이터의 차원을 줄여 고속으로 유사사례를 검색할 수 있도록 하며, 격자 또는 큐브모양을 기반으로 유사도가 높은 상기 다른 사람의 건강데이터를 미리 클러스터링하여, 상기 사용자의 개인건강데이터가 입력되었을 때 어떤 클러스터의 범위에 속하는지만 판단하면 빠르게 해당 사용자의 개인건강데이터와 유사한 그룹을 찾을 수 있는 효과가 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작 된 것으로서, 시계열 다변량의 특성을 가지는 상기 건강 데이터에 딥 네트워크 러닝(deep network learning), PCA를 포함한 특정 데이터의 차원을 줄이기 위한 기법을 적용해 상기 건강데이터의 차원을 줄임으로써, 유사도를 측정하는 계산 복잡도를 현저하게 줄여, 사용자의 개인건강데이터를 기반으로 상기 사용자에게 건강증진 서비스를 제공하기 위해 실시간성에 가까운 유사사례 검색이 가능한 장치 및 방법을 제공하는 것을 그 목적으로 한다.

본 발명의 일 실시예에 따른 다차원 건강데이터에 대한 유사사례 검색 방법은, 건강데이터 또는 사용자의 개인건강데이터에 대해서 전처리를 수행하는 전처리 단계 및 상기 건강데이터에 대해서 학습을 통해서 해당 학습모델을 생성하는 학습 단계를 포함하는 것을 특징으로 한다.
또한 상기 다차원 건강데이터에 대한 유사사례 검색 방법은, 상기 생성된 학습모델과 상기 건강데이터로부터 상기 건강데이터의 특징을 추출하는 특징추출 단계 및 상기 추출된 특징에 대해서 특징별로 그룹핑을 수행하는 클러스터링 단계를 더 포함하는 것을 특징으로 한다.
또한 상기 다차원 건강데이터에 대한 유사사례 검색 방법은, 상기 생성된 학습모델에 상기 사용자의 개인건강데이터를 적용하여 변환된 쿼리 데이터를 추출하는 쿼리변환 단계;를 더 포함하는 것을 특징으로 한다.
또한 상기 변환된 쿼리 데이터를 이용하여 상기 생성된 학습모델과 상기 건강데이터로부터 추출한 상기 건강데이터의 특징에 대해서 특징별로 그룹핑을 수행한 클러스터로부터 해당하는 클러스터를 선택하는 단계 및 상기 선택한 클러스터에 해당하는 건강데이터 및 사용자의 개인건강데이터 사이의 유사도를 예측하는 유사도 예측 단계를 더 포함하는 것을 특징으로 한다.
또한 상기 전처리 단계는, 상기 건강데이터, 사용자의 개인건강데이터 또는 이들의 조합을 정규화하는 단계, 타임-윈도우를 적용하여 상기 정규화한 건강데이터 및 사용자의 개인건강데이터를 상기 타임-윈도우의 길이만큼 분리하는 단계 및 상기 분리한 건강데이터 및 사용자의 개인건강데이터를 벡터화하는 단계를 포함하는 것을 특징으로 한다.
또한 상기 정규화하는 단계는, 상기 건강데이터 및 사용자의 개인건강데이터가 정규분포가 아닐 경우, 로그 변환 또는 스퀘어루트 변환을 통해 정규분포로 만들며, 상기 정규분포의 건강데이터 및 사용자의 개인건강데이터에 대한 z-score를 다시 0~1의 값으로 리스케일링하는 것을 포함하는 것을 특징으로 한다.
또한 상기 학습 단계는, 상기 전처리된 건강데이터에 대해서 차원을 줄이기 위한 학습모델을 구축하며, 상기 학습모델은 딥 네트워크 러닝(deep network learning)이나 PCA(principle component analysis) 기법을 포함하여 특정 데이터의 차원을 줄이기 위한 기법을 적용하는 것을 특징으로 한다. 본 발명에서는 이러한 학습모델에 사용하는 기법은 제한하지 아니한다.
또한 상기 클러스터링 단계는, 상기 학습모델에 대해서 상기 추출된 특징별로 그룹핑하여 해당 클러스터에 대한 상기 건강데이터를 저장하는 것을 포함하며, 상기 그룹핑은 격자기반 그룹핑이나 큐브형 그룹핑에 의해서 수행되는 것을 특징으로 한다.
아울러 본 발명의 일 실시예에 따른 다차원 건강 데이터에 대한 유사사례 검색 장치는, 건강데이터 또는 사용자의 개인건강데이터에 대해서 전처리를 수행하는 전처리부 및 상기 건강데이터에 대해서 학습을 통해서 해당 학습모델을 생성하는 학습부를 포함하는 것을 특징으로 한다.
또한 다차원 건강 데이터에 대한 유사사례 검색 장치는, 상기 생성된 학습모델과 상기 건강데이터로부터 상기 건강데이터의 특징을 추출하는 특징추출부 및 상기 추출된 특징에 대해서 특징별로 그룹핑을 수행하는 클러스터링부를 더 포함하는 것을 특징으로 한다.
또한 다차원 건강 데이터에 대한 유사사례 검색 장치는, 상기 생성된 학습모델에 상기 사용자의 개인건강데이터를 적용하여 변환된 쿼리 데이터를 이용하여 상기 생성된 학습모델과 상기 건강데이터로부터 추출한 상기 건강데이터의 특징에 대해서 특징별로 그룹핑을 수행한 클러스터로부터 해당하는 클러스터를 선택하고, 상기 선택한 클러스터에 해당하는 건강데이터 및 사용자의 개인건강데이터 사이의 유사도를 예측하는 유사도 예측부를 더 포함하는 것을 특징으로 한다.
또한 상기 전처리부는, 상기 건강데이터, 사용자의 개인건강데이터 또는 이들의 조합을 정규화하고, 타임-윈도우를 적용하여 상기 정규화한 건강데이터 및 사용자의 개인건강데이터를 상기 타임-윈도우의 길이만큼 분리하며, 상기 분리한 건강데이터 및 사용자의 개인건강데이터를 벡터화하는 과정을 수행하는 것을 포함하는 것을 특징으로 한다.
또한 상기 학습부는, 상기 전처리된 건강데이터에 대해서 차원을 줄이기 위한 학습모델을 구축하는 것을 포함하며, 상기 학습모델은 딥 네트워크 러닝(deep network learning)이나 PCA(principle component analysis) 기법을 포함하여 특정 데이터의 차원을 줄이기 위한 기법을 적용하는 것을 특징으로 한다. 본 발명에서는 이러한 학습모델에 사용하는 기법은 제한하지 아니한다.
또한 상기 클러스터링부는, 상기 학습모델에 대해서 상기 추출된 특징별로 그룹핑하여 해당 클러스터에 대한 상기 건강데이터를 저장하는 것을 포함하며, 상기 그룹핑은 격자기반 그룹핑이나 큐브형 그룹핑에 의해서 수행되는 것을 특징으로 한다.

본 발명은 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치에 관한 것으로, 특징 추출 기술을 적용하여 시계열 다변량의 특성을 가지는 건강데이터의 차원을 줄임으로써, 사용자의 개인건강데이터를 기반으로 해당 건강데이터의 유사사례를 검색하는 계산 복잡도를 줄여, 사용자의 개인건강데이터와 유사한 유사사례를 실시간성에 가깝게 고속으로 검색할 수 있는 효과가 있다.
또한 본 발명은 사용자의 개인건강데이터에 맞는 그룹핑 기술을 적용하여 모든 건강데이터에 대한 유사도 계산을 수행하지 않고 그룹 스크리닝을 통해 선별된 그룹 내의 건강데이터들에 대해서만 유사도 계산을 수행함으로써, 사용자의 개인건강데이터와 비슷한 유사사례를 검색하는데 소요되는 시간을 현저하게 줄일 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치를 설명하기 위한 개념도이다.
도 2는 본 발명의 일 실시예에 따른 유사사례 검색 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 유사사례 검색 장치에 있어서 사용자의 개인건강데이터와 유사한 유사사례를 검색하기 위한 절차를 나타낸 워크플로우이다.
도 4는 본 발명의 일 실시예에 따른 유사사례 검색 장치에 있어서 유사사례 검색모델을 구축하는 절차를 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따른 사용자의 개인건강데이터를 기반으로 사용자의 개인건강데이터와 유사한 유사사례를 검색하기 위한 절차를 나타낸 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 사용자의 개인건강데이터를 기반으로 하는 유사사례의 검색을 위해 건강데이터를 정규화한 형태의 건강데이터를 나타낸 예시도이다.
도 7은 본 발명의 일 실시예에 따른 사용자의 개인건강데이터를 기반으로 하는 유사사례의 검색을 위해 정규화한 건강데이터를 타임-윈도우를 적용하여 타임-윈도우의 길이에 따라 상기 건강데이터를 분리한 형태의 건강데이터를 나타낸 예시도이다.
도 8은 본 발명의 일 실시예에 따른 건강데이터의 데이터 값에 대해 2-차원의 격자 기반 그룹핑을 수행하는 과정을 설명하기 위한 예시도이다.
도 9는 본 발명의 일 실시예에 따른 건강데이터를 그룹핑(클러스터링)하여 데이터베이스에 저장한 형태를 나타낸 예시도이다.

이하, 본 발명의 바람직한 실시 예를 첨부된 도면을 참조하여 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치를 설명하기 위한 개념도이다.
최근 사람들의 건강에 대한 인식이 높아짐에 따라 상기 사용자의 개인건강데이터를 수집하여 사용자와 동일하거나 유사한 질병을 앓고 있는 사람들의 유사사례를 검색하고, 이를 기반으로 건강증진을 위한 참고자료를 제공하는 등의 건강 빅 데이터 기반 서비스가 시작되고 있다.
이는, 상기 사용자와 유사한 건강상태를 나타내는 사람들의 유사사례를 찾음으로서, 해당 사람들의 건강 변화에 대한 추이를 기반으로 사용자의 미래 건강상태를 예측할 수 있으며 해당 유사사례들로부터 증상, 생활습관, 식습관 및 처방 등을 토대로 개인의 건강증진 방법을 찾아낼 수 있으므로 사용자의 건강상태와 유사사례를 찾은 것은 매우 중요하다.
또한 상기 건강데이터는 개인이 정기적으로 건강검진을 받은 결과의 기록이거나 치료의 경과를 기록 한 것이기 때문에 시계열 데이터로 볼 수 있고, 각 건강데이터는 다양한 건강수치 정보를 포함하므로 다변량 데이터이다.
이러한 시계열 다변량의 특징을 가지는 건강데이터 간의 유사도를 계산하려면 상기 시계열에 따른 다양한 건강수치 정보를 각각 비교해야 하므로 그 복잡도가 상당히 높으며 대용량의 건강 빅 데이터이므로 시간 복잡도가 높은 문제점이 있다.
상술한 바와 같이, 상기 사용자의 개인건강데이터를 기반으로 하는 유사사례 검색의 결과는 사용자의 건강 예측이나, 건강증진 향상을 위한 참고자료 사용될 수 있는 레퍼런스(Reference)정보이므로 원활한 건강서비스를 위해 실시간성에 가까운 유사사례 검색이 요구된다.
이에 따라 국내외 대형 의료기관이나 정부에서 제공하는 대용량 건강데이터로부터 고속으로 유사사례를 검색하기 위해 상기 대용량 건강데이터로부터 특징을 추출하여 상기 건강데이터의 차원을 줄임으로써, 종래의 유사사례 검색 서비스에서의 문제점인 유사사례의 검색에 대한 계산 복잡도를 현저하게 줄이고 상기 추출한 특징에 따라 상기 건강데이터를 그룹핑함으로써, 상기 모든 건강데이터에 대한 유사도 계산을 수행하지 않고 그룹 스크리닝을 통해 선별된 그룹 내 건강데이터에 대해서만 유사도 계산을 수행함으로써, 신속하게 상기 사용자의 개인건강데이터와 유사한 유사사례를 검색할 수 있는 장치 및 그 방법을 제공하고자 한다.
도 1에 도시한 바와 같이, 유사사례 검색 장치(100)는, 사용자의 개인건강데이터를 기반으로 건강데이터로부터 유사사례를 검색하기 위해 검색모델을 우선적으로 구축한다. 여기서 상기 검색모델을 구축하는데 사용되는 건강데이터는 공공건강데이터와 개인건강데이터를 포함한 개념의 건강데이터임이 바람직하다.
또한 상기 유사사례 검색 장치(100)는, 상기 검색모델의 구축을 위해 상기 건강데이터를 제공하는 건강데이터 프로바이더로부터 상기 공공 및 개인건강데이터를 주기적으로 수집하여 상기 건강데이터의 건강 수치(예: 혈당, 혈압 또는 콜레스테롤 수치 등)들의 특징을 사용자의 개인건강데이터와 비교 가능한 상태로 만들기 위해 전처리 과정을 수행한다.
또한 상기 전처리 과정은, 상기 건강데이터가 정규분포가 아닐 경우, 상기 건강데이터의 건강 수치를 상기 사용자의 개인건강데이터와 비교 가능한 상태로 만들기 위해 상기 건강데이터를 정규분포로 만들며, 상기 정규분포의 건강데이터에 대한 z-core를 다시 0~1의 값으로 리스케일링한다.
한편 상기 리스케일링은, 상기 정규분포의 건강데이터를 기반으로 하술할 학습모델을 생성하기 위해 0~1의 확률 값 형태로 상기 건강데이터의 수치 값을 변환하는 것을 말한다.
또한 상기 전처리 과정은, 상기 건강데이터의 각 수치 값에 대해서 공백이 있는 경우에는 특정 값으로 대체하여 삽입할 수 있으며, 상기 특정 값은 0 또는 중간 값으로 대체할 수 있다.
또한 상기 중간 값은, 시계열 건강데이터의 특징으로 인해 공백이 있는 수치 값의 앞뒤 시간에 따른 수치 값의 중간 값을 말한다.
또한 상기 전처리 과정은, 다양한 길이의 시계열 데이터인 사용자의 개인건강데이터에 대응하기 위해 상기 정규화환 건강데이터를 타임-윈도우의 길이만큼 분리하고, 상기 분리한 건강데이터를 벡터화한다.
또한 상기 분리는, 예를 들어 상기 한사람(또는 복수)에 대해서 2002년에서 2006년 사이의 건강데이터가 있을 때, 이를 3 길이의 타임-윈도우를 적용하면 2002~2004, 2003~2005 및 2004~2006으로 분리되는 것을 말한다.
한편 상기 타임-윈도우의 길이는 고정되어 있지 않으며 상기 건강데이터와 상기 사용자의 개인건강데이터에 따라 다양하게 주어질 수 있으며, 상기 건강데이터에 적용되는 타임-윈도우의 길이에 따라 상기 건강데이터는 복수의 건강데이터로 분리될 수 있다.
또한 상기 전처리 과정은, 상기 분리한 복수의 건강데이터를 각각 벡터화하며, 상기 벡터화는 상기 분리한 건강데이터의 시계열에 따라 특성 값을 하나의 벡터로 만드는 것을 의미한다.
즉, 상기 분리한 건강데이터는 다변량 데이터, 즉 다수의 시간에 따라 다수의 특성 값을 가진다. 이는 사용자의 개인건강데이터를 기반으로 상기 건강데이터를 검색함에 있어 상기 각각의 시간에 따라 다수의 특성 값을 각각 비교하여 검색하여야하므로, 검색하는데 상당한 시간이 소요되는 문제점이 있다.
따라서 상기 벡터화를 예를 들어 설명하면, A라는 한사람에 대해서 혈당, 혈압, 콜레스테롤 수치가 다수의 시간에 따라 주어져 있다면 2002~2003년의 혈당 및 혈압 데이터는 2002_혈당, 2003_혈당, 2002_혈압 및 2003_혈압의 벡터로 만들어지는 것을 의미한다.
또한 사용자의 개인건강데이터를 기반으로 상기 건강데이터에서 유사사례를 검색하기 위해 사용자가 입력하는 쿼리 데이터 역시 상기의 전처리 과정을 통해 변환된다.
또한 상기 유사사례 검색 장치(100)는, 상기 건강데이터의 차원을 줄이기 위한 학습모델을 구축하며, 상기 학습모델을 통하여 상기 건강데이터 전체를 입력하면, 상기 건강데이터로부터 상기 특징을 추출하여 해당 건강데이터의 차원을 축소하여 해당 건강데이터를 변환한다.
예를 들어, 상기 A라는 사람의 상기 2002_혈당, 2003_혈당, 2002_혈압 및 2003_혈압 형태의 혈압 및 혈당 데이터로부터 특징을 추출하여 (feature1, feature2)와 같은 형태로 변환하여 해당 건강데이터의 차원을 줄이는 것을 의미한다.
또한 상기 유사사례 검색 장치(100)는 상기 건강데이터를 분리하여 각각 벡터화한 건강데이터 별로 상기 학습모델을 구축한다. 즉, 상기 유사사례 검색 장치(100)는 상기 건강데이터에 적용되는 타임-윈도우의 길이에 따라 적어도 하나 이상의 학습모델을 생성하여 구축한다.
또한 상기 유사사례 검색 장치(100)는, 상기 건강데이터의 변환이 완료되면 격자 기반의 그룹핑을 수행(상기 건강데이터의 변환이 2차원인 경우)하여 상기 차원이 축소된 건강데이터의 수치 값(특징)을 구간 별로 구획으로 나누어 상기 사용자의 개인건강데이터를 기반으로 유사사례 검색 시 단순히 상기 구획 검색, 즉 범위 검색을 통해 유사사례 그룹을 빠르게 검색할 수 있도록 한다. 이는, 상기 사용자의 개인건강데이터에 대한 유사사례를 검색하기 위해 상기 건강데이터 전체에 대한 유사도를 모두 계산하는 것이 아니라 상기 검색한 유사 그룹들 내의 건강데이터에 대해서만 유사도 계산을 수행할 수 있도록 함으로써, 유사사례 검색에 대한 소요 시간을 현저하게 줄일 수 있는 효과가 있다.
또한 상기 건강데이터의 원본은 상기 특징별로 매핑되어 데이터베이스에 저장된다.
한편 상술한 일련의 과정은 유사사례 검색을 위한 모델을 구축하기 위한 과정이며, 상기 사용자는 자신의 개인건강데이터를 이용하여 상기 구축한 모델을 기반으로 자신의 건강 상태에 유사한 유사사례를 검색할 수 있다.
즉, 상기 사용자는 자신의 개인건강데이터를 쿼리 데이터로 하여 상기 유사사례 검색 장치(100)를 통해 유사사례를 검색할 수 있으며, 상기 유사사례 검색 장치(100)는, 상기 건강데이터와 같이 상기 쿼리 데이터에 대해 전처리 과정을 수행하고, 상기 전처리 과정을 수행한 상기 쿼리 테이터를 상기 생성한 학습모델에 적용하여 상기 건강데이터와 같이 데이터 포맷의 형태가 변환된 쿼리 데이터를 추출한다.
즉, 상기 사용자가 자신의 건강상태에 대한 유사사례를 검색하기 위해 사용자의 개인건강데이터를 입력하면 상기 유사사례 검색 장치(100)는, 상기 개인건강데이터에 대해 상기 전처리 과정을 수행하고, 상기 구축한 복수의 학습모델 중에 해당 개인건강데이터의 길이에 맞는 학습모델을 적용하여 해당 개인건강데이터의 데이터를 변환하여 쿼리 데이터를 추출한다.
또한 상기 유사사례 검색 장치(100)는, 변환된 쿼리 데이터를 이용하여 상기 구축한 학습모델과 상기 건강데이터로부터 추출한 상기 건강데이터의 특징에 대해서 특징별로 그룹핑을 수행한 그룹으로부터 해당하는 그룹을 선택한다.
예를 들어, 상기 건강데이터가 2차원으로 변환되어 격자 기반의 그룹핑을 수행하여 각 구획(격자)에 대한 x, y 값을 미리 저장하고 새로운 데이터가 변환되어 입력될 때 A구획은 0.1< x < 0.2 및 0.2 < y < 0.3이라고 가정 했을 때, <0.15, 0.15>의 데이터가 입력되면 단순히 범위 검색을 통해 해당 사용자의 개인건강데이터가 A구획에 해당된다는 것을 알 수 있으며 이를 통해 유사사례 그룹을 빠르게 찾을 수 있는 효과가 있다. 이는 도 8을 참조하여 상세히 설명하도록 한다.
또한 상기 유사사례 검색 장치(100)는, 상기 선택한 유사사례 그룹 내 건강데이터에 대해서 상기 사용자의 개인건강데이터와 1:1 유사도 계산을 통해 유사도를 예측하고 상기 유사도 예측 결과 유사도가 높은 적어도 하나 이상의 건강데이터를 선택하여 그 수치와 함께 상기 사용자에게 제공한다.
한편 상기 유사사례 검색 장치(100)는, 맨하탄 거리 또는 유클리디안 거리(Euclidean Distance)를 포함한 거리계산 방법을 사용하여 유사도 계산을 수행 하며, 상기 1:1 유사도 계산에 사용되는 각각의 건강데이터와 사용자의 개인건강데이터는 k-차원으로 변환된 데이터가 아닌 원본의 건강데이터 및 사용자의 개인건강데이터를 가지고 유사도를 계산함으로써, 정확도를 확보할 수 있는 효과가 있다.
한편 상기 유사사례 검색모델은, 건강데이터에 기반 한 유사사례를 검색하는 것뿐만 아니라 상기 건강데이터와 같이 시계열 다변량의 특징을 가지는 빅 데이터를 기반으로 유사사례를 검색하는 다양한 분야에 사용될 수 있다.
도 2는 본 발명의 일 실시예에 따른 유사사례 검색 장치의 구성을 나타낸 블록도이다.
도 2에 도시한 바와 같이 유사사례 검색 장치(100)는, 사용자가 사용자의 개인건강데이터를 기반으로 유사사례를 검색하기 위한 사용자 인터페이스를 제공하는 사용자 인터페이스부(110), 건강데이터를 제공하는 건강데이터 프로바이더로부터 상기 건강데이터를 액세스하여, 건강데이터를 저장하는 데이터베이스를 업데이트하는 데이터 액세스/저장부(120), 상기 건강데이터 및 상기 사용자의 개인건강데이터를 전처리 과정을 수행하는 전처리부(130), 상기 건강데이터에 대해서 학습을 통해 해당 학습모델을 생성하는 학습부(140), 상기 생성된 학습모델을 상기 건강데이터에 적용하여 상기 건강데이터의 특징을 추출하는 특징 추출부(150), 상기 추출된 특징에 대해서 특징별로 그룹핑을 수행하여 유사한 건강데이터끼리 클러스터를 구성하도록 하는 클러스터링부(160) 및 상기 건강데이터와 상기 사용자의 개인건강데이터 사이의 유사도를 예측하는 유사도 예측부(170)를 포함하여 구성된다.
또한 상기 사용자 인터페이스부(110)는, 상기 사용자가 상기 사용자 인터페이스부(110)를 통해 상기 사용자의 건강 상태의 유사사례를 검색할 수 있도록 쿼리 데이터를 입력할 수 있도록 하여 상기 유사사례를 검색할 수 있도록 지원한다.
한편 상기 쿼리 데이터는 상기 사용자의 시계열 다변량의 특성을 가지는 사용자의 개인건강데이터를 말한다.
물론 상기 사용자의 개인건강데이터의 특징 값을 전부 다 입력할 필요는 없으며 상기 사용자가 원하는 유사사례를 검색하기 위해 상기 개인건강데이터의 일부분을 입력하여 검색할 수 있음은 물론이다.
또한 상기 데이터 액세스/저장부(120)는, 인터넷에 연결되어 상기 건강데이터를 제공하는 건강데이터 프로바이터로부터 상기 건강데이터를 주기적으로 액세스하여 상기 액세스한 건강데이터를 상기 유사사례 검색모델을 통해 상기 건강데이터를 클러스터링하고 상기 데이터베이스(200)를 업데이트 한다. 이는 상기 사용자가 좀 더 다양한 폭의 유사사례를 검색할 수 있도록 하는 효과가 있다.
한편 상기 사용자의 개인건강데이터 및 상기 건강데이터를 입력받는 상기 사용자 인터페이스(110) 또는 데이터 액세스/저장부(120)는 상기 유사사례 검색 장치에 반드시 구비되어질 필요는 없으며, 상기 유사사례 검색 장치와 연동하여 건강증진 서비스를 제공하는 시스템을 통해 상기 사용자의 개인건강데이터와 상기 건강데이터를 제공받을 수도 있다.
또한 상기 전처리부(130)부는, 상기 사용자가 자신의 건강상태와 유사한 유사사례를 검색하기 위해 입력한 쿼리 데이터, 상기 건강데이터 또는 이들의 조합에 대하여 전처리 과정을 수행한다.
또한 상기 전처리 과정은, 상기 쿼리 데이터 및 건강데이터를 정규화하고, 상기 정규화환 쿼리 데이터 및 건강데이터를 적어도 하나 이상의 타임-윈도우의 길이에 따라 분리하고, 상기 분리한 적어도 하나 이상의 쿼리 데이터 및 적어도 하나 이상의 건강데이터를 각각 벡터화한다.
또한 상기 정규화는, 상기 쿼리 데이터 및 건강데이터가 정규분포가 아닐 경우에 로그 변환(Log Transformation) 또는 스퀘어루트 변환(Squre Root Transformation)을 통해 정규분포로 만들며 상기 정규분포에 따른 쿼리 데이터 및 건강데이터의 각 수치 값을 확률 값(0~1의 값)형태로 데이터를 변환한다.
또한 상기 전처리 과정은, 상기 쿼리 데이터와 건강데이터의 수치 값이 공백으로 되어 있거나 정확한 수치 값을 인식하지 못하는 경우, 해당 수치 값(공백을 포함하는 의미)을 0이나 중간 값으로 대체한다.
상기 분리와 벡터화는 이미 상술하였으므로 상세한 설명은 생략하도록 한다.
한편 상기 전처리부(130)는 상기 쿼리 데이터를 처리하는 전처리부(예: 제1 전처리부)와 상기 건강데이터를 처리하는 전처리부(예:제2 전처리부)를 각각 따로 구성하여 상기 전처리 과정을 수행할 수도 있음은 물론이다.
또한 상기 학습부(140)는 상기 건강데이터와 상기 사용자의 쿼리 데이터의 차원을 줄이기 위한 학습모델을 구축하며, 상기 학습모델은 상기 쿼리 데이터와 상기 건강데이터의 차원을 줄이는 역할을 수행한다. 한편 상기 학습모델은 상기 건강데이터 또는 상기 사용자의 쿼리 데이터를 시간에 따른 특징별로 분리하기 위해 적용되는 타임-윈도우의 수에 따라 적어도 하나 이상으로 구축된다.
즉, 상기 전처리 과정을 수행한 쿼리 데이터와 상기 건강데이터가 N-차원(상기 특징의 수 또는 상기 수치 값의 수)이라면 상기 학습모델을 통해 해당 쿼리 데이터와 건강데이터의 차원을 k-차원(N > k)으로 줄인다.
또한 상기 특징 추출부(150)는, 상기 건강데이터를 상기 학습모델에 적용하여 유사사례를 검색함에 있어 필요한 특징을 추출하여 상기 건강데이터의 차원을 줄이는 역할을 수행한다. 즉, 상기 특징 추출부(150)는, 상기 학습모델과 연계하여 상기 건강데이터의 차원을 줄인다.
또한 상기 클러스터링부(160)는, 상기 추출된 특징별로 복수의 건강데이터를 그룹핑한다. 또한 상기 그룹핑된 복수의 건강데이터의 그룹은 하나의 클러스터를 구성한다.
또한 상기 클러스터링부(160)는, 상기 학습모델을 적용하여 상기 건강데이터로부터 상기 추출된 특징별로 그룹핑하여 해당 클러스터에 대한 상기 건강데이터를 저장하며, 상기 그룹핑은 격자기반 그룹핑 또는 큐브형 그룹핑에 의해서 수행되는 것을 특징으로 한다.
상기 격자기반 그룹핑은, 상기 학습모델을 통해 상기 건강데이터가 2-차원의 데이터로 변환되어 그룹핑 되는 것을 의미하며, 상기 큐브형 그룹핑은 상기 건강데이터가 3-차원의 데이터로 변환되어 그룹핑 되는 것을 의미한다.
물론 상기 차원은 k-차원으로서, 2 또는 3차원에 한정되지 않는다.
또한 상기 유사도 예측부(170)는, 상기 생성한 학습모델에 상기 쿼리 데이터를 적용하고, 상기 학습모델에 의해 변환된 쿼리 데이터를 이용하여 상기 그룹핑을 수행한 클러스터로부터 해당하는 클러스터를 선택하고, 상기 선택한 클러스터에 해당하는 건강데이터 및 상기 사용자의 개인건강데이터 사이의 유사도를 예측한다.
또한 상기 유사사례 검색 장치(100)는, 상기 유사도 예측부(170)를 통해 유사도를 예측한 결과, 상기 개인건강데이터와 유사도가 높은 상위의 건강데이터를 적어도 하나 이상으로 선택하고, 상기 선택한 각각의 건강데이터에 대한 유사도 예측치와 상기 선택한 건강데이터를 상기 사용자제게 제공한다.
한편 상기 유사도를 예측하기 위해 사용되는 상기 건강데이터 및 상기 사용자의 개인건강데이터는 상기 건강데이터 및 상기 사용자의 개인건강데이터가 상기 유사사례 검색 장치(100)에 입력될 때의 원본(즉, k-차원의 데이터가 아니다.)을 이용하여 유사도를 예측하며 상기 유사도 예측은, 유클리디안 거리를 이용하여 예측한다. 본 발명에서는 유클리디안 거리, 맨하탄 거리 또는 해밍 거리(Hamming Distance)를 포함한 다양한 거리 계산 방법이 사용될 수 있으며, 이에 대한 제한을 두지 않는다.
도 3은 본 발명의 일 실시예에 따른 유사사례 검색 장치에 있어서 유사사례를 검색하기 위한 절차를 나타낸 워크플로우이다.
도 3에 도시한 바와 같이, 상기 사용자가 사용자의 개인건강데이터를 기반으로 하는 쿼리 데이터를 이용하여 상기 사용자의 건강상태와 유사한 유사사례를 검색하기 위한 워크플로우에서, 먼저 상기 사용자는 상기 사용자가 구비한 단말기를 통해 상기 쿼리 데이터를 입력한다(S210).
한편 상기 쿼리 데이터는, 상기 사용자의 개인 시계열 건강검진데이터를 포함하는 개인건강데이터 전체일 수 있으며, 상기 개인건강데이터의 일부분일 수도 있다.
또한 상기 사용자는 상기 쿼리 데이터를 입력함에 있어, 상기 유사사례 검색 장치(100)가 제공한 사용자 인터페이스를 통해 입력하거나 상기 유사사례 검색 장치(100)와 연동한 건강검진 서비스 시스템에서 제공한 사용자 인터페이스를 통해 상기 쿼리 데이터를 입력한다.
다음으로 상기 유사사례 검색 장치(100)는, 상기 사용자의 쿼리 데이터가 입력되는 경우 전처리 과정을 수행하여 상기 사용자의 쿼리 데이터가 포함하는 각 건강수치 등을 비교 가능한 상태로 만들고, 상기 학습모델에 적용 가능한 상태로 만든다.
한편 상기 유사사례 검색 장치(100)에 입력되는 상기 건강데이터는 상기 유사사례 검색의 결과로 도출되는 레퍼런스 데이터를 의미하며, 상기 입력된 건강데이터 대해서도 전처리 과정이 수행된다(S110 ~ S120).
또한 상기 건강데이터는, 상기 유사사례 검색 장치(100) 또는 상기 유사사례 검색 장치(100)와 연동한 건강증진 서비스 시스템을 통해 주기적으로 수집된다.
또한 상기 건강데이터는, 국내외의 큰 병원, 건보공단 또는 심평원에서 제공하는 건강 빅 데이터를 포함한다.
또한 상기 유사사례 검색 장치(100)는, 상기 건강데이터를 유사사례 검색의 대상으로 활용하기 위해 상기 건강데이터에 대한 학습을 통해 적어도 하나 이상의 학습모델을 생성(S130)하며, 상기 생성한 학습모델은 상기 데이터베이스(200)에 저장되고, 상기 생성한 학습모델에 상기 전처리된 건강데이터를 적용하여, 상기 건강데이터의 특징을 추출함으로써, 상기 건강데이터의 차원을 k-차원으로 줄이는 과정을 수행한다(S140).
또한 상기 유사사례 검색 장치(100)는, 상기 전처리 과정을 수행한 상기 사용자의 쿼리 데이터를 상기 저장된 학습모델 중 하나에 적용하여 특징을 추출한 다음 해당 쿼리 데이터의 차원을 k-차원으로 줄인 변환된 쿼리 데이터를 출력한다(S230).
또한 상기 유사사례 검색 장치(100)는, 상기 건강데이터로부터 추출된 특징에 대해서 특징별로 그룹핑을 수행하며, 해당 그룹핑된 클러스터에 대한 상기 건강데이터를 저장한다(S150).
또한 상기 유사사례 검색 장치(100)는, 상기 변환된 쿼리 데이터를 이용하여 상기 특징별로 그룹핑을 수행한 클러스터로부터 상기 변환된 쿼리 데이터에 해당하는 클러스터를 선택하고, 상기 선택한 클러스터에 해당하는 적어도 하나 이상의 건강데이터와 상기 사용자의 개인건강데이터 사이의 유사도를 1:1로 매핑하여 예측하고 상기 예측결과 유사도가 높은 복수의 건강데이터를 선택하여 상기 예측한 유사도와 함께 상기 사용자에게 제공한다(S240).
도 4는 본 발명의 일 실시예에 따른 유사사례 검색 장치에 있어서 유사사례 검색모델을 구축하는 절차를 나타낸 흐름도이다.
도 4에 도시한 바와 같이 유사사례 검색을 위한 모델을 구축하는 절차는, 우선 주기적으로 수집되는 복수의 건강데이터를 전처리부(130)를 통해 각각 정규화한다(S320).
상기 건강데이터의 주기적인 수집은, 상기 유사사례 검색 장치(100)에 의해 수행되거나 상기 유사사례 검색 장치(100)와 연동한 건강검진 서비스 시스템에 의해 수행된다. 먼저 주기적으로 수집되는 복수의 건강데이터를 레퍼런스데이터로 입력받는다(S310). 다음으로 상기 전처리부(130)를 통해 상기 건강데이터를 정규화하고(S320), 상기 정규화환 건강데이터를 다양한 길이의 타임-윈도우를 적용하여 해당 타임-윈도우의 길이만큼 상기 건강데이터를 분리하며, 상기 분리한 건강데이터를 벡터화하는(S330, S340)전처리 과정을 수행한다.
다음으로 상기 전처리 과정을 수행한 건강데이터에 대해서 학습을 통해서 해당 학습모델을 생성한다(S350). 상기 학습모델은 상기 건강데이터의 차원을 줄이는 역할을 수행하여 상기 유사사례 검색 장치(100)에서 수행하는 유사사례의 검색을 위한 계산 복잡도를 현저하게 줄일 수 있는 효과가 있다.
다음으로 상기 생성한 학습모델을 통해 상기 전처리 과정을 수행한 복수의 건강데이터를 상기 특징 추출부(150)와 상기 생성한 학습모델을 통해 해당 건강데이터의 특징을 추출하여 해당 건강데이터의 차원을 감소시킨다(S360).
상기 차원의 감소는, 상기 유사사례 검색 장치(100)에 수행하는 유사사례 검색을 위한 유사도 계산의 시간 복잡도를 현저하게 줄일 수 있는 효과가 있다.
다음으로 상기 클러스터링부(160)를 통해 상기 추출된 특징에 대해서 특징별로 그룹핑하는 클러스터링을 수행한다(S370).
상기 클러스터링은, 상기 건강데이터를 특징별로 그룹핑하는 것을 말하며, 상기 그룹핑을 수행하여 복수의 건강데이터로 형성되는 하나의 그룹은 하나의 클러스터로 구성된다.
다음으로 상기 건강데이터의 특징에 대해서 특징별로 그룹핑한 것을 해당 클러스터에 대한 상기 건강데이터를 저장한다(S380).
도 5는 본 발명의 일 실시예에 따른 사용자의 개인건강데이터를 기반으로 하는 유사사례를 검색하기 위한 절차를 나타낸 흐름도이다.
도 5에 도시한 바와 같이 사용자의 개인건강데이터를 기반으로 하는 유사사례를 검색하기 위한 절차는, 우선 상기 사용자로부터 상시 사용자의 개인건강데이터를 기반으로 상기 건강데이터에서 상기 사용자의 개인건강상태와 유사한 유사사례를 검색하기 위해 쿼리 데이터를 입력받는다(S410).
또한 상기 사용자의 개인건강데이터는 상기 사용자가 진료하거나 건강검진을 받은 병원 또는 한의원과 같이 의료 서비스를 수행하는 복수의 개인건강데이터 프로바이더로부터 제공받은 시계열 다변량의 데이터이다.
다음으로 상기 전처리부(130)를 통해 상기 쿼리 데이터를 정규화하고, 상기 정규화환 쿼리 데이터를 다양한 길이의 타임-윈도우를 적용하여 해당 타임-윈도우의 길이만큼 상기 쿼리 데이터를 분리하며, 상기 분리한 쿼리 데이터를 벡터화하는(S420, S430 및 S440)전처리 과정을 수행한다. 여기서 상기 쿼리 데이터의 경우에는 데이터의 량이 적으면 타임-윈도우를 적용하지 않고 진행할 수도 있다.
다음으로 상기 학습부(140)를 통해 생성한 학습모델을 통해 상기 전처리 과정을 수행한 쿼리 데이터의 차원을 감소시킨 데이터로 변환한다(S450).
다음으로 상기 유사도 예측부(170)를 통해 상기 변환한 쿼리 데이터를 기반으로 상기 건강데이터의 특징에 따라 그룹핑을 수행한 클러스터로부터 해당하는 클러스터를 선택한다(S460).
다음으로 상기 선택한 클러스터에 해당하는 건강데이터와 상기 사용자의 개인건강데이터 사이의 유사도를 예측한다(S470).
한편 상기 유사도를 예측하기 위해 사용되는 상기 건강데이터 및 상기 사용자의 개인건강데이터는, 상기 유사사례 검색을 위해 사용된 k-차원의 건강데이터 및 사용자의 개인건강데이터가 아니라 상기 유사사례 검색 장치(100)에 최초로 입력된 원본의 건강데이터와 사용자의 개인건강데이터를 말한다.
다음으로 상기 유사도 예측 결과, 유사도가 제일 높은 건강데이터를 상기 사용자에게 제공한다(S480).
도 6은 본 발명의 일 실시예에 따른 사용자의 데이터를 기반으로 하는 유사사례의 검색을 위해 건강데이터를 정규화한 형태의 건강데이터를 나타낸 예시도이다.
도 6의 (a)는 건강데이터를 제공하는 건강데이터 프로바이더에서 제공한 건강데이터를 나타낸 예시도이다.
도 6의 (a)에 도시한 바와 같이 기본적인 건강데이터의 형태는 해당 건강데이터의 사용자(도 6의 (a)에서 PERSON_ID)에 따라 시간별로 순차적으로 건강수치 및 사용자의 간단한 정보가 나열되어 있다.
이처럼 상기 건강데이터는, 사용자가 상기 병원이나 한의원 등에서 건강검진을 받거나 치료를 받은 날짜 별로 해당 사용자의 건강수치가 표현되어 있는 시계열 데이터이며 다변량 데이터이다.
이를 기반으로 특정 개인의 건강데이터와 상기 건강데이터 간의 유사도를 계산하려면, 각 날짜별로 각각의 건강수치를 상기 특정 개인의 건강데이터와 각각 계산하여야 하므로 그 계산 복잡도가 상당히 높으며, 유사도 계산에 소요되는 시간 또한 오래 걸리는 문제점이 있다.
도 6의 (b)는 건강데이터를 제공하는 건강데이터 프로바이더에서 제공한 건강데이터를 정규화환 예시도이다.
도 6의 (b)에 도시한 바와 같이, 상기 유사사례 검색 장치(100)를 통해 상기 건강데이터를 정규화하며, 상기 정규화는 상기 건강데이터의 특징별로 그 범위 및 스케일이 다르기 때문에 상기 특징별로 동일한 범위로 변경하여 비교 가능한 형태로 만드는데 그 목적이 있다.
또한 상기 유사사례 검색 장치(100)는, 상술한 바와 같이 상기 학습모델을 생성하기 위해 상기 건강데이터에 대해 로그변환이나 스퀘어루트 변환을 수행할 수 있고, 상기 건강데이터 또는 상기 로그변환이나 스퀘어루트 변환된 건강데이터는 z-core(건강수치, 사용자의 키 또는 몸무게 등)로 변환되며, 상기 변환된 값을 0 ~ 1의 값으로 리스케일링한다.
또한 상기 유사사례 검색 장치(100)는, 상기 건강데이터의 값이 공백인 경우에는 해당 건강데이터의 값을 특정 값(0 또는 중간 값)으로 대체할 수 있다.
한편 상기 도 6를 참조하여 설명한 건강데이터에 대한 정규화과정은 도 7에서 설명하는 타임-윈도우를 적용하여 건강데이터를 타임-윈도우의 길이로 분리하는 과정을 포함하며, 상기 정규화과정은 상기 사용자의 쿼리 데이터에 대해서도 수행함은 상술한 바와 같다.
도 7은 본 발명의 일 실시예에 따른 사용자의 개인건강데이터를 기반으로 하는 유사사례의 검색을 위해 정규화한 건강데이터를 타임-윈도우를 적용하여 타임-윈도우의 길이에 따라 상기 건강데이터를 분리한 형태의 건강데이터를 나타낸 예시도이다.
도 7에 도시한 바와 같이, 상기 유사사례 검색 장치(100)에 입력되는 다양한 길이의 시계열 사용자 건강 데이터에 대응하기 위해 상기 건강 빅 데이터를 다양한 길이의 타임-윈도우를 적용하여 인코딩 할 수 있다.
도 7의 (a)는 3 길이의 타임-윈도우를 적용한 것이고 도 7의 (b)는 5 길이의 타임-윈도우를 적용한 것이다.
이처럼 사용자의 개인건강데이터에 맞춰 다양한 길이의 타임-윈도우를 적용할 수 있다.
또한 상기 유사사례 검색 장치(100)는, 상기 건강데이터에 적어도 하나 이상의 상이한 길이를 가지는 타임-윈도우를 적용하여, 상기 타임-윈도우의 길이별로 상기 건강데이터를 분리할 수 있으며, 상기 적용한 타임-윈도우의 길이에 따라 적어도 하나 이상의 학습모델을 구축할 수 있다.
또한 상기 유사사례 검색 장치(100)는, 상기 타임-윈도우를 적용한 건강데이터를 기반으로 상기 건강데이터의 차원을 줄이고, 격자 기반의 그룹핑을 수행함으로써, 유사도 계산에 소요되는 시간을 현저하게 줄여 상기 유사사례 검색을 속도를 실시간으로 수행할 수 있도록 한다.
도 8은 본 발명의 일 실시예에 따른 건강데이터의 데이터 값에 대해 2-차원의 격자 기반 그룹핑을 수행하는 과정을 설명하기 위한 예시도이다.
도 8에 도시된 바와 같이, 상기 전처리 과정, 상기 학습모델 및 상기 특징 추출부(150)을 통해 상기 유사사례 검색 장치(100)에 최초로 입력되는 상기 건강데이터의 원본의 차원(예: N-차원)은 모두 축소(예: 2-차원, N > 2)되어 변환된다.
또한 상기 클러스터링부(160)를 통해 격자 기반 그룹핑을 수행하여 2-차원으로 매핑된 상기 공공건강데이터를 값의 구간 별로 구획(cell)을 나눈다.
상기 구간 별 구획은 하나의 클러스터(유사도가 높은 건강데이터의 그룹)를 의미하며, 상기 클러스터는 적어도 하나 이상의 건강데이터로 구성된다.
또한 상기 건강데이터로 구성되는 상기 클러스터는, 상기 건강데이터 간의 값(즉, 상기 특징 또는 건강 수치를 말함)이 유사한 것끼리 군집을 이룬 것을 의미하며, 상기 클러스터를 구성하는 건강데이터는 서로 간에 비슷한 특징을 가진다.
또한 상기 건강데이터는 상기 학습모델 및 상기 특징 추출부(150)를 통해 상기 건강데이터가 2차원의 데이터로 변환될 수 있고, 상기 2차원의 각 요소(상술한 특징을 말함)를 각각 x축, y축의 값으로 취급하여 2-차원의 그래프 위에 상기 건강데이터를 매핑하면 상기 건강데이터는 상기 2차원의 그래프 상에서 점(dot)의 형태로 나타나게 된다.
또한 상기 각 구획은, 도 8에 도시한 2-차원 그래프 상에서 x 값의 범위와 y의 범위를 가지는 사각형을 격자를 말하는 것이며, 상기 구획은 하나의 그룹을 의미하며, 각 구획에 대한 x, y값을 미리 저장하고 새로운 건강데이터가 변환되어 입력되었을 때 단순한 범위 검색을 통해 유사사례 그룹을 빠르게 검색하여 클러스터링할 수 있다.
예를 들어 A 구획은 0.1< x < 0.2 및 0.2 < y < 0.2 이라고 가정했을 때, 상기 학습모델과 특징 추출부(150)를 통해 2-차원의 <0.15, 0.15>의 값을 가지는 건강데이터가 입력되면 단순히 범위 검색을 통해 상기 입력된 건강데이터가 A구획에 해당된다는 것을 알 수 있다.
한편 상기 건강데이터가 상기 학습모델 및 특징 추출부(150)를 통해 2차원의 데이터로 변환된 것을 일예로 하여 설명하고 있지만 3차원의 데이터로 변환 된 경우에는 상기 클러스터링부(160)를 통해 큐브 형태로 그룹핑 되어 3-차원의 그래프에 매핑될 수 있다. 즉, 상기 학습모델 및 상기 특징 추출부(150)를 통해 변환되는 차원에 따라 다양한 형태로 그룹핑되고 다양한 형태의 k-차원 그래프에 상기 건강데이터가 매핑될 수 있다.
한편 상기 유사사례 검색 장치(100)는, 상기 사용자의 쿼리 데이터가 입력되고 상기 학습모델을 통해, 상기 쿼리 데이터의 차원이 2-차원으로 축소되어 변환된 상기 사용자의 쿼리 데이터 기반으로 해당 사용자의 쿼리 데이터와 유사한 유사사례를 검색하기 위해 상기 범위검색을 통해 클러스터링 된 유사사례 그룹을 선택한다.
또한 상기 유사사례 검색 장치(100)는, 상기 입력되어 변환된 사용자의 쿼리 데이터가 특정 유사사례 그룹의 경계에 있을 경우(상기 예에서 사용자의 개인건강데이터가 <0.199, 0.201>의 값을 가지는 경우), 해당 구획에 그룹핑된 유사사례 뿐만 아니라 해당 구획의 주변에 위치하는 구획에 매핑된 복수의 클러스터를 선택할 수 있다.
이는 상기 사용자의 쿼리 데이터가 해당 구획에 그룹핑된 유사사례 뿐만 아니라 다른 근접한 다른 구획에 그룹핑 된 유사사례와도 유사할 가능성이 높으므로 해당 구획의 유사사례의 그룹만 선택하는 것은 폴스-포지티브(False-Positive)를 발생시킬 가능성이 매우 높다.
따라서 상기 유사사례 검색 장치(100)는, 상기 그룹을 세밀하게 나누어 상기 사용자의 쿼리 데이터가 특정 그룹에 매핑될 경우 해당 그룹뿐만 아니라 그 주변의 그룹(도 8에 도시한 점선 빨간색 사각형 부분, 2차원일 경우, 총 9개)까지 유사그룹으로 선택한다.
또한 상기 그룹핑은, 스크리닝을 위한 것으로 정확한 유사도 계산은, 상기 상기 유사도 예측부(170)를 통해 선택된 그룹 내의 유사사례들에 대해서만 따로 수행되므로 고속으로 유사사례를 검색할 수 있는 효과가 있다.
또한 상기 유사도 예측부(170)는, 상기 선택한 클러스터 내의 건강데이터를 상기 사용자의 개인건강데이터와 1:1 유사도 예측을 수행한다.
또한 상기 유사도 예측부(170)는, 상기 2-차원으로 변환된 건강데이터가 아닌 상기 건강데이터의 원본과 상기 사용자의 쿼리 데이터의 원본을 이용하여 유사도 예측을 함으로써, 상기 유사사례 검색의 정확도를 확보하는 효과가 있다.
또한 상기 유사도 예측부(170)는, 유클리디안 거리(Euclidean Distance), 멘하탄 거리 또는 해밍 거리를 포함한 다양한 거리 계산 방법 중 하나를 사용하여 유사도를 계산한다.
또한 상기 유사사례 검색 장치(100)는, 상기 유사도 예측부(170)에 의해 예측한 결과에 따라 유사도가 높은 상위의 건강데이터를 적어도 하나 이상으로 선택하고, 상기 예측한 각각의 유사도에 대한 수치와 함께 상기 사용자에게 제공한다.
도 9는 본 발명의 일 실시예에 따른 건강데이터를 그룹핑(클러스터링)하여 데이터베이스에 저장된 형태를 나타낸 예시도이다.
한편 본 발명의 일 실시예에 따라 상기 복수의 n-차원 건강데이터는 상기 유사사례 검색장치(100)에 의해 수집되어 일련의 과정을 통해 k-차원으로 변환되어 그룹핑 된 후 상기 데이터베이스(200)에 저장된다.
또한 상기 그룹핑 된 복수의 건강데이터는 상기 개인건강데이터를 기반으로 하는 유사사례 검색의 결과로 제공될 레퍼런스 데이터로 사용된다.
도 9에 도시한 바와 같이, 상기 유사사례 검색장치(100)를 통해 k-차원에서 그룹핑된 건강데이터가 상기 데이터베이스(200)에 저장되는 구조는 k-개의 특징들에 대한 변량을 나타내는 필드, 상기 특징들에 대한 변량의 조합에 대한 건강데이터 집합을 나타내는 필드로 구성된다.
한편 유사사례 검색 때 사용되는 타겟 필드(검색 조건)들은 각 특징들에 대한 변량으로, 각 필드에 대한 값은 해당 변량의 그룹 ID가 저장된다.
상기 그룹 ID는 각 특징들에 대한 수치의 범위(변량)를 나타내는 것으로 예를 들어, 도 9에 도시한 F1이 혈당에 대한 특징을 나타내고, 혈당의 수치가 최저 1에서 100까지의 범위를 가진다면 1~10까지의 범위를 그룹 ID, 1로 할당하고, 10단위로 나누어 순차적으로 그룹 ID를 할당할 수 있다. 물론 변량에 대한 각 필드의 그룹 ID는 상기 유사사례 검색장치(100)가 임의로 할당할 수 있다.
또한 건강데이터의 집합을 나타내는 필드는 다양한 변량의 조합(그룹에 따른 조합)에 대해 해당 그룹에 포함되는 건강데이터의 집합이 저장된다.
예를 들어 도 9에서 상기 건강데이터 집합을 나타내는 필드에 대해 Person_1 및 Person_2의 건강데이터는 특징들(F1, F2, F3 및 F4)의 변량을 나타내는 그룹 ID(1, 1, 1, 및 2)를 가진다.
또한 도 9에 도시한 데이터의 구조가 데이터베이스 테이블이라고 가정한다면, 튜플(tuple)의 개수(row의 개수)가 결국 유사사례 검색에 소비되는 시간에 큰 양향을 미치는 요소가 된다.
또한 상기 튜플의 개수는 다음의 [수학식 1]로 나타낼 수 있다.

여기서, 상기 N, M 및 K는 1 이상의 정수이다.
또한 상기 [수학식 1]에서 의미하는 것과 같이, 상기 건강데이터를 차원 축소 없이 n-차원의 건강데이터에 클러스터링만을 수행하는 경우, 상기 K_feature의 값이 여전히 매우 크므로 상기 유사사례를 검색하기 위해 탐색하는 튜플의 수가 많고, 검색시간이 오래 걸린다. 즉, 상기 클러스터링도 수행하지 않는 경우에는 더더욱 검색시간이 많이 걸리는 것이 자명하다.
이에 따라 본 발명에서는 상기 전처리, 학습모델 및 특징추출 과정을 통해 상기 차원의 수를 감소시키고 클러스터링을 수행하면, 상기 유사사례 검색시간을 현저하게 단축시킬 수 있는 효과가 있다.
예를 들어 설명하자면, 20개의 특징(feature)으로 구성된 5년치의 건강데이터가 있다고 가정하면, 상기 건강데이터는 20x5=100차원의 데이터이고, 상기 특징에 대한 변량을 5개의 그룹으로 나눈다고 하면 5¹⁰⁰개의 튜플이 있어야 그룹 스크리닝이 가능하다. 그러나 상기 100차원의 건강데이터에 대해서 20개의 특징을 5개로 축소하여 25차원으로 줄인다면 5²⁵개만큼의 튜플만 있으면 그룹 스크리닝이 가능하며, 적어진 튜플의 수만큼 유사사례 검색 시간을 현저하게 줄일 수 있다.
상기 n-차원의 건강데이터를 k-차원으로 축소해야 되는 또 하나의 이유는 상기 차원이 많아지면 그 만큼 제약 조건(constraint)이 많아지게 되고, n-차원(상술한 예의 100차원) 모두에서 해당 그룹 안에 들어가야만 그룹 스크리닝에서 탈락하지 않고 선택될 수 있기 때문이다.
상기 예에서 99개의 차원의 값이 모두 비슷한데 다른 1개의 차원에서 튀는 값이 존재하는 경우에 이것은 엉뚱한 그룹으로 매칭되거나, 그룹 스크리닝에서 아예 선택되지 않게 된다. 그러나 차원을 줄이면 그만큼 만족해야 하는 제약 조건이 줄어들어 클러스터링 수행 시 그 정확도를 향상시킬 수 있는 효과가 있다.
이에 따라 본 발명에서는 n-차원의 건강데이터를 k-차원의 건강데이터로 차원을 감소시켜, k-차원에서 상기 건강데이터를 그룹핑함으로써, 상기 튜플의 수를 감소시켜 유사사례 검색속도를 현저하게 향상시킬 수 있고, 차원 축소를 통해 건강데이터를 콤비네이션하여 특징부분만 추출함으로써, 유사사례 검색시 조약 조건의 개수를 줄여 높은 정확도의 유사사례를 검색할 수 있도록 한다.
이상에서 설명하였듯이, 다차원 건강데이터에 대한 유사사례 검색 방법 및 그 장치는, 사용자의 개인건강데이터를 기반으로 상기 사용자의 건강상태와 유사한 건강데이터를 검색할 수 있는 검색모델을 구축함으로써, 상기 사용자의 개인건강데이터와 상기 건강데이터 간의 유사도 계산의 계산 복잡도를 줄이고, 상기 유사사례 검색에 소요되는 시간을 현저하게 줄이는 효과가 있다.
상기에서는 본 발명에 따른 바람직한 실시예를 위주로 상술하였으나, 본 발명의 기술적 사상은 이에 한정되는 것은 아니며 본 발명의 각 구성요소는 동일한 목적 및 효과의 달성을 위하여 본 발명의 기술적 범위 내에서 변경 또는 수정될 수 있을 것이다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

100 : 유사사례 검색 장치 110 : 사용자 인터페이스부
120 : 데이터 액세스/저장부 130 : 전처리부
140 : 학습부 150 : 특징 추출부
160 : 클러스터링부 170 : 유사도 예측부
200 : 데이터베이스

Claims

전처리부가 건강데이터를 정규화하고, 상기 정규화한 건강데이터를 타임-윈도우의 길이만큼 분리하여 전처리를 수행하는 전처리 단계; 및
학습부가 상기 전처리한 건강데이터에 대해서 학습을 통해서 상기 타임-윈도우의 상기 길이에 대응되는 학습모델을 생성하는 학습 단계;를 포함하며,
상기 학습 단계는, 상기 전처리한 건강데이터에 대해서 차원을 줄이기 위한 학습모델을 구축하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
청구항 1에 있어서,
특징 추출부가 상기 생성된 학습모델과 상기 전처리한 건강데이터로부터 상기 건강데이터의 특징을 추출하는 특징추출 단계; 및
클러스터링부가 상기 추출된 특징에 대해서 특징별로 그룹핑을 수행하는 클러스터링 단계;를 더 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
청구항 1에 있어서,
유사사례 검색 장치가 상기 생성된 학습모델에 사용자의 개인건강데이터를 적용하여 변환된 쿼리 데이터를 추출하는 쿼리변환 단계;를 더 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
청구항 2에 있어서,
유사도 예측부가 상기 생성된 학습모델에 사용자의 개인건강데이터를 적용하여 변환된 쿼리 데이터를 이용하여 상기 생성된 학습모델과 상기 전처리한 건강데이터로부터 추출한 상기 건강데이터의 특징에 대해서 특징별로 그룹핑을 수행한 클러스터로부터 해당하는 클러스터를 선택하는 단계; 및
상기 유사도 예측부가 상기 선택한 클러스터에 해당하는 건강데이터 및 상기 사용자의 개인건강데이터 사이의 유사도를 예측하는 유사도 예측 단계;를 더 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
청구항 1에 있어서,
상기 전처리 단계는,
상기 전처리부가 상기 건강데이터, 사용자의 개인건강데이터 또는 이들의 조합을 정규화하는 단계;
상기 전처리부가 상기 타임-윈도우를 적용하여 상기 정규화한 건강데이터, 상기 정규화한 사용자의 개인건강데이터, 또는 이들의 조합을 각각 상기 타임-윈도우의 상기 길이만큼 분리하는 단계; 및
상기 전처리부가 상기 분리한 건강데이터, 상기 분리한 사용자의 개인건강데이터, 또는 이들의 조합을 각각 벡터화하는 단계;를 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
청구항 5에 있어서,
상기 정규화하는 단계는,
상기 건강데이터, 상기 사용자의 개인건강데이터, 또는 이들의 조합이 각각 정규분포가 아닐 경우, 상기 전처리부가 로그 변환 또는 스퀘어루트 변환을 통해 정규분포로 만들며, 상기 정규분포의 건강데이터, 상기 정규분포의 사용자의 개인건강데이터, 또는 이들의 조합에 대해 각각 z-score를 다시 0~1의 값으로 리스케일링하는 것을 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
청구항 1에 있어서,
상기 학습모델은 딥 네트워크 러닝(deep network learning)이나 PCA(principle component analysis) 기법을 포함한 건강데이터의 차원을 줄이기 위한 기법을 적용하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
청구항 2에 있어서,
상기 클러스터링 단계는,
상기 학습모델에 대해서 상기 추출된 특징별로 그룹핑하여 해당 클러스터에 대한 상기 건강데이터를 저장하는 것을 포함하며, 상기 그룹핑은 격자기반 그룹핑이나 큐브형 그룹핑에 의해서 수행되는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 방법.
건강데이터 또는 사용자의 개인건강데이터를 정규화하고, 상기 정규화한 건강데이터 또는 상기 정규화한 사용자의 개인건강데이터를 타임-윈도우 길이만큼 분리하여 전처리를 수행하는 전처리부; 및
상기 전처리한 건강데이터에 대해서 학습을 통해서 상기 타임-윈도우의 상기 길이에 대응되는 학습모델을 생성하는 학습부;를 포함하며,
상기 학습부는, 상기 전처리한 건강데이터에 대해서 차원을 줄이기 위한 학습모델을 구축하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 장치.
청구항 9에 있어서,
상기 생성된 학습모델과 상기 전처리한 건강데이터로부터 상기 건강데이터의 특징을 추출하는 특징추출부; 및
상기 추출된 특징에 대해서 특징별로 그룹핑을 수행하는 클러스터링부;를 더 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 장치.
청구항 10에 있어서,
상기 생성된 학습모델에 상기 사용자의 개인건강데이터를 적용하여 변환된 쿼리 데이터를 이용하여 상기 생성된 학습모델과 상기 전처리한 건강데이터로부터 추출한 상기 건강데이터의 특징에 대해서 특징별로 그룹핑을 수행한 클러스터로부터 해당하는 클러스터를 선택하고, 상기 선택한 클러스터에 해당하는 건강데이터 및 상기 사용자의 개인건강데이터 사이의 유사도를 예측하는 유사도 예측부;를 더 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 장치.
청구항 9에 있어서,
상기 전처리부는,
상기 분리한 건강데이터, 상기 분리한 사용자의 개인건강데이터, 또는 이들의 조합을 벡터화하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 장치.
청구항 9에 있어서,
상기 정규화는,
상기 건강데이터, 상기 사용자의 개인건강데이터, 또는 이들의 조합이 각각 정규분포가 아닐 경우, 로그 변환 또는 스퀘어루트 변환을 통해 정규분포로 만들며, 상기 정규분포의 건강데이터, 상기 정규분포의 사용자의 개인건강데이터, 또는 이들의 조합에 대해 각각 z-score를 다시 0~1의 값으로 리스케일링하는 것을 포함하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 장치.
청구항 9에 있어서,
상기 학습모델은 딥 네트워크 러닝(deep network learning)이나 PCA(principle component analysis) 기법을 포함한 건강데이터의 차원을 줄이기 위한 기법을 적용하는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 장치.
청구항 10에 있어서,
상기 클러스터링부는,
상기 학습모델에 대해서 상기 추출된 특징별로 그룹핑하여 해당 클러스터에 대한 상기 건강데이터를 저장하는 것을 포함하며, 상기 그룹핑은 격자기반 그룹핑이나 큐브형 그룹핑에 의해서 수행되는 것을 특징으로 하는 다차원 건강 데이터에 대한 유사사례 검색 장치.