Nothing Special   »   [go: up one dir, main page]

KR102345410B1 - 빅데이터 지능형 수집 방법 및 장치 - Google Patents

빅데이터 지능형 수집 방법 및 장치 Download PDF

Info

Publication number
KR102345410B1
KR102345410B1 KR1020190148303A KR20190148303A KR102345410B1 KR 102345410 B1 KR102345410 B1 KR 102345410B1 KR 1020190148303 A KR1020190148303 A KR 1020190148303A KR 20190148303 A KR20190148303 A KR 20190148303A KR 102345410 B1 KR102345410 B1 KR 102345410B1
Authority
KR
South Korea
Prior art keywords
data
dataset
class
big data
classified
Prior art date
Application number
KR1020190148303A
Other languages
English (en)
Other versions
KR20210060830A (ko
Inventor
송광헌
이금탁
김주성
최원재
신명지
Original Assignee
주식회사 피씨엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 피씨엔 filed Critical 주식회사 피씨엔
Priority to KR1020190148303A priority Critical patent/KR102345410B1/ko
Publication of KR20210060830A publication Critical patent/KR20210060830A/ko
Application granted granted Critical
Publication of KR102345410B1 publication Critical patent/KR102345410B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)

Abstract

본 발명은 빅데이터 지능형 수집 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 데이터 소스로부터 비정형 데이터, 반정형 데이터 및 정형 데이터 중 적어도 하나를 포함하는 데이터셋을 입력 받고, 상기 입력된 데이터셋을 파싱하고, 상기 파싱된 데이터셋를 하나 이상의 데이터베이스에 저장하기 위해 필터링하고, 상기 필터링된 데이터셋의 특징을 추출하여 상기 필터링된 데이터셋의 클래스를 분류하고, 상기 클래스가 분류된 데이터셋을 하나 이상의 데이터베이스에 저장하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 빅데이터 지능형 수집 장치가 제공된다.

Description

빅데이터 지능형 수집 방법 및 장치{Big data intelligent collecting method and device}
본 발명은 빅데이터 지능형 수집 방법 및 장치에 관한 것이다.
빅데이터 분석은 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 비정형 데이터의 집합에서 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.
다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동하게 하고 개인화된 현대 사회 구성원마다 맞춤형 정보를 제공, 관리, 분석 가능하게 하며 과거에는 불가능했던 기술을 실현시키기도 한다.
이같이 빅데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.
일반적으로 빅데이터 분석은 데이터 수집/저장, 데이터 전처리, 데이터 정제(프로파일링), 데이터 분석 및 데이터 시각화을 거친다.
최근 빅데이터 수집을 위한 데이터 소스는 음성, 문서, SNS 데이터와 같은 비정형 데이터, 로그 데이터, 머신 데이터 및 운용 데이터와 같은 반정형 데이터와 DB/DW와 같은 정형 데이터를 포함한다.
빅데이터 분석을 위해서는 데이터 수집이 정확이 이루어져야 하나, 데이터의 수집 위치 및 공개데이터의 설명 부족 등으로 해당 소스를 찾거나 활용하기 어려운 문제점이 있다.
빅데이터 분석에 있어서, 원하는 데이터를 얻기 위해서는 수집된 데이터의 정제가 필수적이며, 데이터 수집에 제대로 이루어지지 못하는 경우, 데이터 정제 과정에서도 데이터의 구성이 일관되지 않아 빅데이터 분석을 할 수 없는 문제점이 있다.
한국등록특허 제10-2033151호
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 데이터 수집 시 데이터셋을 자동으로 제시하거나 데이터셋 카테고리를 제공할 수 있는 빅데이터 지능형 수집 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 빅데이터 지능형 수집 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 데이터 소스로부터 비정형 데이터, 반정형 데이터 및 정형 데이터 중 적어도 하나를 포함하는 데이터셋을 입력 받고, 상기 입력된 데이터셋을 파싱하고, 상기 파싱된 데이터셋를 하나 이상의 데이터베이스에 저장하기 위해 필터링하고, 상기 필터링된 데이터셋의 특징을 추출하여 상기 필터링된 데이터셋의 클래스를 분류하고, 상기 클래스가 분류된 데이터셋을 하나 이상의 데이터베이스에 저장하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하는 빅데이터 지능형 수집 장치가 제공된다.
상기 프로그램 명령어들은, 미리 설정된 알고리즘을 이용하여 복수의 데이터셋 각각에서 추출된 특징에 따른 클래스를 미리 분류할 수 있다.
상기 필터링된 데이터셋의 특징은 하나 이상의 필드 각각의 타입, 도메인 및 최대/최소값을 포함할 수 있다.
상기 타입은 숫자, 텍스트 및 이진 데이터 중 적어도 하나이고, 상기 도메인은 카테고리, 날짜, 시간, 금액, 좌표, 백분율, 분수 및 지수 중 적어도 하나일 수 있다.
상기 클래스가 분류된 데이터셋이 미리 학습된 데이터셋 분류 데이터베이스에 저장되어 있지 않은 경우, 새로운 클래스를 생성할 수 있다.
상기 프로그램 명령어들은, 상기 미리 학습된 데이터 분류 데이터베이스를 이용하여 클래스가 분류된 데이터셋의 특징을 포함하는 메타데이터 제공 API를 생성할 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 장치에서 빅데이터를 수집하는 방법으로서, 데이터 소스로부터 비정형 데이터, 반정형 데이터 및 정형 데이터 중 적어도 하나를 포함하는 데이터셋을 입력 받는 단계; 상기 입력된 데이터셋을 파싱하는 단계; 상기 파싱된 데이터셋를 하나 이상의 데이터베이스에 저장하기 위해 필터링하는 단계; 상기 필터링된 데이터셋의 특징을 추출하여 상기 필터링된 데이터셋의 클래스를 분류하는 단계; 및 상기 클래스가 분류된 데이터셋을 하나 이상의 데이터베이스에 저장하는 단계를 포함하는 빅데이터 지능형 수집 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 프로그램이 제공된다.
본 발명에 따르면, 데이터셋의 클래스 분류를 통해 빅데이터 수집의 관리 및 수집의 효율성을 한층 높일 수 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 빅데이터 지능형 수집 시스템의 구성을 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 빅데이터 지능형 수집 장치의 상세 구성을 도시한 도면이다.
도 3은 본 실시예에 따른 빅데이터 지능형 수집을 위한 소프트웨어 모듈 구성을 도시한 도면이다.
도 4 내지 도 6은 서로 다른 클래스의 데이터셋을 도시한 도면이다.
도 7은 도 4 내지 도 6의 데이터셋의 특징에 따라 클래스를 분류한 결과를 나타낸 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명은 빅데이터 분석을 위한 데이터셋을 지능적으로 분류할 수 있는 방법 및 장치를 제공한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 빅데이터 지능형 수집 시스템의 구성을 도시한 도면이다.
도 1에 도시된 바와 같이, 본 실시예에 따른 빅데이터 지능형 수집 시스템은 데이터 소스(100), 데이터 소스와 네트워크를 통해 연결되는 데이터셋 수집 모듈(102), 수집된 데이터를 저장하는 하나 이상의 데이터베이스(104-n)를 포함할 수 있다.
데이터 소스(100)로부터 수집되는 데이터셋은, 정형 데이터(Structured Data), 반정형 데이터(Semistructured-Data) 및 비정형 데이터(Unstructured-Data)를 포함할 수 있다.
정형 데이터는 관계형 데이터베이스 시스템의 테이블과 같이 고정된 필드(컬럼)에 저장되는 데이터와 파일, 그리고 지정된 행과 열에 의해 데이터의 속성이 구별되는 스프레드시트 형태의 데이터이다.
정형 데이터의 경우, 스키마 구조를 가지고 있기 때문에 데이터를 탐색하는 과정이 테이블 탐색, 컬럼 구조 탐색, 로우 탐색 순으로 정형화되어 있다.
반정형 데이터는 데이터 내부에 정형데이터의 스키마에 해당되는 메타데이터를 갖고 있으며. 일반적으로 파일 형태로 저장되는 데이터로서, 로그 데이터, 머신 데이터 및 운용 데이터를 포함한다.
반정형 데이터의 경우 데이터 내부에 데이터 구조에 대한 메타데이터를 갖고 있기 때문에 어떤 형태를 가진 데이터인지를 파악하는 것이 필요하다. 데이터 내부에 있는 규칙성을 파악해 데이터를 파싱할 수 있는 파싱 규칙을 적용한다.
비정형 데이터는 음성, 문서 및 SNS 데이터와 같이 언어 분석이 가능한 텍스트 데이터, 음성, 이미지 및 동영상과 같은 멀티미디어 데이터를 포함한다.
본 실시예에 따른 데이터셋 수집 모듈(102)은 네트워크를 통해 연결되는 데이터 소스(100)로부터 정형, 반정형 및 비정형 데이터를 포함하는 데이터셋을 입력 받고, 입력된 데이터셋의 클래스를 분류한다.
도 1의 데이터셋 수집 모듈(102)이 본 발명의 빅데이터 지능형 수집 장치로 정의될 수 있다.
도 2는 본 발명의 일 실시예에 따른 빅데이터 지능형 수집 장치의 상세 구성을 도시한 도면이다.
도 2에 도시된 바와 같이, 본 실시예에 따른 빅데이터 지능형 수집 장치는 프로세서(200) 및 메모리(202)를 포함할 수 있다.
프로세서(200)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리(202)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(202)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
본 발명의 일 실시예에 따르면, 메모리(202)에는 정형, 반정형 및 비정형 데이터를 포함하는 데이터셋을 입력 받고, 입력된 데이터의 클래스를 분류하고, 클랙스가 분류된 데이터셋을 하나 이상의 데이터베이스(104-n)에 저장하는 프로그램 명령어들이 저장된다.
본 실시예에 따른 클래스는, 빅데이터가 활용될 수 있는 서비스 분류를 의미하는 것으로서, 날씨, 건강, 로그 데이터를 예로 들 수 있으나, 이에 한정되지 않는다.
본 실시예에 따른 메모리(202)에 저장된 프로그램 명령어들은 소정 기능을 수행하기 위한 소프트웨어 모듈로 정의될 수 있다.
도 3은 본 실시예에 따른 빅데이터 지능형 수집을 위한 소프트웨어 모듈 구성을 도시한 도면이다.
도 3에 도시된 바와 같이, 본 실시예에 따른 소프트웨어 모듈은 입력 모듈(300), 필터 모듈(302), 클래스 분류 모듈(304) 및 출력 모듈(306)을 포함할 수 있다.
일반적으로 정형 데이터는 DBMS 및 이진 파일을 포함한다.
DBMS의 경우, DBMS 벤더가 제공하는 API를 통해 정형 데이터에 접근하여 수집된다. 이진 파일은 ftp 프로토콜을 통해 수집된다.
반정형 데이터는 스크립트 파일 및 이진 파일을 포함하고, 스크립트 파일은 http 프로토콜을 통해 파일의 텍스트가 스크랩된다.
비정형 데이터는 스크립트 파일 및 이진 파일을 포함하고, 이들의 수집은 상기한 바와 같다.
입력 모듈(300)은 데이터 소스(100)로부터 상기한 바와 같이 API, ftp 또는 http 프로토콜 등을 통해 정형, 반정형, 비정형 데이터를 수집하고, 이를 파싱한다.
필터 모듈(302)은 파싱된 데이터를 데이터베이스(104-n)에 저장하기 위한 형식으로 변환하며, 데이터 필드의 추가, 삭제 및 마스킹을 수행한다.
클래스 분류 모듈(304)은 필터 모듈(302)에서 필터링된 데이터셋의 특징을 추출하여 데이터셋의 클래스를 분류한다.
본 실시예에 따르면, 클래스 분류 과정은 사전 학습된 알고리즘을 통해 수행될 수 있다.
본 실시예에 따르면, k-NN, RNN 및 BERT 알고리즘을 미리 클래스를 알고 있는 데이터셋으로 사전 학습시킨다.
사전 학습이 완료된 이후, 새로운 데이터셋이 입력되면, 클래스 분류 모듈(304)은 데이터셋의 특징을 추출하고, 추출된 특징을 사전 학습된 알고리즘에 입력값으로 하여 복수의 클래스 각각에 속하는 확률을 계산한다.
사전 학습을 통해 데이터셋 분류 데이터베이스(110)가 구축될 수 있으며, 데이터셋 분류 데이터베이스(110)는 미리 정의된 복수의 클래스와 각 클래스에 대응되는 특징에 관한 정보를 저장한다.
데이터셋의 특징은 하나 이상의 필드(컬럼) 각각의 타입, 도메인 및 최대/최소값을 포함할 수 있다.
여기서, 타입은 숫자, 텍스트 및 이진 데이터일 수 있고, 도메인은 카테고리, 날짜, 시간, 금액, 좌표, 백분율, 분수 및 지수를 포함할 수 있다.
도 4 내지 도 6은 서로 다른 클래스의 데이터셋을 도시한 도면이고, 도 7은 도 4 내지 도 6의 데이터셋의 특징에 따라 클래스를 분류한 결과를 나타낸 도면이다.
클래스 분류 모듈(304)은 필터링된 데이터셋의 복수의 필드 각각의 특징을 추출한다.
도 4를 참조하면, 클래스 분류 모듈(304)은 복수의 필드의 타입, 도메인 및 최대/최소값을 사전 학습된 알고리즘에 입력하여 해당 데이터셋의 특징과 유사한 특징을 갖는 클래스를 비교하고, 복수의 클래스 각각에 대한 확률값을 계산한다.
도 4에서, 제1 필드는 시간, 제2 필드 내지 제5 필드는 최대/최소를 갖는 숫자이므로, 클래스 분류 모듈(304)은 해당 데이터셋을 기상 관련 클래스로 결정할 수 있다.
또한, 클래스 분류 모듈(304)은 도 5와 같이, 제1 필드가 소정의 정수가 반복적으로 나타나고, 제2 필드가 최소 및 최대값을 갖는 데이터이고, 제3 필드가 텍스트이고 동일한 텍스트가 반복적으로 나타나는 경우, 이러한 특징을 추출하여 방(room)과 관련된 클래스로 분류한다.
본 발명의 일 실시예에 따르면, 클래스 분류 모듈(304)은 필터링된 데이터셋이 사전에 분류된 클래스에 속하지 않는 것으로 판단하는 경우, 새로운 클래스를 생성하고, 클래스 분류 데이터베이스(310)에 새로 생성된 클래스에 관한 정보가 저장되도록 한다.
출력 모듈(306)은 각 데이터베이스에 상응하는 API를 이용하여 클래스가 분류된 데이터셋을 하나 이상의 데이터베이스(104)에 저장한다.
데이터셋을 저장하는 데이터베이스(104)는 RDB(관계형 데이터베이스), NoSQL(Not only SQL) 및 HDFS(Hadoop Distributed File System) 등을 포함할 수 있으나, 반드시 이에 한정되지 않는다.
본 실시예에서와 같이, 수집된 데이터셋의 클래스를 분류하는 경우, 데이터셋 정제(프로파일리) 시 메타데이터를 분석할 필요 없이 클래스가 분류된 데이터셋의 특징을 API로 바로 제공할 수 있다.
도 3에 도시된 바와 같이, 본 실시예에 따른 빅데이터 지능형 수집을 위한 소프트웨어 모듈은 API 생성 모듈(308)을 포함할 수 있다.
API 생성 모듈(308)은 데이터 정제 시스템으로부터 요청이 있는 경우, 미리 학습된 데이터셋 분류 데이터베이스를 이용하여 데이터셋 메타데이터 제공 API를 생성한다.
도 4 내지 도 6에 도시된 바와 같이, 클래스 분류 모듈(304)에서 하나 이상의 필드의 타입, 도메인 및 최대/최소값이 추출되는 경우, 데이터셋의 특징으로 파함하는 메타데이터가 데이터 정제 시스템에 제공된다.
데이터 정제는 다양한 형식의 빅데이터를 통합된 형식으로 변환하고, 비정형 데이터를 구조적 형태로 교정하여 기존 데이터와 통하하고, 빅데이터 저장 계획 수립, 빅데이터 저장소 선정, 품질 관리와 같은 과정을 의미한다.
이러한 데이터 정제에 있어서, 데이터셋의 클래스를 수집 시 분석하고, 이들의 특징을 포함하는 메타데이터를 API로 제공하기 때문에 빅데이터 처리 효율을 한층 개선할 수 있다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (11)

  1. 빅데이터 지능형 수집 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    데이터 소스로부터 비정형 데이터, 반정형 데이터 및 정형 데이터를 포함하는 데이터셋을 입력 받고,
    상기 입력된 데이터셋을 파싱하고,
    상기 파싱된 데이터셋를 하나 이상의 데이터베이스에 저장하기 위해 필터링하고,
    상기 필터링된 데이터셋의 특징을 추출하여 상기 필터링된 데이터셋의 클래스를 분류하고,
    상기 클래스가 분류된 데이터셋을 하나 이상의 데이터베이스에 저장하도록,
    상기 프로세서에 의해 실행되는 프로그램 명령어들을 저장하되,
    복수의 데이터셋 각각에서 추출된 하나 이상의 필드 각각의 타입, 도메인 및 최대/최소값을 포함하는 특징을 사전 학습된 알고리즘에 입력하여 상기 복수의 데이터셋 각각에서 추출된 특징에 따른 클래스를 미리 분류하고,
    상기 사전 학습된 알고리즘에 상기 필터링된 데이터셋의 특징인 하나 이상의 필드 각각의 타입, 도메인 및 최대/최소값을 입력하여 상기 미리 분류된 클래스와의 확률값을 계산하고,
    상기 타입은 숫자, 텍스트 및 이진 데이터이고,
    상기 도메인은 카테고리, 날짜, 시간, 금액, 좌표, 백분율, 분수 및 지수인 빅데이터 지능형 수집 장치.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 클래스가 분류된 데이터셋이 미리 학습된 데이터셋 분류 데이터베이스에 저장되어 있지 않은 경우, 새로운 클래스를 생성하는 빅데이터 지능형 수집 장치.
  6. 제5항에 있어서,
    상기 미리 학습된 데이터셋 분류 데이터베이스를 이용하여 클래스가 분류된 데이터셋의 특징을 포함하는 메타데이터 제공 API를 생성하는 빅데이터 지능형 수집 장치.
  7. 프로세서 및 메모리를 포함하는 장치에서 빅데이터를 수집하는 방법으로서,
    복수의 데이터셋 각각에서 추출된 하나 이상의 필드 각각의 타입, 도메인 및 최대/최소값을 포함하는 특징을 사전 학습된 알고리즘에 입력하여 상기 복수의 데이터셋 각각에서 추출된 특징에 따른 클래스를 미리 분류하는 단계;
    데이터 소스로부터 비정형 데이터, 반정형 데이터 및 정형 데이터 중 적어도 하나를 포함하는 데이터셋을 입력 받는 단계;
    상기 입력된 데이터셋을 파싱하는 단계;
    상기 파싱된 데이터셋를 하나 이상의 데이터베이스에 저장하기 위해 필터링하는 단계;
    상기 사전 학습된 알고리즘에 상기 필터링된 데이터셋의 특징인 하나 이상의 필드 각각의 타입, 도메인 및 최대/최소값을 입력하여 상기 미리 분류된 클래스와의 확률값을 계산하여 상기 필터링된 데이터셋의 클래스를 분류하는 단계; 및
    상기 클래스가 분류된 데이터셋을 하나 이상의 데이터베이스에 저장하는 단계를 포함하되,
    상기 타입은 숫자, 텍스트 및 이진 데이터이고,
    상기 도메인은 카테고리, 날짜, 시간, 금액, 좌표, 백분율, 분수 및 지수인 빅데이터 지능형 수집 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제7항에 따른 방법을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.


KR1020190148303A 2019-11-19 2019-11-19 빅데이터 지능형 수집 방법 및 장치 KR102345410B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190148303A KR102345410B1 (ko) 2019-11-19 2019-11-19 빅데이터 지능형 수집 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190148303A KR102345410B1 (ko) 2019-11-19 2019-11-19 빅데이터 지능형 수집 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210060830A KR20210060830A (ko) 2021-05-27
KR102345410B1 true KR102345410B1 (ko) 2021-12-30

Family

ID=76135579

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190148303A KR102345410B1 (ko) 2019-11-19 2019-11-19 빅데이터 지능형 수집 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102345410B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102703470B1 (ko) * 2023-11-15 2024-09-06 주식회사 솔루더스 라만 분광 검출 데이터를 활용한 물질 특성 추출 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102342055B1 (ko) * 2021-05-28 2021-12-27 주식회사 애자일소다 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법
KR102640444B1 (ko) * 2021-10-15 2024-02-27 주식회사 피씨엔 빅데이터 신뢰성과 활용성 극대화를 위한 빅데이터 증강분석 프로파일링 방법 및 장치
KR102682049B1 (ko) * 2023-11-13 2024-07-05 주식회사 솔루더스 프탈레이트 고감도 검출을 위한 라만 신호 처리 시스템
KR102675473B1 (ko) * 2023-12-28 2024-06-14 주식회사 데이터누리 데이터 요약에 기초하여 메타 데이터를 생성하는 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101542195B1 (ko) * 2014-03-28 2015-08-05 주식회사 솔트룩스 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법
JP2016048417A (ja) 2014-08-27 2016-04-07 石井 美恵子 サービス提供システムおよびプログラム
KR101856454B1 (ko) 2017-03-06 2018-05-10 주식회사 티맥스데이터 분산처리를 위한 컴퓨팅 장치
KR102033151B1 (ko) 2017-11-10 2019-10-16 (주)위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120033597A (ko) * 2010-09-30 2012-04-09 성균관대학교산학협력단 사용자 상황 예측 장치 및 방법
KR20130035660A (ko) * 2011-09-30 2013-04-09 주식회사 케이티 추천 시스템 및 추천 방법
KR20150056258A (ko) * 2013-11-15 2015-05-26 (주)가이온 생산성을 향상시킬 수 있는 정형 및 비정형의 빅데이터 엔진 및 처리 방법
KR20150110063A (ko) * 2014-03-24 2015-10-02 주식회사 클라우다인 빅데이터 처리를 위한 맵리듀스를 통합하는 장치 및 방법
US10824958B2 (en) * 2014-08-26 2020-11-03 Google Llc Localized learning from a global model
KR102016683B1 (ko) * 2015-02-26 2019-08-30 한국전자통신연구원 소프트웨어 정의 네트워크의 모니터링 기능 자원 자율 스케일링 장치 및 방법
KR20170059546A (ko) * 2015-11-20 2017-05-31 한국전자통신연구원 IoT 사물 및 IoT 서비스 분석 방법 및 장치
KR20170089067A (ko) * 2016-01-25 2017-08-03 한국전자통신연구원 빅데이터 처리 시스템 및 처리 방법
KR20190060021A (ko) * 2017-11-23 2019-06-03 주식회사 모다 맞춤형 지능시스템 및 그 동작방법
KR20190081306A (ko) * 2017-12-29 2019-07-09 한국전자통신연구원 빅데이터 분석 소프트웨어에 대한 자원 할당 방법, 상기 방법을 이용하는 가상화 자원 할당 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101542195B1 (ko) * 2014-03-28 2015-08-05 주식회사 솔트룩스 비정형 데이터로부터 특성을 추출하여 지식 베이스를 구축하는 시스템 및 방법
JP2016048417A (ja) 2014-08-27 2016-04-07 石井 美恵子 サービス提供システムおよびプログラム
KR101856454B1 (ko) 2017-03-06 2018-05-10 주식회사 티맥스데이터 분산처리를 위한 컴퓨팅 장치
KR102033151B1 (ko) 2017-11-10 2019-10-16 (주)위세아이텍 빅데이터 분석을 위한 데이터 병합 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102703470B1 (ko) * 2023-11-15 2024-09-06 주식회사 솔루더스 라만 분광 검출 데이터를 활용한 물질 특성 추출 시스템

Also Published As

Publication number Publication date
KR20210060830A (ko) 2021-05-27

Similar Documents

Publication Publication Date Title
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
US11907244B2 (en) Modifying field definitions to include post-processing instructions
US11995073B2 (en) One-shot learning for text-to-SQL
CN109471889B (zh) 报表加速方法、系统、计算机设备和存储介质
JP2018067279A (ja) データプロパティ認識のための装置、プログラム、及び方法
KR102334236B1 (ko) 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
US20180336272A1 (en) Generation of natural language processing events using machine intelligence
US11574491B2 (en) Automated classification and interpretation of life science documents
KR20210129465A (ko) 연구노트 관리 장치 및 이를 이용한 연구노트 검색 방법
US20150269138A1 (en) Publication Scope Visualization and Analysis
KR20220069482A (ko) 빅데이터 증강분석 프로파일링 시스템
CN105095436A (zh) 数据源数据自动建模方法
CN113486187A (zh) 佛学知识图谱构建方法、装置、设备及存储介质
CN117076742A (zh) 数据血缘追踪方法、装置及电子设备
US20240086433A1 (en) Interactive tool for determining a headnote report
CN110874366A (zh) 数据处理、查询方法和装置
CN111143329A (zh) 一种数据处理方法及装置
CN110825792A (zh) 基于golang中间件协程模式下的高并发分布式数据检索方法
CN115729935A (zh) 一种基于orm框架的数据交互处理方法及系统
KR102268549B1 (ko) 빅데이터 플랫폼 관리 방법 및 장치
KR20200000208A (ko) 소셜 데이터 수집 분석 시스템
Thakare et al. Extraction of template using clustering from heterogeneous web documents
CN113779981A (zh) 一种基于指针网络和知识图谱的推荐方法及装置
US10042942B2 (en) Transforms using column dictionaries
Liu et al. Research on key issues of data integration technology in electric power system in big data environment

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant