CN113453611A - 用于组织和查找数据的系统和方法 - Google Patents
用于组织和查找数据的系统和方法 Download PDFInfo
- Publication number
- CN113453611A CN113453611A CN202080011687.2A CN202080011687A CN113453611A CN 113453611 A CN113453611 A CN 113453611A CN 202080011687 A CN202080011687 A CN 202080011687A CN 113453611 A CN113453611 A CN 113453611A
- Authority
- CN
- China
- Prior art keywords
- data
- variables
- node
- study
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 143
- 238000012545 processing Methods 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 46
- 238000010801 machine learning Methods 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 17
- 238000002474 experimental method Methods 0.000 claims description 12
- 230000001364 causal effect Effects 0.000 claims description 11
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 238000011160 research Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 5
- 230000006870 function Effects 0.000 description 38
- 238000010586 diagram Methods 0.000 description 30
- 238000005516 engineering process Methods 0.000 description 10
- 230000008901 benefit Effects 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008520 organization Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 5
- 238000013499 data model Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 206010000496 acne Diseases 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000005808 skin problem Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 208000002874 Acne Vulgaris Diseases 0.000 description 1
- 235000000832 Ayote Nutrition 0.000 description 1
- 241000219122 Cucurbita Species 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 238000012356 Product development Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种用于组织、表示、查找、发现和访问数据的系统和相关方法。实施例以称为“特征图”的数据结构的形式表示信息和数据。特征图包括节点和边,其中边用于将节点“连接”到一个或多个其他节点。特征图中的节点可以表示变量,即,可度量的对象、特征或因素。特征图中的边可以表示节点与从一个或多个源检索到的一个或多个其他节点之间的统计关联的度量。证明或支持统计关联或度量关联变量的数据集将从特征图中“链接到”。
Description
相关申请的交叉引用
本申请要求于2019年2月1日提交的题为“Systems and Methods for Organizingand Finding Data”的美国临时申请号62/799981的权益,出于所有目的将其全部内容(包括附录)通过引用并入本文。
背景技术
数据用作许多学习和决策过程的一部分。此类数据可能与主题、实体、概念等相关。然而,为了有用,此类数据必须能够有效地发现、访问和处理,或以其他方式利用。此外,期望数据与正在执行的任务或正在作出的决定相关(或在某些情况下,充分相关)。做出可靠的数据驱动的决策或预测不仅需要关于决策的预期结果或预测目标的数据,而且需要关于与该结果或目标统计相关的变量(理想情况下是所有变量,但至少是最大的变量)的数据。不幸的是,今天使用传统方法很难发现哪些变量已证明与结果或目标有统计关联,也很难获得有关这些变量的数据。
这个问题也存在于机器学习中,在机器学习中,为学习过程识别和构造合适的训练集是很重要的。然而,正如发明人所认识到的,在很大程度上由于信息和数据的传统组织方式,如今获取可靠的训练数据是非常困难的。
在许多情况下,通过以特定的格式或结构表示数据,可以更有效地发现和访问数据。格式或结构可以包括数据记录中一个或多个列、行或字段的标签。识别和发现感兴趣的数据的传统方法通常是基于语义匹配词与数据集中(或指代或关于)的标签。虽然此方法对于发现和访问关于可能相关的主题(例如,目标或结果)的数据是有用的,但它不解决发现和访问关于引起、影响、预测或以其他方式与感兴趣的主题统计相关的主题(变量)的数据的问题。
本发明的系统、装置和方法的实施例旨在提出和解决用于单独和集体地组织、表示、查找、发现和访问数据的常规解决方案的这些和其他问题或缺点。
发明内容
本文中使用的术语“发明”、“所述发明”、“这项发明”和“本发明”意欲广泛地指代本文档中描述的所有主题和权利要求。包含这些术语的陈述应当理解为不限制本文所描述的主题或限制权利要求的含义或范围。本专利所涵盖的发明的实施例由权利要求书而不是本概要定义。该概要是对本发明的各个方面的高层次概述,并且介绍在下面的详细描述部分中进一步描述的一些概念。本概要并不旨在确定所要求保护的主题的关键、必需或基本特征,也不旨在孤立地用于确定所要求保护的主题的范围。应通过参考本专利的整个说明书的适当部分、任何或所有附图以及每项权利要求来理解主题。
本文描述用于组织、表示、查找、发现和访问数据的系统和相关方法的实施例。在一些实施例中,信息和数据以在本文中称为“特征图”(未决商标申请的主题;注意“系统”也是未决商标申请的主题)的新颖数据结构的形式表示。特征图是包含节点和边的图形或图表,其中边用于将节点“连接”到一个或多个其他节点。特征图中的节点可以表示变量,即可度量的量、对象、特性、特征或因素。特征图中的边可以表示节点与一个或多个其他节点之间的统计关联的度量。
统计关联通常(尽管在一些实施例中,并非排他地)来自于执行在调查的科学方法方式中发现的一个或多个步骤(通常描述为包括步骤或阶段,例如(1)进行观察,(2)进行猜想(假设),(3)从这些预测中得出逻辑结果,然后(4)根据这些预测进行实验,以确定最初的猜想是否正确。这种关联用数字和/或统计术语表示,可能从观察到的(或可能是轶事)关系,到度量到的相关性,再到因果关系。用于构造特征图的信息和数据可以从科学论文、实验、机器学习实验的结果、人工或机器观察、两个变量之间关联的轶事证据等中的一个或多个获得。
由于在特征图中表示的统计关联类型的范围很广,以及用于构造特征图的信息和/或数据的来源的范围很广,因此本文描述的系统和方法的实施例采用数学的、基于语言的和可视化的方法来表示质量、严谨性和可靠性,支持给定统计关联的信息和/或数据的可信度、再现性、可靠性和/或完整性。
在一个实施例中,本发明涉及一种计算机执行的方法,用于识别相关数据集以用于训练与感兴趣主题相关的模型。该实施例包括将由编程处理元件执行的一组指令(例如,软件模块或例程)。该方法包括访问一组源,这些源包括关于研究主题和研究中考虑的一个或多个变量之间的统计关联的信息。源中包含的信息用于构造包含节点和连接节点的边的数据结构或表示。边可以与关于两个节点之间的统计关联的信息相关联。一个或多个节点可以具有与其相关联的数据集,该数据集可以使用链接或其他形式的地址或访问元件来访问。实施例可包括允许用户描述和执行对数据结构的搜索以识别可能与训练机器学习模型相关的数据集的功能,其中该模型用于作出特定决策或分类。
其他实施例可以由包括节点、边和到数据集的链接的数据结构来表示。节点和边表示概念、感兴趣的主题或先前研究的主题。边表示关于节点之间的统计关联的信息。链接(或其他形式的地址或访问元件)提供对数据集的访问,这些数据集建立(或支持、证明等)作为研究一部分的一个或多个变量之间,或变量与概念或主题之间的统计关联。
其他实施例可以包括使用一个或多个使用本文描述的方法和数据结构识别的数据集来训练特定机器学习模型。然后可以使用经过训练的模型来做出决定或“预测”,或者对一组输入数据进行分类。训练好的模型可用于信号或图像处理、自适应控制系统、传感器系统等。
在阅读了本发明的详细描述和所包括的图之后,本发明的其他目的和优点对于本领域的普通技术人员来说将是显而易见的。
附图说明
将参考附图描述根据本发明的实施例,其中:
图1(a)是示出可用于实现本文所述系统和方法的实施例的架构的框图;
图1(b)是示出用户界面图标的屏幕截图,该截图可用于本文所述的系统和方法的实施例的实施方式中,以更容易地使用户能够控制搜索并识别要插入搜索查询的位置;
图1(c)是示出可用于标准或常规语义搜索的用户界面图标的图;
图1(d)是示出用户界面图标的图,该图可用于对与图1(c)所示相同的搜索输入进行统计搜索;
图2(a)是示出用于构建特征图(从中央数据库或“系统数据库”中包含的数据,其可以提供在多个特征图中使用的数据,并且是特征图的中心实例)的过程、方法、功能或操作的流程图(flow chart)或流程图(flow diagram)使用本文所描述的系统和方法的实施例的实施方式;
图2(b)是流程图(flow chart)或流程图(flow diagram),示出了示例用例的过程、方法、功能或操作,其中遍历特征图以识别潜在相关的数据集,并且可以在本文所描述的系统和方法的实施例中实施;
图3是示出特征图数据结构的一部分的示例的图,特征图数据结构可用于组织和访问数据和信息,并且可使用本文描述的系统和方法的实施例的实施方式来创建;
图4是示出可存在于配置为实现根据本发明实施例的方法、过程、功能或操作的计算机设备或系统中的元件或组件的图;以及
图5是示出可用于实现本文所述系统和方法的实施例的服务平台的示例系统架构的图。
注意,在整个公开和附图中使用相同的数字来引用类似的组件和特征。
具体实施方式
这里具体描述本发明实施例的主题以满足法定要求,但是该描述不一定旨在限制权利要求的范围。所要求保护的主题可以以其他方式体现,可以包括不同的元件或步骤,并且可以与其他现有的或未来的技术结合使用。此描述不应解释为暗示在各个步骤或元件之间或在各个步骤或元件之间的任何特定顺序或排列,除非明确描述了各个步骤或元件排列的顺序。
下文将参照附图更全面地描述本发明的实施例,附图构成了本发明的一部分,并且通过图示的方式示出了可以实施本发明的示例性实施例。然而,本发明可以以许多不同的形式体现,并且不应解释为限于本文阐述的实施例;相反,提供这些实施例使得本发明将满足法定要求并向本领域技术人员传达本发明的范围。
除其他外,本发明可以全部或部分地体现为系统、一个或多个方法或一个或多个装置。本发明的实施例可以采取硬件实现的实施例、软件实现的实施例或结合软件和硬件方面的实施例的形式。例如,在一些实施例中,本文描述的一个或多个操作、功能、过程或方法可以由作为客户端设备、服务器、网络元件的一部分的一个或多个合适的处理元件(例如处理器、微处理器、CPU、GPU、控制器等)来实现,或其他形式的计算或数据处理设备/平台。处理元件用一组可执行指令(例如,软件指令)编程,其中指令可以存储在适当的数据存储元件中。
在一些实施例中,本文所描述的操作、功能、过程或方法中的一个或多个可以由专用形式的硬件实现,例如可编程门阵列(PGA或FPGA)、专用集成电路(ASIC)等。注意,本发明方法的实施例可以以应用程序、作为较大应用程序的一部分的子程序、“插件”、数据处理系统或平台的功能的扩展、或其他合适的形式来实现。因此,下面的详细描述不具有限制意义。
如上所述,机器学习表示受益于使用所描述的系统和方法的实施例的一般情况。一个有用的机器学习模型可以生成输出,用户可以有足够的置信度将其作为决策的基础。为了建立一个成功的模型,需要识别和构建一个合适的数据集来训练模型所代表的学习过程。然而,正如发明人所认识到的,识别和访问训练数据(有时称为“源特征”)在很大程度上是非常困难的,因为信息和数据的组织方式是传统的。
此外,发明人也认识到,最相关、最准确和最有效的培训数据将是经验性(或其他可靠的)研究表明与使用模型做出的决策相关的数据。例如,如果数据集显示了一个或多个变量与结果之间的可证明的统计关联,那么可以根据该数据集来正确地训练用于确定该结果是否会发生的模型。类似地,如果在主题的研究中使用的数据集不支持足够的统计关联,不显示或者不考虑某些变量,那么它对于训练模型可能是无用的。
本文描述的系统和方法的实施例可以包括图形数据库的构造或创建。在本描述的上下文中,图是一组对象,如果这些对象具有某种密切或相关的关系,则它们是成对的。示例是表示节点并通过路径连接的两段数据。一个节点可以连接到许多节点,并且许多节点可以连接到特定节点。连接第一和第二节点或多个节点的路径或线称为“边”。边可以与一个或多个值相关联;这些值可以表示连接节点的特征、一个或多个节点之间关系的度量(metric)或度量(measure)(例如统计参数)等。图形格式可以使识别某些类型的关系变得更容易,例如那些对于一组变量或关系更为核心的关系,那些不太重要的关系等。图形通常有两种主要类型:“无向”和“有向”,“无向”是指图形所表示的关系是对称的,“有向”是指关系不是对称的(在有向图的情况下,可以用箭头而不是线来表示节点之间关系的方面)。
在一些实施例中,本文所描述的一个或多个操作、功能、过程或者方法可以全部或部分地由从结构化和非结构化源(连同证实或支持该关联的数据或数据集)检索关于变量之间不同程度的统计关联的信息的系统来实现,以及在数据结构中构造和存储检索到的信息,该数据结构可用于生成本文中所称的“特征图”。特征图表示研究主题、研究中检查的变量、变量与一个或多个变量之间和/或变量与主题之间的统计关联,以及包括对一组数据(称为数据集)或可度量的量的链接或其他形式的访问,这些数据或可度量的量为统计关联提供支持。这种联系也可以是或相反地是度量不同人群中变量的数据集(例如,18岁及以上的女性;日本)。
在一些实施例中,统计关联以数字和/或统计术语表示,并且可以在显著性上从观察到的关联到度量的关系到因果关系而变化。系统的一些实施例采用数学、基于语言和视觉的方法来表示支持给定统计或观察到的关联的信息和/或数据的质量、严谨性、可信赖性、再现性和/或完整性。
例如,给定的统计关联可以基于其科学的“质量”或可靠性(总体上和基于诸如“已由同行评审”的特定参数)与用户界面中的特定分数、标签和/或图标相关联,以便向用户指示是否进一步调查关联。在其他实施例中,可以基于特征图的科学质量分数过滤通过搜索特征图检索的统计关联。在某些实施例中,质量分数的计算可将存储在特征图内的数据(例如,给定关联的统计显著性或关联记录的程度)与存储在特征图外的数据(例如,检索到关联的期刊文章收到的引文数量,或该文章作者的h指数)结合。注意,特征图用于表示和访问统计上相关的数据或信息,因此与在常规知识图或语义搜索结果中使用的度量相比,这种质量度量对于本文描述的用例更为相关。
如前所述,使用传统方法的数据组织起来主要是基于语言进行搜索。例如,这种组织形式可能基于关于数据集的元数据(例如,作者姓名)、数据集中的列、行或字段的标签,或者用户的搜索输入和那些数据标签之间的语义关系(例如等价性、足够的相似性、作为公共同义词等)。后一种方法是“知识图”的核心前提,它表示与主题相关的事实以及它们之间的语义关系。例如,苹果是“一种”在纽约“生产的”水果。利用知识图,搜索“苹果”上的数据集,理论上可以检索到其他水果(例如桔子)或纽约生产的其他水果(例如南瓜)的数据集。公共领域和公司中的数据主要基于标签或术语之间的语言和语义关系进行组织。
作为基于知识图的搜索示例,假设加利福尼亚州司法部生成的两个数据集包含2017年加利福尼亚州犯罪的数据,其中一个数据集包含有关故意破坏的数据,另一个包含有关盗窃的数据。基于知识图的传统数据(或机器学习术语中的“特征”)搜索或管理平台将检索两个数据集,以响应搜索术语“加利福尼亚”、“加利福尼亚州司法部”和/或“2017”中的一个或多个。此外,采用知识图的数据/特征搜索或管理平台可能通过搜索“破坏”或“盗窃”来检索这两个数据集,因为这两个术语预期在语义上与知识图中的“犯罪”的共同类别或标签相关。
因此,使用传统方法可以基于数据集中或关于数据集的语言(即,“匹配”标签或元数据的搜索词)来查找数据集,以及基于数据集和搜索词中的词之间的语义关系(例如通过引用其他词在语义上关联或链接的一般类别或标签)来查找数据集。因此,如果数据科学家知道要搜索的主题(或变量),至少在理论上,她可以找到潜在的相关数据(尽管这取决于知识图中语义关联的假设完整性)。
然而,知识图结构或组织和查找数据的方法不适合于某些应用,如预测建模和机器学习。这是因为在典型的预测分析或机器学习任务中,数据科学家或研究人员知道自己的主题或目标(即研究的最终目标、结果或对象),但不知道哪些数据(如因素、变量或特征)最有助于预测其或其价值(例如,存在或不存在某种情况)。因此,数据科学家不知道要搜索什么主题或影响因素(即那些可能与研究对象相关或最有可能预测研究对象的主题或因素)。这种情况使得使用传统的数据管理平台或知识图方法来识别和访问相关数据既低效又可能不可靠。事实上,人们普遍认识到,目前实现机器学习最具挑战性的部分之一是为机器学习模型寻找合适的训练数据。
组织数据的传统方法及其一些缺点如下表所示:
图1是示出可用于实现本文所述系统和方法的实施例的架构100的框图。示例体系结构的简要说明如下:
架构
●在一些实施例中,图1所示的架构元件或组件可以基于其功能和/或基于如何提供对元件或组件的访问来区分。在功能上,系统的架构100区分:
○信息/数据访问和检索(如应用程序112添加/编辑118和开放科学103所示)–这些是提供数据、变量、主题、概念和作为生成特征图或类似数据结构的基础的统计信息的实验、研究、机器学习模型等信息和描述的来源;
○数据库(如系统数据库(SystemDB)108所示)–电子数据存储介质或元件,并利用适当的数据结构或模式和数据检索协议/方法;以及
○应用程序(图示为应用程序112和网站116)–响应于从公众用户(公众102)、客户104和/或管理员106接收的指令或命令来执行这些应用程序。应用程序可以执行一个或多个有用的操作或功能,例如:
■搜索系统数据库108或特征图110并检索与用户查询相关的变量、数据集和其他信息;
■识别特征图的特定节点或关系;
■向系统数据库108写入数据,使得公众102或拥有或控制对数据的访问的客户或企业104之外的其他人可以访问数据(注意,在这个意义上,客户104用作信息/数据检索架构/源的元件);
■从指定的数据集生成特征图;
■根据复杂性、统计显著性的相对程度等的一个或多个度量(metrics)或度量(measures)来表征特定特征图等;和/或
■获取用于训练机器学习模型的数据集的建议。
●从访问系统及其功能的角度来看,系统的体系结构区分了公众102可访问的元件或组件、已定义的客户、企业、组织或一组企业或组织(例如社会部门中的行业联盟或“数据协作”)104可访问的元件或组件,以及系统106的管理员可访问的元件或组件;
●关于或证明主题、因素或变量之间的统计关联的信息/数据可以从许多来源检索(即,访问和获得)。这些可能包括(但不限于)期刊文章、技术和科学出版物和数据库、用于研究和数据科学的数字“笔记本”、实验平台(例如A/B测试)、数据科学和机器学习平台,和/或公共网站(元件/网站116),其中用户可以输入观察到的变量和主题、概念或目标之间的观察到的统计(或轶事)关系;
○例如,使用自然语言处理(NLP)、自然语言理解(NLU)和/或计算机视觉来处理图像(如输入/源处理元件120所示),信息/数据检索架构的组件可以扫描(例如通过使用光学字符识别(OCR)),或“阅读”已发表或以其他方式可访问的科学期刊文章,并识别表明已度量统计关联的单词和/或图像(例如,通过识别术语“增加”或其他相关术语或描述),并作出响应,检索有关关联和度量(例如,提供支持)关联的数据集的信息/数据(如图中标记为“开放科学”103的元件和图2(a)的步骤或阶段202所示);
○信息/数据检索体系结构(未示出)的其他组件可以向用户提供一种方法,将代码输入到他们的数字“笔记本”(例如Jupyter笔记本)中,以检索机器学习实验的元数据输出(例如,是对给定模型中所用特征的“特征重要性”度量)以及实验中所用数据集的信息;
○注意,在一些实施例中,信息/数据检索通常定期或连续地进行,向系统提供新的信息以存储和构造,从而向用户公开;
●在一些实施例中,算法/模型类型(例如,逻辑回归)、模型参数、数值(例如,0.725)、单位(例如,对数损失)、统计特性(例如,p值=0.03)、特征重要性、特征等级、模型性能(例如,AUC分数),以及关于关联的其他统计值被识别并存储为检索;
○考虑到研究人员和数据科学家可能使用不同的词来描述相同或非常相似的概念,变量名(例如,“有氧运动”)存储为检索的名称,然后可以在语义上基于(即,链接或关联)公共领域本体(例如,维基数据(Wikidata))以促进基于共同的或典型的同义的或密切相关的术语和概念的变量聚类(以及相关的统计关联);
■例如,给定用户标记为“对数_房子_出售_价格”的变量可能在语义上由系统(并由用户进一步确认)与“房地产价格”相关联,这是维基数据中具有唯一ID的主题Q58081362;
●如本文所述,中央数据库(“系统数据库”108)存储已检索的信息/数据及其相关联的数据结构(即,节点、边、值)。包含存储在系统数据库中的信息/数据的全部或子集的中央数据库的实例或投影可供所定义的客户、企业或组织104(或其组)供其自身使用(例如,以“特征图”110的形式);
○由于对特定特征图的访问可限于与给定企业或组织相关联的某些个人,因此可使用该特征图来表示关于变量和统计关联的信息/数据,这些变量和统计关联可认为是给定企业或组织104的私有或专有的(例如就业数据、财务数据、产品开发数据、研发(R&D)数据等);
○每个客户/用户都有自己的特征图形式的系统数据库实例。所有特征图同时从系统数据库中读取数据,在大多数情况下是频繁的,以确保特征图的用户拥有存储在系统数据库中的最新知识;
●可以在特征图110之上开发(“构建”)应用程序112;有些应用程序可能从中读取数据,有些应用程序可能向其中写入数据,有些应用程序可能两者兼有。应用的示例是用于数据集的推荐器系统(在本文中称为“数据推荐器(Data Recommender)”),其将更详细地描述。如果他们希望与他们组织之外的更广泛的用户组或公众共享某些信息/数据,使用特征图110的客户104可以使用适当的应用程序112将信息/数据“写入”到系统数据库108;
○应用程序112可与客户的104数据平台和/或机器学习(ML)平台114集成。数据平台的示例是Google云存储。ML(或数据科学)平台可以包括Jupyter笔记本等软件;
■例如,这样的数据平台集成将允许用户访问由客户的数据存储或其他数据存储库中的数据推荐器应用程序推荐的功能。作为另一个示例,例如,数据科学/ML平台集成将允许用户从笔记本内查询特征图;
○注意,除了或代替与客户的数据平台和/或机器学习(ML)平台的这种集成之外,管理员可以使用合适的服务平台架构(例如软件即服务(SaaS)或类似的多租户架构)向客户提供对应用程序的访问。本文参考图5来描述这种架构的主要元件或特征的进一步描述。
●在一些实施例中,基于web的应用程序可由公众102访问。在网站(例如“System.com”116)上,用户可以以类似于维基百科(Wikipedia)等网站的方式从系统数据库108读取和写入(如图中的添加/编辑功能118所建议的那样);以及
●在一些实施例中,可以以类似于维基百科等网站的方式,向公众免费提供存储在系统数据库108中并在System.com 116上公开的数据。
图1(b)是示出用户界面图标150(也在图1(d)中示出)的屏幕截图,其可用于本文所述系统和方法的实施例的实现中,以区分统计搜索(发明人对本文所述搜索类型给出的名称或标签),更容易地使用户能够触发和控制统计搜索,并且识别要在其中插入统计搜索查询160的位置(概述的查询输入“框”)。
注意,与搜索栏加放大镜图标(例如,Google和其他流行的搜索引擎使用该图标来直观地表示其提供的搜索深度)相比(如图1(c)中所示),实施例可以替代地使用包括两个节点和连接节点的一个边的“微图”150,向用户发出信号,表明统计搜索是在比标准语义搜索更广泛的意义上实现的(即,寻找统计关联),并让用户控制搜索的各个方面。通过选择源节点151、目标节点152或这两个节点,用户可以指定其关于特征图的遍历的意图。例如:
●通过选择节点151中的较低者,用户可以指定她对知道搜索输入与什么相关、它预测什么以及它引起什么的兴趣;
●通过选择节点152中的较高者,用户可以指定她对知道什么预测或导致搜索输入的兴趣;或
●通过选择节点151和152两者,用户可以指定她对知道多于一个搜索输入如何相关的兴趣。
在操作中,用户对用户界面元件中的一个或两个节点的选择过滤统计搜索结果,以查找搜索输入上游(输入为目标)、搜索输入下游(输入为源)或链接两个输入的路径(和相关变量)。
如图1(b)的描述和本申请中的其他信息所示,标准语义搜索和如本文所述的“统计搜索”之间存在根本的区别。执行和呈现统计搜索结果的能力是本文所述系统和方法的优点和优点之一,其使得用户能够检索与其输入统计相关联的一个或多个变量。这样的搜索过程只有在特征图数据结构中才可能实现。
●采用语义关系的传统搜索将具有以下特征:
输入:变量或概念
输出:与输入匹配或语义相关的所有节点,可按用户指定的类型(如数据集)进行过滤。
示例:
输入=吸烟者
输出=吸烟、吸烟者、香烟等。
搜索栏或用户输入如图1(c)所示。
●相比之下,由本文描述的系统和方法的实施例实现的统计搜索具有以下特征:
输入:变量或概念
输出:变量和/或与输入统计相关的概念,可按用户指定的类型(如数据集)过滤。
示例:
输入=吸烟者
输出=高血压、每周收入、性别为男性等。
搜索栏或用户输入如图1(d)所示。
此外,输出结果的排序可以考虑关联的价值和质量。
图2(a)是示出用于使用本文所述系统和方法的实施例的实现来构造特征图200的过程、方法、功能或操作的流程图(flow chart)或流程图(flow diagram)。图2(b)是流程图(flow chart)或流程图(flow diagram),其示出了示例用例的过程、方法、功能或操作,其中特征图被遍历以识别潜在相关的数据集220,并且可以在本文所描述的系统和方法的实施例中实现。
如图(具体地说,图2(a))所示,通过识别和访问一组源来构造或创建特征图,所述源包含关于研究中使用的变量或因素之间的统计关联的信息和数据(如步骤或阶段202所建议)。可以定期或连续地检索这类信息,以提供关于变量、统计关联和用于支持这些关联的数据的信息(如204所建议的)。如前所述,对这些信息和数据进行处理,以识别这些源中使用或描述的变量,以及这些变量中的一个或多个与一个或多个其他变量之间的统计关联。
继续图2(a),在202处访问数据/信息源。所访问的数据/信息被处理以识别在一个或多个源204中发现的变量和统计关联。如上所述,这种处理可以包括图像处理(例如OCR)、自然语言处理(NLP)、自然语言理解(NLU)或其他形式的分析,这些分析有助于理解期刊论文、研究笔记本、实验日志或研究的其他记录的内容。
进一步的处理可包括将某些变量链接到本体(例如,国际疾病分类)或其他数据集,该数据集提供与用于变量的那些术语的语义等价或语义相似的术语(如步骤或阶段206所建议)。这有助于将特定研究中使用的变量名扩展到其他研究中可能使用的一组更大的实质上等效或相似的实体或概念。一旦识别,变量(如所指出的,可以通过不同的名称或标签来得知)和统计关联存储在数据库(208)中,例如图1的系统数据库108。然后根据特定数据模型(如步骤或阶段210所建议的)来构造或表示处理所访问的信息和数据的结果;本文将更详细地描述该模型,但其通常包括用于构造特征图的元件(即,表示主题或变量的节点、表示统计关联的边、包括统计关联的度量或评估的度量)。然后将数据模型存储在数据库(212)中;可以访问它来为特定用户或一组用户构造或创建特征图。
如前所述,参考图2(a)描述的过程或操作使得能够构建包含节点和连接某些节点的边的图(图3中示出了其示例)。节点表示研究或观察的主题、目标或变量,边表示节点与一个或多个其他节点之间的统计关联。每个统计关联可以与一个或多个数值、模型类型或算法以及描述由边连接的节点(变量、因素或主题)之间的统计关联的强度、置信度或可靠性的统计特性相关联。注意,与边相关联的数值、模型类型或算法以及统计特性可指示相关性、预测关系、因果关系、轶事观察等。
一旦信息和数据被访问和处理以存储在数据库中(例如系统数据库(其可能包含未处理的数据和信息)、已处理的数据和信息以及以数据模型的形式存储的数据和信息),就可以构建包含一组指定变量、主题、目标或者因素的特征图。特定用户的特征图可以包括系统数据库或其子集中的所有数据和信息。例如,特定客户104的特征图(图1中的110)可以基于从系统数据库110中选择满足诸如系统数据库中给定域(例如公众健康)对客户关注域(例如媒体)的适用性等条件的数据和信息来构建;
●请注意,在为特定客户或用户部署/生成/构造特征图时,可以过滤系统数据库中的数据,以便通过删除与正在调查的问题或概念/主题无关的数据来提高性能。
下表总结了特征图和知识图之间的某些差异:
在为特定用户或一组用户构造特征图之后,可遍历该图以识别对研究、模型或调查的主题或目标感兴趣的变量,并且如果需要,检索支持或确认这些变量的相关性或度量感兴趣的变量的数据集。请注意,遍历特征图的过程可以通过以下两种方法之一进行控制:(a)搜索参数的显式用户调整或(b)变量/数据检索参数的基于算法的调整。例如,在本申请题为“本发明方法将具有价值的其它用例或环境”的部分中描述的用例中,通常将利用用户调谐,而在其中使用数据推荐器应用程序的用例中,通常将利用算法调谐。
例如,如图2(b)所示,可以遍历构造或创建的特征图(222),以识别对特定调查、主题、研究或分析具有潜在价值的数据集。在图中所示的示例过程中,用户可以输入要用作定义搜索查询的一部分的因素(步骤或阶段224)。这些因素可能包括目标/主题、变量或感兴趣的因素(例如,“住房价格”)和正在构建的模型的参数(例如,可与关键的“人口普查区”合并并且以人口“芝加哥,2017年”度量)。然后,数据推荐器应用程序(如图1中的112)遍历特征图以识别预期与模型训练相关且有用的数据集(步骤或阶段226)。然后,在呈现给用户之前(步骤或阶段230),可以对所识别的数据集进行排序、过滤或以其他方式排序(步骤或阶段228,将更详细地描述)。
图3是示出特征图数据结构300的一部分的示例的图,特征图数据结构300可以用于组织和访问数据和信息,并且可以使用本文描述的系统和方法的实施例的实现来创建。下面提供对特征图300的元件或组件以及实现的关联数据模型的描述。
特征图
●如前所述,特征图是一种构造、表示和存储主题及其相关变量、因素、类别等之间统计关联的方法。特征图的核心元件或组件(即“构建块”)是变量(在图3中标识为V1、V2等)和统计关联(标识为变量之间的连接线或边)。变量可以与“概念”(在图中标识为C1)相联系或关联,这是本身不一定可度量的语义概念或主题(例如,变量“抢劫次数”可以与概念“犯罪”相联系)。变量是可度量的经验对象或因素。在统计学中,关联定义为“两个随机变量之间的任何统计关系,无论因果关系与否。”统计关联是由所谓科学方法的一个或多个步骤或阶段产生的,例如,可以描述为弱的、强的、可观察的、可度量的、相关的、因果的、预测的等;
○作为示例,参考图3,输入变量V1的统计搜索检索:(i)与V1(例如V6、V2)统计相关联的变量(在一些实施例中,仅当统计相关值高于定义的阈值时才可检索变量),(ii)与那些变量(例如V5、V3、V4)统计相关联的变量(在一些实施例中,只有当统计关联值高于定义的阈值时,才可以检索变量),(iii)通过公共概念(例如,C1)语义上与一个或多个变量(例如,V2)相关的变量,这些变量在统计上与输入变量V1(例如,V7)相关,(iv)与这些变量(例如,V8)相关的变量;以及度量相关变量或证明检索到的变量的统计关联的数据集(例如,D6、D2、D5、D3、D4、D7、D8);
■请注意,相比之下,对输入变量V1的语义搜索仅检索:(1)变量V1,以及(2)度量该变量的数据集(例如,D1);
●特征图填充了从(例如)期刊文章、科学和技术数据库、用于研究和数据科学的数字“笔记本”、实验日志、数据科学和机器学习平台检索到的有关统计关联的信息/数据,公共网站,用户可以输入观察到的或感知到的统计关联和其他可能的来源;
○如前所述,使用自然语言处理(NLP)、自然语言理解(NLU)和/或图像处理(OCR、视觉识别)技术,信息/数据检索体系结构的组件可以扫描或“读取”已发表的科学期刊文章,识别表明统计关联已度量的单词或图像(例如,“增加”),并检索关于关联和关于度量/确认关联的数据集的信息/数据;
○信息/数据检索体系结构的其他组件为数据科学家和研究人员提供了一种将代码输入其数字“笔记本”(例如Jupyter笔记本)的方法,以检索机器学习实验的元数据输出(例如,在给定模型中使用的特征的“特征重要性”度量)和有关实验中使用的数据集的信息。请注意,信息/数据检索是定期进行的,在某些情况下,是连续进行的,为系统提供新的信息来存储、构建和向用户公开;
●在一个实施例中,数据集与具有到相关数据集/桶/管道的URI的链接的特征图中的变量相关联(例如,UCI普查收入数据集位于https://archive.ics.uci.edu/ml/ machine-learning-databases/adult/_)或其他形式的访问或地址;
○这允许特征图的用户基于先前证明的或确定的关于指定目标/主题的数据的预测能力来检索数据集(而不是关于在语义上与指定目标/主题相关的主题的潜在不太相关或不相关的数据集,如在知识图中);
○例如,使用本文描述的系统和方法的实施例,如果数据科学家搜索“破坏行为”作为研究的目标主题或目标,则他们将检索已显示用于预测该目标/主题的主题的数据集-例如,“家庭收入”、“亮度”和“交通密度”(以及与目标相关的统计证据)-而不是度量破坏事件的数据集;
●关联的数值(例如0.725)和统计特性(例如p值=0.03)在检索时存储在系统数据库(或构造的特征图)中。如前所述,鉴于研究人员和数据科学家可能会使用不同的词语来描述同一概念,变量名称(例如,“有氧运动”)存储为检索的名称,并在语义上基于公共领域本体(例如,维基数据)以促进基于共同或相似概念(如同义词)的变量聚类(和统计关联);
●该系统采用数学、语言和视觉方法来表达所记录证据的认识论属性,例如支持给定统计关联的信息和/或数据的质量、严谨性、可信度、再现性和完整性;
○例如,给定的统计关联可以基于其科学质量(总体上和关于诸如“已同行评审”之类的特定参数)在用户界面中携带特定分数、标签和/或图标,以便向用户一目了然地指示是否进一步调查关联。在一些实施例中,通过搜索特征图检索的统计关联基于其科学质量分数进行过滤。在某些实施例中,质量分数的计算可将存储在特征图内的数据(例如,给定关联的统计显著性或关联记录的程度)与存储在特征图外的数据(例如,检索到协会的期刊文章收到的引文数量,或该文章作者的h指数)结合;
○例如,在具有高曲线下面积(AUC)分数的模型中度量的具有高且显著的“特征重要性”分数的统计关联,具有部分依赖图(PDP),为再现性而记录的信息可能认为是特征图中的“强”统计关联,并在图形用户界面中给出识别颜色或图标;
○注意,除了检索变量和统计关联之外,实施例还可以检索在实验中使用的其他变量,以将用户的统计关联上下文化(contextualize)。例如,如果用户想知道在实验中是否控制了某些变量,或者模型中包含了哪些其他变量(或特征),那么这可能会很有帮助。
数据模型
特征图(或系统数据库)中的主要对象通常包括以下一个或多个对象:
●变量(或特征)--你在度量什么,在什么样的人群中?
●概念--你正在学习的主题或概念是什么?
●邻里关系--你度量的对象是什么?
●统计关联--这种关系的数学基础和价值是什么?
●模型(或实验)--度量的来源是什么?
●数据集--用于度量关系(例如,训练集)或度量变量的数据集是什么?
这些对象在特征图中的关联如下(如图3所示):
●变量通过统计关联与其他变量相联系;
●统计关联来自模型,并由数据集支持;以及
●变量与概念相联系,概念与邻域相联系。
例如,变量“7-12等级的皮肤问题”可以在特征图(以及系统数据库,中央数据库)中链接到基于线性概率模型的变量“个人收入”,关联值为0.126,标准误差为0.047,显著性水平为0.1,在1994-1995年度量的第一个变量和2007-2008年度量的第二个变量的美国女性样本中,由Miaion、Hugo M.和Nesson,Erik管理,发表在DOI:10.2139/ssrn.2964045(DoPimples Pay?Acne,Human Capital,and the Labor Market),并证实了数据集位于https://www.cpc.unc.edu/projects/addhealth/documentation/publicdata。变量“7-12等级的皮肤问题”还可以在语义上与概念“寻常痤疮”相联系,变量“个人收入”可以在语义上与概念“个人收入”相联系,这两个概念的名称都来源于本体(例如维基数据)。
参考图2(b)和图3,如前所述,特征图的一种用途是使用户能够在特征图中搜索一个或多个数据集,这些数据集包含已显示为与研究的目标主题、变量或概念统计相关联的变量。例如:
●用户输入目标变量,并希望检索可用于训练模型以预测该目标变量的所有数据集,即那些链接到与目标变量统计相关联的变量的数据集(如图2(b)中的224所示);
○例如,参考图3,统计搜索输入V1导致算法(例如,广度优先搜索(BFS))遍历图并返回:(i)与V1(例如V6、V2)统计相关联的变量(在一些实施例中,仅当统计相关值高于定义的阈值时才可检索变量),(ii)与那些变量(例如V5、V3、V4)统计相关联的变量(在一些实施例中,只有当统计关联值高于定义的阈值时,才可以检索变量),(iii)通过公共概念(例如,C1)语义上与一个或多个变量(例如,V2)相关的变量,这些变量在统计上与输入变量V1(例如,V7)相关,(iv)与这些变量(例如,V8)相关的变量;以及度量或证明检索到的变量的统计显著性的数据集(例如,D6、D2、D5、D3、D4、D7、D8);
●在遍历特征图并检索潜在相关数据集后,这些数据集可能会根据应用程序或用例进行“过滤”、排名或以其他方式排序:
○通过上述遍历过程检索到的数据集随后可以基于用户在搜索时输入的准则和/或软件实例的管理员输入的准则进行过滤。示例搜索数据集过滤器可能包括一个或多个:
■群体和关键:关注变量是否以用户感兴趣的群体和关键点来衡量(例如,用户、物种、城市、公司等的唯一标识符)?这会影响用户将数据加入机器学习训练集的能力;
■合规性:数据集是否符合适用的监管考虑(如GDPR合规性)?
■可解释性(Interpretability)/可解释性(Explainability):人类能解释这个变量吗?
■可采取行动:模型的用户是否可以对变量进行操作?
在一个实施例中,用户可以输入诸如“犯罪”、“财富”、“高血压”等概念(图3中由C1表示)。作为响应,本文描述的系统和方法可以通过使用语义和/或统计搜索技术的组合来识别以下内容:
●语义上与C1相关联的概念(C2)(注意,该步骤可以是可选的);
●与C1和/或C2语义相关的变量(Vx);
●与每个变量Vx统计相关的变量;
●度量或已识别的统计关联的度量;以及
●度量每个变量Vx和/或证明或支持与每个变量Vx统计相关的变量的统计关联的数据集。
在本文描述的系统和方法的一些实施例中,多个边(统计关联)将链接给定的一对节点(变量、因素或概念),指示关于给定的节点对之间的统计关联的多个证据。考虑到系统可从中检索信息的来源的广度以及科学和技术的发展性质,也可以想象这组边将包含或表示一系列关联值(和/或关系)。
●在这种情况下,系统将“阅读”数据库中的相关信息,并生成代表信息统计和认识论摘要的额外边(称为“摘要关联”)(例如,价值的分配、对关联性质和力量的共识程度、已度量关联的人口等)。请注意,应用程序可以检索摘要关联边,例如,为用户提供给定感兴趣领域的“鸟瞰视图”,并回答有关特定统计关联集的共识、特定统计关联集如何随时间变化以及在哪些人群中研究过或没有研究过什么的问题。
数据集推荐
在一些实施例中,数据推荐器应用程序可用于利用特征图的好处。在典型的用例中,用户(数据科学家)输入所需的目标或主题(“目标”)和模型目的,数据推荐器检索“最佳”数据集供她用于训练模型。在一个实施例中,数据推荐器算法/过程遍历特征图,基于存储在特征图中的统计信息和元数据排列最具预测性的关系,基于某些数据可用性因素(例如,数据联接所需的键)和/或基于模型的指定用途(例如,模型需要可说明/可解释的特性,或者模型不能使用受保护的类信息等),然后将一个或多个数据集(以及没有可用或可用数据集的变量)返回给用户。
与用户控制检索变量和数据集的关键参数(例如,最小关联强度或元数据质量)的特征图的统计搜索不同,数据推荐器应用程序可以为用户执行参数调整工作,并返回预期与用户具有最高相关性的变量和数据集。为了产生数据集建议,应用程序可考虑许多特征或信号,例如包括:
●目标跳数:变量和目标之间直接关联的证据比变量和与目标直接关联的另一变量之间间接关联的证据更重要;
●语义关联:通过遍历概念检索到的变量应该在语义上与该概念相关。强关联的权重要高于弱关联;
●因果关系:通过与目标的因果关系关联的变量比通过非因果关系关联的变量具有更大的权重;
●模型精度:通过更精确的模型关联的变量比通过更不精确的模型关联的变量具有更大的权重;和/或
●特征重要性:在关联来源的模型中,特征重要性相对较高和/或显著的变量比特征重要性较低和/或不显著的变量具有更大的权重。
本发明系统和过程实施例的其他潜在用途
发明人设想用户进一步利用系统数据库为互联网上内容的读者和观众提供上下文。例如,新闻网站可以将文章中引用的概念或变量链接到系统数据库中的关联对象,并检索(通过API)可以嵌入到新闻文章中的图,从而为读者提供关于文章中引用的概念或变量的已知统计关联的上下文。
发明人还设想用户利用组织中的特征图来促进数据科学家之间关于各种ML(机器学习)模型和特征的性能的知识共享和协作。发明人还设想用户利用组织中的特征图来记录ML实验和模型。
发明人还设想用户利用组织中的特征图来维护数据科学所需的变量术语(或标签)、主题术语、概念术语、关键术语和其他概念的中心词典。例如,当用户创建新变量时,该字典将被特征图引用,以鼓励通用实体/对象的通用命名。
发明人还设想用户利用组织中的特征图来鼓励非技术员工分享他们对影响他们系统的统计关联的观察和假设。例如,管理者可能有轶事证据表明,公司外部的变量会影响其供应链中某一商品的价格,并将观察结果作为“未经验证”的统计关联提交给特征图以供公司的数据科学家研究。
发明人还设想用户在大型政府和非政府组织中进一步利用特征图来告知他们如何组织团队和资源,并进行战略规划。例如,通过引用其特征图,组织可以识别关键企业变量或度量之间的某些关系,并协调团队或项目以更系统的方式改进该度量。
发明人还设想用户利用系统数据库来理解、建模和可视化作为复杂系统的世界或世界的一部分。例如,通过数据可视化应用程序、虚拟现实或增强现实应用程序或沉浸式安装,一般用户可以在系统数据库的特定邻域中浏览复杂的相互依赖关系。或者,例如,通过利用给定领域中的大量统计关联,技术用户可以研究和建模特定系统的动态,并在不同人群中比较这些动态。
发明人还设想用户利用系统数据库或特征图对给定的子图执行网络科学并进行链接预测。例如,可以创建应用程序,允许技术用户选择特定形式的统计关联,生成包含特定领域中这些关联的子图,然后度量网络科学属性,如中心性(例如,了解公共卫生系统中变量的中心性)。另一个示例是,用户可以利用特征图中关于链接到给定节点的边的信息和数据来预测类似节点的边:
●在这个用例中,用户可以利用特征图中包含的关于给定人群中的变量A和其他变量之间的关联的知识来预测与变量A实质相似的特定变量B之间的关联(其中这种实质性可以由关于所讨论的变量的性质的先验知识来确定,例如分子的形状及其对身体影响的相关性)。
发明人还设想用户利用系统数据库或特征图来推断因果关系,其中关键挑战是识别潜在的混淆因素。发明人认为,通过集体智慧,大规模因果推理的技术过程将得到显著改进,具体而言,通过利用系统数据库中包含的前所未有的数量、丰富性和多样性的关联,这些关联来源于在不同的人群中的各种各样的实验和研究,以及由不同的用户贡献。
发明人还设想用户利用系统数据库和特征图来模拟特定事件、决策和操作的可能后果。例如,应用程序可以构建在系统数据库之上,允许用户为一组变量定义一组特定的条件,并模拟对其他变量的可能影响。
发明人还设想用户利用系统数据库和特征图来指导投资决策。例如,用户可以使用系统数据库来考虑特定金融事件(例如,给定商品的价格变化)的意外后果,以对冲投资。
发明人还设想用户利用系统数据库和特征图作为人工通用智能(AGI)的训练数据。例如,系统数据库可用于培训AIs了解世界上已知的统计关联。
图4是示出可存在于配置为实现根据本发明实施例的方法、过程、功能或操作的计算机设备或系统中的元件或组件的图。如前所述,在一些实施例中,本发明的系统和方法可以以包括处理元件和一组可执行指令的装置、系统或设备的形式来实现。可执行指令可以是软件应用程序的一部分并安排成软件架构。
一般而言,本发明的实施例可以使用一组软件指令来实现,这些指令设计成由适当编程的处理元件(例如CPU、微处理器、处理器、GPU、控制器、计算设备等)执行。在复杂的应用程序或系统中,这样的指令通常安排成“模块”,每个这样的模块通常执行特定的任务、过程、功能或操作。整个模块集的操作可以由操作系统(OS)或其他形式的组织平台来控制或协调。每个应用模块或子模块可对应于由该模块或子模块实现的特定功能、方法、过程或操作。该功能、方法、过程或操作可包括用于实现或表示本发明系统和方法的一个或多个方面的功能、方法或操作(包括但不限于参考图1(a)、1(b)、1(c)、1(d)、2(a)、2(b)和3所述的方面)。
例如,应用模块或子模块可包含软件指令,其在执行时导致系统或装置执行以下操作或功能中的一个或多个:
●生成用户界面以使用户能够输入用于发起统计搜索和/或语义搜索的搜索词或概念C1(例如,感兴趣的主题或与主题相关的变量),和/或用于搜索的一个或多个控件;
○注意,参考图1(b)、1(c)和1(d)描述这样的用户界面的示例;
●确定在语义上与C1相关联的概念(C2)(这可以是可选特征并且基于对合适的本体或引用的访问);
●通过在特征图上执行搜索来确定与C1和/或C2语义相关联的变量(Vx);
●通过在特征图上执行搜索来确定统计上与每个变量Vx相关联的变量;
●确定识别的统计关联的一个或多个度量;
●识别度量每个变量Vx和/或证明或支持与每个变量Vx统计相关的变量的统计关联的数据集;以及
●向用户呈现所识别数据集的排名或列表,该排名或列表受一个或多个用户指定标准的过滤(如果需要)。
应用模块和/或子模块可包括任何适当的计算机可执行代码或指令集(例如,将由适当编程的处理器、微处理器、GPU或CPU执行),例如对应于编程语言的计算机可执行代码。例如,编程语言源代码可以编译成计算机可执行代码。可选地,或附加地,编程语言可以是诸如脚本语言的解释编程语言。
如上所述,用于实现本发明实施例的系统、装置、方法、过程、功能和/或操作可以全部或部分地以由一个或多个编程的计算机处理器(例如中央处理单元(CPU)、GPU或微处理器)执行的一组指令的形式来实现。此类处理器可并入由系统的其它组件操作或与系统的其它组件通信的装置、服务器、客户端或其它计算或数据处理设备中。
作为示例,图4是示出可存在于配置为实现根据本发明实施例的方法、过程、功能或操作的计算机设备或系统400中的元件或组件的图。图4所示的子系统通过系统总线402互连。附加子系统包括打印机404、键盘406、固定磁盘408和监视器410,监视器410耦合到显示适配器412。耦合到I/O控制器414的外围设备和输入/输出(I/O)设备可以通过本领域已知的任何数量的手段(例如串行端口416)连接到计算机系统。例如,可以利用串行端口416或外部接口418将计算机设备400连接到图4中未示出的其他设备和/或系统,这些设备和/或系统包括广域网,例如因特网、鼠标输入设备和/或文档扫描仪。经由系统总线402的互连允许一个或多个电子处理器420与每个子系统通信,并控制可存储在系统存储器422和/或固定磁盘408中的指令的执行,以及子系统之间的信息交换。系统存储器422和/或固定磁盘408可以包含有形的计算机可读介质。
如上所述,参照图1至3描述的方法、过程、功能或操作可作为一个或多个用户或一组用户的服务来实现。在一些实施例中,可以通过使用服务平台来提供该服务,该服务平台可操作为多个客户提供服务,其中每个客户具有单独的账户。这样的平台可以具有类似于多租户平台或系统的架构,其可以称为SaaS(software-as-a-Service,软件即服务)平台。参考图5描述了这样一个平台的示例架构。
图5是示出可用于实现本文所描述的系统和方法的实施例的服务平台的示例系统架构500的图。在一些实施例中,提供对一个或多个数据、应用程序和数据处理能力的访问的服务平台(多租户或其他“基于云的”系统)包括网站(例如,ServicePlatform.com)、API(Restful web service)和其他支持服务;网站操作遵循标准MVC(model-view-controller,模型-视图-控制器)体系结构:
●模型-模型对象是应用程序中实现应用程序数据域逻辑的部分。通常,模型对象在数据库中检索和存储模型状态。例如,Bill对象可能从数据库中检索信息,对其进行操作,然后将更新的信息写回SQL_服务数据库中的Bills表;
●视图-视图是显示应用程序用户界面(UI)的组件。通常,此UI是从模型数据创建的。例如,Bills表的编辑视图根据Bill对象的当前状态显示文本框、下拉列表和复选框;以及
●控制器-控制器是处理用户交互、处理模型并最终选择要呈现的视图(显示UI)的组件。在MVC应用程序中,视图只显示信息;控制器处理并响应用户输入和交互。例如,控制器处理查询字符串值,并将这些值传递给模型,模型又可以使用这些值来查询数据库。
在一个实施例中,Serviceplatform.com网站(元件、组件或过程502)提供对数据、数据存储、应用和数据处理能力中的一个或多个的访问。应用或数据处理能力或功能可以包括但不一定限于参考图1至3描述的一个或多个数据处理操作。网站架构基于标准MVC架构,其控制器利用API web服务(元件、组件或过程504)间接地与服务过程和资源(例如模型或数据)交互。API web服务由web服务模块(元件、组件或过程508)和一个或多个执行本文公开的过程或功能的实施例的web服务模块(元件、组件或过程510)组成,所述过程或功能是特征图构造和搜索(或其他应用)服务模块。当直接从服务用户或Serviceployment.com控制器接收请求时,web服务模块(508)从输入读取数据,并启动或实例化服务模块(510)。Web服务模块508和特征图服务模块510两者都可以是架构或平台的Web服务层506的一部分。
API服务可以以标准的“Restful”web服务的形式实现,其中RESTful web服务是提供Internet上的计算机系统之间的互操作性的一种方式。REST兼容的Web服务允许请求系统使用统一的、预定义的无状态操作集合来访问和操作Web资源的文本表示。
参考图5,如前所述,可经由服务平台网站502或服务平台API 504来访问或利用参考图1至3描述的一个或多个过程的实施例。服务平台将包括一个或多个处理器或其他数据处理元件,通常作为服务器的一部分实现。服务平台可以实现为层集合或多个层,包括UI层520、应用层530、web服务层506和数据存储层540。用户接口层520可以包括一个或多个用户接口522,其中每个用户接口由一个或多个用户接口元件524组成。
应用层530通常由一个或多个应用模块532组成,其中每个应用模块由一个或多个子模块534组成。如本文所述,每个子模块可以表示可执行软件指令或代码,当由编程处理器执行时,这些指令或代码实现特定功能或过程,例如参考图1至3所描述的那些特定功能或过程。
因此,每个应用模块532或子模块534可对应于由该模块或子模块实现的特定功能、方法、过程或操作(例如,与向平台用户提供某些功能相关的功能、方法、过程或操作)。这种功能、方法、过程或操作可以包括那些用于实现本发明系统和方法的一个或多个方面的功能、方法、过程或操作,例如通过:
●生成用户界面以使用户能够输入用于发起统计搜索和/或语义搜索的搜索词或概念C1和/或用于搜索的一个或多个控件;
●确定在语义上与C1相关联的概念(C2)(这可以是可选特征并且基于对合适的本体或引用的访问);
●通过在特征图上执行搜索来确定与C1和/或C2语义相关联的变量(Vx);
●通过对特征图执行搜索来确定与每个变量Vx统计相关的变量;
●确定所识别的统计关联的度量或度量;
●识别度量变量Vx和/或每个变量的数据集,这些数据集证明或支持与每个变量Vx统计关联的变量的统计关联;以及
●向用户呈现所识别的数据集的排名或列表,该排名或列表受一个或多个用户指定标准的过滤(如果需要)。
注意,除了列出的操作或功能之外,应用模块532或子模块534可以包含计算机可执行指令,当由编程处理器执行时,这些指令使得系统或设备执行与服务平台的操作相关的功能。此类功能可包括但不限于与用户注册、用户帐户管理、帐户之间的数据安全、数据处理和/或存储能力的分配、提供对除系统数据库以外的数据源(例如本体、参考资料等)的访问相关的功能。
应用模块和/或子模块可以包括任何合适的计算机可执行代码或指令集(例如,由适当编程处理器、微处理器或CPU执行的指令),例如与编程语言相对应的计算机可执行代码。例如,编程语言源代码可以编译成计算机可执行代码。可选地,或附加地,编程语言可以是诸如脚本语言的解释编程语言。每个应用服务器可以包括每个应用模块。可选地,不同的应用服务器可以包括不同的应用模块集。这些集合可以是不相交的或重叠的。
类似地,Web服务层506可以由一个或多个web服务模块508组成,并且每个模块也包括一个或多个子模块(并且每个子模块表示当由编程处理器执行时实现特定功能或处理的可执行指令)。例如,web服务模块508可以包括用于提供支持服务(如支持服务模块512所建议的)和提供与本文所描述的服务和过程相关联的功能(如特征图服务模块510所建议的)的模块或子模块。因此,在一些实施例中,模块510可以包括软件指令,这些软件指令在执行时实现参考其他图(具体地说,图1至3)描述的一个或多个功能。
数据存储层540可以包括一个或多个数据对象542,其中每个数据对象由一个或多个对象组件544组成,例如属性和/或行为。例如,数据对象可以对应于关系数据库的表,并且数据对象组件可以对应于此类表的列或字段。可选地,或附加地,数据对象可以对应于具有字段和关联服务的数据记录。可选地,或附加地,数据对象可以对应于编程数据对象的持久实例,例如结构和类。数据存储层中的每个数据存储可以包括每个数据对象。可选地,不同的数据存储可以包括不同的数据对象集合。这些集合可以是不相交的或重叠的。
图5的体系结构是多租户体系结构的示例,该体系结构可用于向用户提供对各种数据存储和可执行应用程序或功能的访问(有时称为提供软件即服务(SaaS))。尽管图5及其伴随的描述集中于用于提供与参考图1到图3所描述的过程相关联的功能的服务平台,但是请注意,可以使用包括提供其他服务或功能的能力的多租户平台的更通用形式。例如,服务提供商还可以向用户提供执行某些数据分析、计费、账户维护、调度、电子商务、ERP功能、CRM功能等的能力。
注意,图中描述的示例计算环境不旨在限制示例。可选地,或附加地,可以实现本发明实施例的计算环境包括允许用户向数据存储元件(例如,数据库)中存储的数据提供、访问、处理和利用数据的任何合适系统,该数据存储元件可以通过网络远程访问。可实施本发明实施例的另一示例环境包括可由多个用户用于数据输入、数据处理、应用程序执行、数据审查的装置(包括移动装置)、软件应用程序、系统、装置、网络或其他可配置组件,具有用户界面或用户界面组件,可配置为向用户呈现界面。尽管进一步的示例可以参考附图中描绘的示例计算环境,但是对于本领域技术人员来说显而易见的是,示例可以适用于替代计算设备、系统、装置、过程和环境。注意,本发明方法的实施例可以以应用程序、作为较大应用程序的一部分的子程序、“插件”、对数据处理系统或平台的功能的扩展、或任何其他合适的形式来实现。
应当理解,如上所述的本发明可以以模块化或集成方式使用计算机软件以控制逻辑的形式实现。基于本文提供的公开和教导,本领域的普通技术人员将知道并领会使用硬件以及硬件和软件的组合来实现本发明的其他方式和/或方法。
在附图中描绘或上面描述的组件的不同布置以及未示出或描述的组件和步骤是可能的。类似地,一些特征和子组合是有用的,并且可以在不参考其他特征和子组合的情况下使用。已经出于说明而非限制性目的描述了本发明的实施例,并且替代实施例对于本专利的读者将变得显而易见。因此,本发明不限于上述或附图中描述的实施例,并且可以在不脱离以下权利要求的范围的情况下进行各种实施例和修改。
应用程序中描述的任何软件组件、过程或功能可以实现为使用任何合适的计算机语言(例如Python、Java、JavaScript、C++或Perl)使用的处理器(例如,常规的或面向对象的技术)执行的软件代码。软件代码可以作为一系列指令或命令存储在(或在)非暂时性计算机可读介质中,例如随机存取存储器(RAM)、只读存储器(ROM)、磁性介质(例如硬盘驱动器或软盘)或光学介质(例如CD-ROM)。在这种情况下,非暂时性计算机可读介质几乎是适于存储从暂时性波形中留出的数据或指令的任何介质。任何这样的计算机可读介质可以驻留在单个计算设备上或内部,并且可以存在于系统或网络内的不同计算设备上或内部。
根据一个示例实施方式,如本文所使用的术语“处理元件”或“处理器”可以是中央处理单元(CPU),或概念化为CPU(例如虚拟机)。在该示例实现中,CPU或包含CPU的设备可以与一个或多个外围设备(例如显示器)耦合、连接和/或通信。在另一实施实施方式中,处理元件或处理器可并入诸如智能手机或平板电脑的移动计算设备中。
本文提及的非暂时性计算机可读存储介质可以包括多个物理驱动器单元,例如独立磁盘冗余阵列(RAID)、软盘驱动器、闪存、USB闪存驱动器、外部硬盘驱动器、拇指驱动器、笔驱动器、钥匙驱动器、高密度数字多功能盘(HD-DVD)光盘驱动器、内部硬盘驱动器、蓝光光盘驱动器或全息数字数据存储(HDDS)光盘驱动器、同步动态随机存取存储器(SDRAM)或类似设备或基于类似技术的其他形式的存储器。这种计算机可读存储介质允许处理元件或处理器访问存储在可移动和不可移动存储器介质上的计算机可执行处理步骤、应用程序等,以从设备卸载数据或将数据上载到设备。如上所述,关于本文描述的实施例,非瞬态计算机可读介质除了瞬态波形或类似介质之外,几乎包括任何结构、技术或方法。
本文参考系统框图和/或功能、操作、过程或方法的流程图(flowcharts)或流程图(flow diagrams)来描述所公开技术的某些实现。应当理解,方框图的一个或多个块,或流程图(flowcharts)或流程图(flow diagrams)的一个或多个阶段或步骤,以及方框图中的块的组合和流程图(flowcharts)或流程图(flow diagrams)的阶段或步骤,可以分别由计算机可执行程序指令来实现。注意,在一些实施例中,一个或多个块、阶段或步骤不一定需要按照所呈现的顺序执行,或者可能根本不需要执行。
这些计算机可执行程序指令可加载到通用计算机、专用计算机、处理器或其他可编程数据处理设备上,以产生机器的特定示例,使得由计算机、处理器执行的指令,或其它可编程数据处理设备创建用于实现本文所述的一个或多个功能、操作、过程或方法的装置。这些计算机程序指令还可以存储在计算机可读存储器中,该计算机可读存储器可以指示计算机或其他可编程数据处理设备以特定方式工作,使得存储在计算机可读存储器中的指令产生包括实现本文所述的一个或多个功能、操作、过程或方法的指令装置的制品。
虽然已经结合当前认为是最实际和各种实现来描述了所公开技术的某些实现,但是应当理解,所公开的技术不限于所公开的实现。相反,所公开的实现旨在涵盖包括在所附权利要求的范围内的各种修改和等效布置。尽管本文中使用了特定术语,但它们仅在一般和描述性意义上使用,而不是出于限制的目的。
本文中的该书面描述使用示例来公开所公开技术的某些实现,并且还使本领域技术人员能够实践所公开技术的某些实现,包括制造和使用任何装置或系统以及执行任何结合的方法。所公开技术的某些实现的可取得专利权的范围在权利要求中定义,并且可以包括本领域技术人员想到的其他示例。如果这些其它示例具有与权利要求书的文字语言没有区别的结构和/或功能元件,或者如果它们包括与权利要求书的文字语言没有实质性区别的结构和/或功能元件,则这些其它示例意图在权利要求书的范围内。
本文引用的所有引用文件(包括出版物、专利申请和专利)在此通过引用并入,其程度与每个引用文件单独且明确地指示通过引用并入和/或在本文中整体阐述的程度相同。
除非本文中另有说明或与上下文明确矛盾,否则说明书和以下权利要求书中术语“一个(a)”和“一个(an)”以及“所述(the)”和类似引用的使用应解释为包括单数和复数。除非另有说明,否则说明书和以下权利要求书中的术语“具有”、“包括”、“包含”和类似引用应解释为开放式术语(例如,意味着“包括但不限于”)。除非本文另有说明,否则本文中对值的范围的叙述仅缩进以作为单独引用包括落入范围内的每个单独值的简写方法,并且每个单独值并入说明书中,如同其在本文中单独叙述一样。本文中描述的所有方法可以以任何合适的顺序执行,除非本文中另有指示或与上下文明显矛盾。使用本文提供的任何和所有示例或示例性语言(例如,“诸如”)仅旨在更好地说明本发明的实施例,并且除非另外要求保护,否则不对本发明的范围构成限制。说明书中的任何语言都不应解释为指示任何未要求保护的元件对于本发明的实施例是必需的。
Claims (28)
1.一种计算机执行的方法,用于识别用于训练与感兴趣主题相关的模型的相关数据集,包括:
访问一个或多个源,每个源包括关于源中描述的研究主题与研究中考虑的一个或多个变量之间的统计关联的信息;
处理从每个源获得的信息,以识别源中描述的研究中考虑的一个或多个变量,并且对于每个变量,以识别关于变量和研究主题之间的统计关联的信息;
对于至少一个源,将数据集与一个或多个变量中的至少一个或与源中描述的研究主题相关联,数据集包括研究使用的一个或多个数据,以证明统计关联或表示数据集关联的一个或多个变量的度量的数据;
将所访问的一个或多个源的处理结果存储在数据库中,对于每个源,所存储的结果包括对一个或多个变量中的每一个的引用、对源中描述的研究主题的引用、关于统计关联的信息以及如果适用,能够访问相关联数据集的链接或其他元件;
基于处理所访问的一个或多个源的存储结果构造特征图,所述特征图包括节点集合和边集合,其中所述边集合中的每一条边将所述节点集合中的一个节点连接到一个或多个其他节点,并且进一步,其中,每个节点表示发现与源中描述的研究主题统计关联的变量,每个边表示节点与源中描述的研究主题之间或第一节点与第二节点之间的统计关联;
从用户接收搜索请求,所述搜索请求指定感兴趣的主题;
遍历特征图以识别与一个或多个变量相关联的一个或多个数据集,所述一个或多个变量在统计上与所述感兴趣的主题相关联,或者在语义上与一个或多个变量相关联,所述一个或多个变量在统计上与所述感兴趣的主题相关联;
对已识别的一个或多个数据集进行过滤和排序;以及
向用户呈现已识别的一个或多个数据集的过滤和排序结果。
2.根据权利要求1所述的方法,其中所述源包括对实验、研究、机器学习模型或轶事观察的一个或多个描述。
3.根据权利要求2所述的方法,其中处理所述一个或多个源还包括将光学字符识别、图像处理、自然语言处理或自然语言理解技术中的一个或多个应用于一个或多个所访问的源。
4.根据权利要求1所述的方法,其中将处理所访问的源的结果存储在数据库中还包括将结果存储在图的表示形式中,所述图包括多个节点和多个边,每个边将一个节点连接到另一个节点。
5.根据权利要求4所述的方法,其中多个边中的一个或多个与统计关联的度量相关联。
6.根据权利要求1所述的方法,其中对所识别的一个或多个数据集进行过滤和排序还包括基于(a)群体和关键、(b)合规性、(c)可解释性或(d)可操作性中的一个或多个进行过滤或排序。
7.根据权利要求1所述的方法,还包括使用一个或多个呈现的数据集来训练模型,其中模型实现机器学习技术。
8.根据权利要求7所述的方法,还包括使用所述训练模型来作出关于所述模型的输入的决策或分类。
9.根据权利要求1所述的方法,其中处理所访问的一个或多个源还包括访问本体或引用以获得一个或多个潜在主题或一个或多个变量的概念标签。
10.根据权利要求1所述的方法,其中关于统计关联的信息是观察到的关联、度量的关系或因果关系之一。
11.根据权利要求1所述的方法,其中,从用户接收搜索请求还包括从用户接收用于搜索的一个或多个控制参数,其中控制参数包括一个或多个数据、总体、质量、方法或作者。
12.根据权利要求2所述的方法,其中访问一个或多个源还包括访问研究主题为感兴趣主题的信息。
13.根据权利要求1所述的方法,还包括向用户提供处理所访问的一个或多个源的存储结果的子集,并基于存储结果的子集为用户构建特征图。
14.根据权利要求13所述的方法,其中所存储结果的子集由用户提供的一个或多个参数确定。
15.一种表示信息的电子形式,包括:
表示图的数据结构,所述图包括多个节点和多条边,每条边将第一节点连接到第二节点;
与一条或多条边关联的值集合;以及
至少一个链接或其他元件,以允许访问数据集,所述链接或其他元件与第一节点或第二节点相关联;
其中,每个节点表示发现与感兴趣主题具有统计关联的变量,并且与边相关联的每个值表示节点与感兴趣主题之间的统计关联的度量、第一节点与第二节点之间的统计关联的度量,或者表示对统计关联的置信度的度量。
16.根据权利要求15所述的表示信息的电子形式,其中所述数据集包括用于建立由所述第一节点表示的第一变量和由所述第二节点表示的第二变量之间的统计关联的一个或多个数据,所述数据表示所述第一变量的度量,或所述数据表示第二个变量的度量。
17.根据权利要求15所述的表示信息的电子形式,其中所述统计关联是观察关联、度量关联或因果关系之一。
18.根据权利要求15所述的表示信息的电子形式,其中所述数据集与实验描述、研究、机器学习模型或轶事观察中的一个相关联。
19.一种数据处理系统,包括:
用一组计算机可执行指令编程的电子处理器;
一种存储所述计算机可执行指令集的非暂时性电子存储元件,其中所述计算机可执行指令集还包括
计算机可执行指令,其在执行时使系统访问一个或一组源,其中每个源包括关于源中描述的研究主题与研究中考虑的一个或多个变量之间的统计关联的信息;
计算机可执行指令,其在执行时使系统处理所访问的一个或多个源,并为每个源识别源中所述研究中考虑的一个或多个变量,以及每个变量,识别变量与研究主题之间的统计关联的信息;
计算机可执行指令,其在执行时使系统针对至少一个源将数据集与一个或多个变量中的至少一个或与源中描述的研究主题相关联,数据集包括研究使用的一个或多个数据,以证明统计关联或表示数据集关联的一个或多个变量的度量的数据;以及
计算机可执行指令,其在执行时使系统将处理所访问的一个或多个源的结果存储在数据库中,所存储的结果包括对于每个源,对一个或多个变量的引用、对研究中描述的主题的引用、有关统计关联的信息,以及如果适用,能够用于访问数据集的链接或其他元件。
20.根据权利要求19所述的数据处理系统,还包括:
计算机可执行指令,其在执行时使系统基于处理所访问的一个或多个源的存储结果来构造特征图,所述特征图包括节点集合和边集合,其中所述边集合中的每一条边将所述节点集合中的一个节点连接到一个或多个其他节点,此外,其中每个节点表示发现与源中描述的研究主题统计相关联的变量,每个边表示节点与源中描述的研究主题之间或第一节点与第二节点之间的统计关联;
计算机可执行指令,其在执行时使系统接收来自用户的搜索请求,所述搜索请求指定感兴趣的主题;
计算机可执行指令,其在执行时使系统遍历特征图以识别与一个或多个变量相关联的一个或多个数据集,所述一个或多个变量在统计上与感兴趣的主题相关联,或者在语义上与一个或多个变量相关联,所述一个或多个变量在统计上与感兴趣的主题相关联;
计算机可执行指令,其在执行时使系统对已识别的一个或多个数据集进行过滤和排序;以及
计算机可执行指令,其在执行时使系统向用户显示对已识别的一个或多个数据集进行过滤和排序的结果。
21.根据权利要求19所述的数据处理系统,其中所述一个或多个源包括对实验、研究、机器学习模型或轶事观察的一个或多个描述。
22.根据权利要求19所述的数据处理系统,其中处理所访问的一个或多个源还包括对所述访问的源中的一个或多个应用光学字符识别、图像处理、自然语言处理或自然语言理解技术中的一个或多个。
23.根据权利要求19所述的数据处理系统,其中将处理所访问的一个或多个源的结果存储在数据库中,还包括将结果存储在图的表示形式中,所述图包括多个节点和多个边,每个边将一个节点连接到另一个节点。
24.根据权利要求20所述的数据处理系统,还包括计算机可执行指令,其在执行时,系统使用一个或多个已识别的数据集来训练模型。
25.根据权利要求24所述的数据处理系统,还包括计算机可执行指令,当执行时,使系统接收模型的输入数据集合,并作为响应,从模型生成输出。
26.根据权利要求25所述的数据处理系统,其中所述输出是分类或决策的一个或多个。
27.根据权利要求20所述的数据处理系统,还包括计算机可执行指令,在执行时使所述系统向用户提供处理所访问的一个或多个源的存储结果的子集,并基于所述存储结果的子集为所述用户构造所述特征图。
28.根据权利要求27所述的数据处理系统,其中存储结果的子集由用户提供的一个或多个参数确定。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962799981P | 2019-02-01 | 2019-02-01 | |
US62/799,981 | 2019-02-01 | ||
PCT/US2020/015871 WO2020160264A1 (en) | 2019-02-01 | 2020-01-30 | Systems and methods for organizing and finding data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113453611A true CN113453611A (zh) | 2021-09-28 |
CN113453611B CN113453611B (zh) | 2024-05-03 |
Family
ID=71838109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080011687.2A Active CN113453611B (zh) | 2019-02-01 | 2020-01-30 | 用于组织和查找数据的系统和方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US11354587B2 (zh) |
EP (1) | EP3917383A4 (zh) |
JP (1) | JP7307914B2 (zh) |
CN (1) | CN113453611B (zh) |
CA (1) | CA3126470A1 (zh) |
DE (1) | DE202020006040U1 (zh) |
WO (1) | WO2020160264A1 (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11403327B2 (en) * | 2019-02-20 | 2022-08-02 | International Business Machines Corporation | Mixed initiative feature engineering |
US11275791B2 (en) * | 2019-03-28 | 2022-03-15 | International Business Machines Corporation | Automatic construction and organization of knowledge graphs for problem diagnoses |
US10705861B1 (en) | 2019-03-28 | 2020-07-07 | Tableau Software, LLC | Providing user interfaces based on data source semantics |
US11783266B2 (en) | 2019-09-18 | 2023-10-10 | Tableau Software, LLC | Surfacing visualization mirages |
US11556847B2 (en) * | 2019-10-17 | 2023-01-17 | International Business Machines Corporation | Method and apparatus for employing machine learning solutions |
US11100429B2 (en) * | 2019-12-27 | 2021-08-24 | The Joan and Irwin Jacobs Technion-Cornell Institute | System and method for creating electronic document chronologies using machine learning |
CN113469478A (zh) * | 2020-03-31 | 2021-10-01 | 日本电气株式会社 | 一种信息处理方法、电子设备和计算机程序产品 |
US11552785B2 (en) * | 2020-04-02 | 2023-01-10 | Epidaurus Health, Inc. | Methods and systems for a synchronized distributed data structure for federated machine learning |
US11687710B2 (en) * | 2020-04-03 | 2023-06-27 | Braincat, Inc. | Systems and methods for cloud-based productivity tools |
US11550815B2 (en) | 2020-07-30 | 2023-01-10 | Tableau Software, LLC | Providing and surfacing metrics for visualizations |
US11397746B2 (en) | 2020-07-30 | 2022-07-26 | Tableau Software, LLC | Interactive interface for data analysis and report generation |
US11579760B2 (en) | 2020-09-08 | 2023-02-14 | Tableau Software, LLC | Automatic data model generation |
US11954605B2 (en) * | 2020-09-25 | 2024-04-09 | Sap Se | Systems and methods for intelligent labeling of instance data clusters based on knowledge graph |
US11360763B2 (en) * | 2020-10-13 | 2022-06-14 | International Business Machines Corporation | Learning-based automation machine learning code annotation in computational notebooks |
US20220147509A1 (en) * | 2020-10-18 | 2022-05-12 | Trigyan Corporation Inc. | Methods and systems for data management, integration, and interoperability |
US11526558B2 (en) | 2020-11-30 | 2022-12-13 | Microsoft Technology Licensing, Llc | System and method of providing accessibility to visualization tools |
EP4248369A4 (en) * | 2020-12-08 | 2024-07-24 | Amazon Tech Inc | USING GRAPH QUERIES TO OBTAIN RESULTS FROM MACHINE LEARNING MODELS |
US11423424B2 (en) | 2020-12-10 | 2022-08-23 | Noonum, Inc. | Associating thematic concepts and organizations |
US20220187969A1 (en) * | 2020-12-14 | 2022-06-16 | Cerner Innovation, Inc. | Optimizing Service Delivery through Partial Dependency Plots |
CN113051152B (zh) * | 2021-02-20 | 2023-03-24 | 武汉木仓科技股份有限公司 | 一种任务数据的生成方法、装置以及处理设备 |
US11366861B1 (en) * | 2021-02-26 | 2022-06-21 | Noonum, Inc. | Modeling conformance to thematic concepts |
US11907311B2 (en) * | 2021-03-11 | 2024-02-20 | Jatin V. Mehta | Dynamic website characterization for search optimization |
US11714813B2 (en) * | 2021-04-07 | 2023-08-01 | Clarifai, Inc. | System and method for proposing annotations |
CN115238674A (zh) * | 2021-04-23 | 2022-10-25 | 伊姆西Ip控股有限责任公司 | 文章处理方法、电子设备和程序产品 |
US11657415B2 (en) * | 2021-05-10 | 2023-05-23 | Microsoft Technology Licensing, Llc | Net promoter score uplift for specific verbatim topic derived from user feedback |
US20220366269A1 (en) * | 2021-05-11 | 2022-11-17 | International Business Machines Corporation | Interactive feature engineering in automatic machine learning with domain knowledge |
US12079572B2 (en) | 2021-05-17 | 2024-09-03 | Microsoft Technology Licensing, Llc | Rule-based machine learning classifier creation and tracking platform for feedback text analysis |
US12019593B2 (en) * | 2021-08-13 | 2024-06-25 | Josh Shapiro | System and method of joining research studies to extract analytical insights for enabling cross-study analysis |
US11972209B2 (en) * | 2021-11-03 | 2024-04-30 | iSchoolConnect Inc. | Machine learning system for analyzing the quality and efficacy of essays for higher education admissions |
US11775267B2 (en) * | 2021-12-07 | 2023-10-03 | Google Llc | Identification and application of related source code edits |
US11893032B2 (en) | 2022-01-11 | 2024-02-06 | International Business Machines Corporation | Measuring relevance of datasets to a data science model |
CN114443783B (zh) * | 2022-04-11 | 2022-06-24 | 浙江大学 | 一种供应链数据分析和增强处理方法及装置 |
US20230394351A1 (en) * | 2022-06-02 | 2023-12-07 | Adp, Inc. | Intelligent Data Ingestion |
WO2024157438A1 (ja) * | 2023-01-27 | 2024-08-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060015263A1 (en) * | 2004-07-10 | 2006-01-19 | Stupp Steven E | Apparatus for determining association variables |
JP2009217724A (ja) * | 2008-03-12 | 2009-09-24 | Panasonic Corp | 関連文書推定装置、関連文書推定方法及びプログラム、並びに記録媒体 |
US20120089621A1 (en) * | 2010-10-11 | 2012-04-12 | Peng Liu | Topic-oriented diversified item recommendation |
CN102663016A (zh) * | 2012-03-21 | 2012-09-12 | 上海汉翔信息技术有限公司 | 电子设备上输入候选框进行输入信息扩展的系统及其方法 |
US20160140236A1 (en) * | 2002-05-22 | 2016-05-19 | Digital Reasoning Systems, Inc. | Knowledge discovery agent system |
CN105637511A (zh) * | 2013-10-18 | 2016-06-01 | 谷歌公司 | 基于距离的搜索排名降级 |
CN106650922A (zh) * | 2016-09-29 | 2017-05-10 | 清华大学 | 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统 |
US20170161105A1 (en) * | 2015-12-02 | 2017-06-08 | Ryan Barrett | Techniques for processing queries relating to task-completion times or cross-data-structure interactions |
CN108073929A (zh) * | 2016-11-15 | 2018-05-25 | 北京三星通信技术研究有限公司 | 基于动态视觉传感器的物体检测方法及设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6352958B2 (ja) * | 2016-01-27 | 2018-07-04 | ヤフー株式会社 | グラフインデックス探索装置及びグラフインデックス探索装置の動作方法 |
-
2019
- 2019-05-23 US US16/421,249 patent/US11354587B2/en active Active
-
2020
- 2020-01-30 CA CA3126470A patent/CA3126470A1/en active Pending
- 2020-01-30 DE DE202020006040.2U patent/DE202020006040U1/de active Active
- 2020-01-30 JP JP2021544919A patent/JP7307914B2/ja active Active
- 2020-01-30 EP EP20747877.7A patent/EP3917383A4/en active Pending
- 2020-01-30 CN CN202080011687.2A patent/CN113453611B/zh active Active
- 2020-01-30 WO PCT/US2020/015871 patent/WO2020160264A1/en unknown
-
2022
- 2022-05-04 US US17/736,897 patent/US20230046324A1/en not_active Abandoned
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160140236A1 (en) * | 2002-05-22 | 2016-05-19 | Digital Reasoning Systems, Inc. | Knowledge discovery agent system |
US20060015263A1 (en) * | 2004-07-10 | 2006-01-19 | Stupp Steven E | Apparatus for determining association variables |
JP2009217724A (ja) * | 2008-03-12 | 2009-09-24 | Panasonic Corp | 関連文書推定装置、関連文書推定方法及びプログラム、並びに記録媒体 |
US20120089621A1 (en) * | 2010-10-11 | 2012-04-12 | Peng Liu | Topic-oriented diversified item recommendation |
CN102663016A (zh) * | 2012-03-21 | 2012-09-12 | 上海汉翔信息技术有限公司 | 电子设备上输入候选框进行输入信息扩展的系统及其方法 |
CN105637511A (zh) * | 2013-10-18 | 2016-06-01 | 谷歌公司 | 基于距离的搜索排名降级 |
US20170161105A1 (en) * | 2015-12-02 | 2017-06-08 | Ryan Barrett | Techniques for processing queries relating to task-completion times or cross-data-structure interactions |
CN106650922A (zh) * | 2016-09-29 | 2017-05-10 | 清华大学 | 硬件神经网络转换方法、计算装置、编译方法和神经网络软硬件协作系统 |
CN108073929A (zh) * | 2016-11-15 | 2018-05-25 | 北京三星通信技术研究有限公司 | 基于动态视觉传感器的物体检测方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
US20200250562A1 (en) | 2020-08-06 |
JP2022523917A (ja) | 2022-04-27 |
CA3126470A1 (en) | 2020-08-06 |
JP7307914B2 (ja) | 2023-07-13 |
DE202020006040U1 (de) | 2024-07-11 |
EP3917383A4 (en) | 2022-03-30 |
US11354587B2 (en) | 2022-06-07 |
CN113453611B (zh) | 2024-05-03 |
US20230046324A1 (en) | 2023-02-16 |
EP3917383A1 (en) | 2021-12-08 |
WO2020160264A1 (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113453611B (zh) | 用于组织和查找数据的系统和方法 | |
Tamašauskaitė et al. | Defining a knowledge graph development process through a systematic review | |
US11416535B2 (en) | User interface for visualizing search data | |
He et al. | A novel social media competitive analytics framework with sentiment benchmarks | |
Venkatram et al. | Review on big data & analytics–concepts, philosophy, process and applications | |
US20230060252A1 (en) | Systems and Methods for Organizing, Finding, and Using Data | |
Elgendy et al. | Big data analytics: a literature review paper | |
Carrillo et al. | Knowledge discovery from post-project reviews | |
Cheatham et al. | Semantic data integration | |
US20210042866A1 (en) | Method and apparatus for the semi-autonomous management, analysis and distribution of intellectual property assets between various entities | |
US9183279B2 (en) | Semantic questioning mechanism to enable analysis of information architectures | |
Cook et al. | Mixed-initiative visual analytics using task-driven recommendations | |
Enríquez et al. | Entity reconciliation in big data sources: A systematic mapping study | |
WO2023172541A1 (en) | System and methods for monitoring related metrics | |
Elouataoui et al. | Data quality in the era of big data: a global review | |
CN112015912B (zh) | 一种基于知识图谱的指标智能可视化方法及装置 | |
Hodler et al. | Graph data science using Neo4j | |
Markusson et al. | Contrasting medium and genre on Wikipedia to open up the dominating definition and classification of geoengineering | |
Avenali et al. | Systematic reviews as a metaknowledge tool: caveats and a review of available options | |
Etudo et al. | Ontology-based information extraction for labeling radical online content using distant supervision | |
Ben Sassi et al. | Data Science with Semantic Technologies: Application to Information Systems Development | |
McGee et al. | Towards visual analytics of multilayer graphs for digital cultural heritage | |
Chakrabarti et al. | Monitoring large scale production processes using a rule-based visualization recommendation system | |
Gupta et al. | Categories are in flux, but their computational representations are fixed: That's a problem | |
Te | Predicting the financial growth of small and medium-sized enterprises using web mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40061310 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |