Nothing Special   »   [go: up one dir, main page]

CN104182378A - 信息处理设备、信息处理方法以及程序 - Google Patents

信息处理设备、信息处理方法以及程序 Download PDF

Info

Publication number
CN104182378A
CN104182378A CN201410201455.XA CN201410201455A CN104182378A CN 104182378 A CN104182378 A CN 104182378A CN 201410201455 A CN201410201455 A CN 201410201455A CN 104182378 A CN104182378 A CN 104182378A
Authority
CN
China
Prior art keywords
variable
variablees
independence
class
test
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410201455.XA
Other languages
English (en)
Inventor
磯崎隆司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN104182378A publication Critical patent/CN104182378A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

提供了测试多个变量之间的独立性的信息处理设备、信息处理方法以及程序。所述信息处理设备包括:离散化部,当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及测试执行部,通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。

Description

信息处理设备、信息处理方法以及程序
对相关申请的交叉引用
本申请要求2013年5月21日提出的日本优先权专利申请JP2013-106909的优先权,该申请的内容以引用的方式并入本文中。
技术领域
本技术涉及信息处理设备、信息处理方法以及程序。具体而言,本技术涉及能够估计多个变量之间的因果关系的信息处理设备、信息处理方法以及程序。
背景技术
在相关技术中,从对多元随机变量的观测数据来估计统计因果关系大致分类为:基于信息量基准,作为分数,最大化估计的结果的方法,最大处罚似然率方法,或贝叶斯方法(下文简称为第一估计方法),以及通过对于变量之间的有条件的独立性的统计测试来执行估计的方法(下文简称为第二估计方法)。为了结果的可读性,变量之间的因果关系通常被表示为图形模型(非循环模型)。
图1示出了表示变量X和变量Y之间的因果关系的三个图形模型的示例。
在图1的上半部所示出的图形模型中,变量X和变量Y之间的因果关系不清楚,而变量X和变量Y充当通过没有方向的边(无向边)彼此连接的顶点。在图1的中部所示出的图形模型中,变量X和变量Y之间的因果关系是,变量X对应于原因,变量Y对应于结果,而变量X和变量Y充当通过表示从原因到结果的方向的边(有向边)彼此连接的顶点。在图1的下半部所示出的图形模型中,变量X和变量Y充当通过三个变量和连接变量的边彼此连接的顶点。在图1的下半部所示出的图形模型中,三个变量和连接变量的边构成变量X和变量Y之间的路径,而路径可以部分地包括表示方向的有向边。
然而,第二估计方法可能可以估计潜在的共同的原因变量的存在,在例如下面的文档中公开了其算法:P.Spirtes、C.Meek和T.Richardson所著的“Causal Inference in the Presence of LatentVariables and Selection Bias”,Proceedings of Conference onUncertainty in Artificial Intelligence,pp.499-506,1995;P.Spirtes、T.Richardson和C.Meek所著的“Heuristic Greedy SearchAlgorithms for Latent Variable Models”,Proceedings of InternationalWorkshop on Artificial Intelligence and Statistics,pp.481-488,1996;P.Spirtes、C.Glymour和R.Scheines“Causation,Prediction,andSearch”,MIT Press,second edition,2000;等等。由此表达的模型叫做混合祖先图等等(参见P.Spirtes、T.Richardson和C.Meek所著“Heuristic Greedy Search Algorithms for Latent Variable Models”,Proceedings of International Workshop on Artificial Intelligence andStatistics,pp.481-488,1996)。
在第二估计方法中,通常要使用的随机变量被设置为是离散值的类别数据(类别变量)以及是连续值的数值数据(数值变量)中的任何一个。例如,当随机变量是类别变量时,因果关系被建模为贝叶斯网络模型。可另选地,当随机变量是数值变量时,因果关系被建模为结构方程模型(参见P.Spirtes、C.Glymour,以及R.Scheines所著的“Causation、Prediction,and Search”,MIT Press,第二版,2000)。
另一方面,在第一估计方法中,在下列文档中公开了从其中混合了类别变量和数值变量的多元随机变量估计和建模因果关系的方式:N.Friedman和M.Goldszmidt所著的“Discretizing ContinuousAttributes while Learning Bayesian Networks”,Proceedings ofInternational Conference on Machine Learning,pp.157-165,1996;S.Monti和G.Cooper所著“A Multivariate Discretization Method forLearning Bayesian Networks from Mixed Data”,Proceedings ofConference on Uncertainty in Artificial Intelligence,pp.404-413,1998;H.Steck和T.S.Jaakkola所著“Predictive Discretizationduring Model Selection”,JMLR workshop and conferenceproceedings,volume2:Proceedings of the Eleventh InternationalConference on Artificial Intelligence and Statistics,pp.532-539,2007;等等。然而,难以将建模和估计方式应用到第二估计方法。因此,当类别变量和数值变量混合在多个变量中时,难以根据对潜在变量的存在的方法的分析,来构建叫做部分祖先图或混合祖先图的模型,作为实际应用特别重要。
然而,例如,在下列文档中公开了根据某一类别变量和数据来分类(离散化)数值变量的技术:U.M.Fayyad和K.B.Irani所著“Multi-Interval Discretization of Continuous-Valued Attributions forClassification Learning”,Proceedings of International JointConference on Artificial Intelligence,pp.1022-1029,1993。
根据此技术,在其中类别变量被设置为输出变量的分类学习器中,当对输出变量具有影响的称为属性的属性变量是数值变量时,根据以前的输出数据和是类别变量的输出变量,可以离散化对应的属性变量。
发明内容
然而,在表达统计因果关系的模型中,所有变量都可以是输出变量。即,难以将诸如输出变量和属性变量之类的特定标记分派到类别变量和数值变量,难以在构建模型之前预先根据某一类别变量来判断是否要离散化数值变量。
相应地,在其中类别变量和数值变量被混合在多个变量中的系统中,难以估计多个变量之间的因果关系。
根据本技术,希望根据有条件的独立性测试,甚至在类别变量和数值变量被混合在多个变量中的情况下,估计多个变量之间的因果关系。
根据本技术的实施例,提供了测试多个变量之间的独立性的信息处理设备,所述信息处理设备包括:离散化部,当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及测试执行部,通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
当所述两个变量中的一个是类别变量时,所述离散化部可以根据所述两个变量中的一个变量离散化所述两个变量中的另一个和所述条件变量组中所包括的数值变量。
当只有构成所述条件变量组的变量中的某一个是类别变量时,所述离散化部可以根据所述类别变量离散化作为数值变量的所述两个变量和构成所述条件变量组的其他变量。
信息处理设备还可以包括判断部,当对所述两个变量之间的有条件的独立性的测试分别使用两个或更多类别变量来执行时,所述判断部在对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,判断所述两个变量之间的独立性是否被拒绝。当判断所述两个变量之间的独立性被拒绝时,所述测试执行部可以结束对所述两个变量之间的有条件的独立性的测试的执行。
当所述两个变量都是类别变量时,在分别通过使用所述两个变量执行的对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部可以判断所述两个变量之间的独立性是否被拒绝。
当所述两个变量都是所述数值变量并且所述条件变量组包括所述两个或更多类别变量时,在分别通过使用所述类别变量执行的所述对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部可以判断所述两个变量之间的所述独立性是否被拒绝。
在对预定数量的变量对执行两个变量之间的有条件的独立性的测试之后,在通过分别使用所述类别变量执行的所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部可以判断所述两个变量之间的独立性是否被拒绝。
当存在作为离散化的基准的多个所述类别变量时,所述离散化部可以根据由用户指定的类别变量来离散化所述数值变量。
所述类别变量至少可以包括对人分类的变量。所述数值变量至少可以包括表示关于人体的数值的变量。
所述类别变量至少可以包括对产品和制造所述产品的制造设备中的任何一个或者两者分类的变量。所述数值变量至少可以包括表示涉及所述产品以及制造所述产品的环境中的任何一个或者两者的值的变量。
根据本技术的实施例,提供了一种使信息处理设备测试多个变量之间的独立性的信息处理方法,所述信息处理方法包括:当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
根据本技术的进一步的实施例,提供了一种程序,使计算机执行用于测试多个变量之间的独立性的处理,所述处理包括:当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
在本技术的实施例中,当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据类别变量来离散化数值变量,并且通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
根据本技术的实施例,可以根据有条件的独立性测试,甚至在类别变量和数值变量混合在多个变量中的情况下,估计多个变量之间的因果关系。
附图说明
图1是示出了图形模型的示例的图示;
图2是示出了信息处理设备的硬件配置示例的框图;
图3是示出了根据本技术的实施例的信息处理设备的功能配置示例的框图;
图4是示出了因果关系估计处理的原理的流程图;
图5是示出了独立性测试处理1的流程图;
图6是示出了独立性测试处理2的流程图;
图7是示出了独立性测试处理3的流程图;
图8是示出了独立性测试处理4的流程图;
图9是示出了因果关系估计处理的具体示例的流程图;
图10是示出了因果关系估计处理的具体示例的流程图;
图11是示出了因果关系估计处理的具体示例的流程图;
图12是示出了因果关系估计处理的另一个具体示例的流程图;以及
图13是示出了根据本技术的实施例的网络系统的功能配置示例的框图。
具体实施方式
下面,将参考各个附图详细描述本技术的实施例。
信息处理设备的硬件配置示例
图2示出了根据本技术的实施例的信息处理设备11的硬件配置示例。
信息处理设备11测试多元随机变量之间的独立性或有条件的独立性,并作为有向图、无向图、部分有向图、混合祖先图、部分祖先图等等,输出结果。另外,在本技术中,根据多元随机变量之间的独立性测试或有条件的独立性测试的结果,变量之间的相关性的存在表示为无向边。然后,根据在“Causal Inference in the Presence of LatentVariables and Selection Bias”、“Heuristic Greedy Search Algorithmsfor Latent Variable Models”、“Causation,Prediction,and Search”等等中公开的部分定向技术,通过将方向给予无向边的一部分,估计因果关系。然而,在本说明书中,关于定向技术,将省略详细描述。
信息处理设备11可以被形成为例如个人计算机,并可以具有类似于个人计算机的配置的配置。
信息处理设备11包括中央处理单元(CPU)21、只读存储器(ROM)22、随机存取存储器(RAM)23、总线24、输入/输出接口25、输入部26、输出部27、存储部28、通信部29以及驱动器30。
在信息处理设备11中,CPU21、ROM22以及RAM23通过总线24彼此连接在一起。输入/输出接口25进一步连接到总线24。诸如键盘、鼠标以及触摸板之类的输入部26,诸如显示器和扬声器之类的输出部27,诸如硬盘和非易失性存储器之类的存储部28,以及诸如网络接口之类的通信部29连接到输入/输出接口25。
根据需要,驱动器30进一步连接到输入/输出接口25。诸如磁盘、光盘、磁光盘,以及半导体存储器之类的可移动介质31适当地安装到驱动器30。根据需要,从可移动介质31中读取的程序安装在存储部28。
进一步地,程序可以通过有线或无线传输介质由通信部29接收,以安装在存储部28。此外,程序还可以预先安装在ROM22中或存储部28中。
由信息处理设备11执行的程序可以,例如,按照本说明书中所描述的顺序按时间顺序来处理,或者也可以是并行地处理或在作出调用时在合适的时间处理。
信息处理设备的功能配置示例
图3示出了根据本技术的实施例的信息处理设备11的一部分的功能配置示例。
图3的信息处理设备11包括输入部51、控制部52、存储部53,以及输出部54。
输入部51对应于图2的输入部26。输入部51接收用于指定N个随机变量之中的要接受独立性测试的两个变量的自变量的输入,充当有条件的独立性的条件的条件变量的变量组等等,接收用于有条件的独立性测试中的重要程度以及统计量的指定,并将对应于输入的内容的信息提供到控制部52。
控制部52对应于图2的CPU21。控制部52根据存储在对应于图2的存储部28的存储部53的程序来操作,并通过使用存储在存储部53的各种类型的信息,执行对被聚焦的两个变量之间的独立性的测试,由此,估计变量之间的因果关系。
一般而言,在估计变量之间的因果关系时,当执行对变量之间的有条件的独立性的测试时,其中在它们之间确定有条件的独立性的假设被设置为零假设。当零假设被拒绝时,认为在变量之间有相关性。相反,当零假设未被拒绝时,认为在变量之间有独立性。本实施例也基于这些假设。
输出部54对应于图2的输出部27。输出部54在控制部52的控制之下,输出独立性测试的结果,作为图形模型。
在图3中,控制部52包括类别变量检测部71、类别变量测试执行部72、数值变量测试执行部73、类别变量选择部74、离散化部75,以及执行判断部76。存储部53包括变量对存储部81、类别变量存储部82以及离散数据存储部83。
类别变量检测部71从输入变量组中检测类别变量(是离散值)。作为可以被包括在输入变量组中的变量,不仅有类别变量,而且还有是连续的值的数值变量。
当被聚焦的两个变量都是类别变量时,类别变量测试执行部72对两个变量执行独立性测试。
当被聚焦的两个变量都是数值变量时,数值变量测试执行部73对两个变量执行独立性测试。
类别变量选择部74从存储在类别变量存储部82中的类别变量选择一个类别变量。
当类别变量和数值变量被混合并包括在输入变量组中时,离散化部75根据由类别变量选择部74选择的类别变量,离散化数值变量(将数值变量改为类别变量)。
执行判断部76判断在由类别变量测试执行部72执行的独立性测试中独立性是否被拒绝。如果由执行判断部76判断独立性被拒绝,则类别变量测试执行部72结束独立性测试的执行。
变量对存储部81存储非独立的或不受独立性测试的影响并通过边连接的两个变量的对。
类别变量存储部82存储由类别变量检测部71从输入的变量组中检测到的所有类别变量。
离散数据存储部83临时存储其中数值变量被离散化部75离散化的离散数据(离散变量)。
因果关系估计处理的原理
接下来,将参考图4的流程图,来描述由信息处理设备11执行的因果关系估计处理的原理。
在图4的因果关系估计处理中,通过相对于存储在变量对存储部81并由一对预先确定的变量X和Y(通过边连接的)构成的一对变量使用预定数量的条件变量组Z(下面简称为条件变量Z),来执行独立性测试处理。
首先,在步骤S11中,控制部52根据由类别变量检测部71从变量X和Y以及条件变量Z检测到的类别变量的数量,来判断变量X和Y以及条件变量Z中所包括的所有变量是否都是类别变量。此时,由类别变量检测部71检测到的所有类别变量都存储在类别变量存储部82。
在步骤S11中,如果判断所有变量X和Y以及条件变量Z都是类别变量,则处理前进到步骤S12,控制部52对是类别变量的变量X和Y执行独立性测试处理1。
这里,将参考图5的流程图,来详细地描述由控制部52执行的独立性测试处理1。
在步骤S31中,类别变量测试执行部72计算统计量G2,这是用于执行独立性测试的值。统计量G2通过下列表达式(1)来表示。
G 2 = 2 M Σ x , y , z P ^ ( x , y , z ) log P ^ ( x | y , z ) P ^ ( x | z ) . . . ( 1 )
在表达式(1)中,M表示数据片段的数量。进一步地,具有^(帽子)附接的P(x,y,z)(下文简称为帽子P(x,y,z))表示变量X和Y以及条件变量组Z的某些状态x,y,和z的估计的联合概率(jointprobability)。帽子P(x|y,z)表示在将状态y和z设置为条件的情况下状态x的估计的条件概率。帽子P(x|z)表示在将状态z设置为条件的情况下状态x的估计的条件概率。它们是使用M个数据片段估计的。
这里,对两个变量之间的独立性的测试是通过将作为独立性测试的指示符的p值与通过使用上文所提及的统计量G2和分布χ2导出的重要程度Th(例如,5%(0.05))进行比较来执行的。
即,在步骤S32中,类别变量测试执行部72判断p值是否小于重要程度Th。
在步骤S32中,如果判断p值小于重要程度Th,则处理前进到步骤S33,类别变量测试执行部72拒绝变量X和Y之间的独立性。
相反,在步骤S32中,如果p值不小于重要程度Th,则处理前进到步骤S34,类别变量测试执行部72不拒绝变量X和Y之间的独立性。
然后,在步骤S35中,类别变量测试执行部72删除由变量X和Y构成的变量对的边,由此,从变量对存储部81删除变量对。
另外,在上面的描述中,使用p值作为独立性测试的指示符。然而,通过下列表达式(2)来表示的条件互信息量MI可以被用作独立性测试的指示符。
MI = G 2 2 M . . . ( 2 )
在此情况下,如果通过比较条件互信息量MI和预定阈值(例如,0.05)而判断条件互信息量MI小于阈值,则变量X和Y之间的独立性不被拒绝。
如上文所描述的,在独立性测试处理1中,执行对是类别变量的变量X和Y之间的独立性的测试。
返回到图4的流程图,在步骤S11中,如果判断所有变量X和Y以及条件变量Z不是类别变量,则处理前进到步骤S13,控制部52判断变量X和Y以及条件变量Z中所包括的所有变量是否都是数值变量。
在步骤S13中,如果判断所有变量X和Y以及条件变量Z是数值变量,则处理前进到步骤S14,控制部52对是数值变量的变量X和Y执行独立性测试处理2。
这里,将参考图6的流程图,来详细地描述由控制部52执行的独立性测试处理2。
在步骤S41中,数值变量测试执行部73采用线性关联,由此,计算统计量z,该统计量是用于通过Fisher的Z变换来执行独立性测试的值。统计量z通过下列表达式(3)来表示。
z = 1 2 M - | Z | - 3 log ( 1 + ρ XYZ 1 - ρ XYZ ) . . . ( 3 )
在表达式(3)中,M表示数据片段的数量。进一步地,|z|表示构成条件变量组Z的变量的数量,而ρXYZ表示在假设对于条件变量组Z没有确定有条件的独立性的情况下变量X和Y之间的部分关联的系数。
这里,对两个变量之间的独立性的测试是通过使用由重要程度确定的常量Nα和标准正态分布和统计量z0并使用在假设确定了有条件的独立性的情况下变量X和Y之间的局部关联的系数来执行的。
即,在步骤S42中,数值变量测试执行部73判断下列表达式(4)是否成立。
M - | Z | - 3 | z - z 0 | > N α . . . ( 4
在步骤S42中,如果判断表达式(4)成立,则处理前进到步骤S43,数值变量测试执行部73拒绝变量X和Y之间的独立性。
相反,在步骤S42中,如果表达式(4)不成立,则处理前进到步骤S44,数值变量测试执行部73不拒绝变量X和Y之间的独立性。
然后,在步骤S45中,数值变量测试执行部73删除由变量X和Y构成的变量对的边,由此,从变量对存储部81删除变量对。
如上文所描述的,在独立性测试处理2中,执行对是数值变量的变量X和Y之间的独立性的测试。
返回到图4的流程图,在步骤S13中,如果判断变量X和Y以及条件变量Z不都是数值变量,则处理前进到步骤S15,控制部52判断变量X和Y中的一个是否是类别变量。此时,不考虑构成条件变量Z的变量是类别变量还是数值变量。
在步骤S15中,如果判断变量X和Y中的一个是类别变量,则类别变量选择部74获取变量X(或变量Y)(是存储在类别变量存储部82中的类别变量),处理前进到步骤S16。
在步骤S16中,离散化部75根据变量X(或变量Y)(是由类别变量选择部74获取的类别变量),离散化是数值变量的变量Y(或变量X)以及数值变量(如果数值包括在条件变量Z中)。其中数值变量被离散化的离散数据临时保存在离散数据存储部83。应该注意,作为根据类别变量来离散化数值变量的技术,例如,应用在“Multi-Interval Discretization of Continuous-Valued Attributions forClassification Learning”中所公开的技术,但是,也可以应用另一方法。
此时,所有变量X和Y以及条件变量Z都可以被视为类别变量。
然后,在步骤S17中,控制部52对是类别变量的变量X和Y执行参考图6的流程图所描述的独立性测试处理1。
相反,在步骤S15中,如果判断变量X和Y中的一个是类别变量的结果是否定的,即,如果变量X和Y都是类别变量或数值变量,则处理前进到步骤S18。
在步骤S18中,控制部52判断只有构成条件变量Z的变量中的一个是否是类别变量。
在步骤S18中,如果判断构成条件变量Z的变量中的仅一个是类别变量,则类别变量选择部74获取存储在类别变量存储部82中并构成条件变量Z的类别变量,并执行步骤S16和S17的处理。
在步骤S18之后的步骤S16中,根据由类别变量选择部74获取的类别变量,与构成条件变量Z的其他数值变量一起,离散化是数值变量的变量X和Y。然后,在步骤S17中,对是离散化的类别变量的变量X和Y执行独立性测试处理1。
然而,在步骤S18中,如果判断构成条件变量Z的变量中的仅一个是类别变量的结果是否定的,则处理前进到步骤S19,并且控制部52判断变量X和Y是否都是类别变量。此时,不考虑构成条件变量Z的变量是类别变量还是数值变量。
在步骤S19中,如果判断变量X和Y都是类别变量,则类别变量选择部74获取是存储在类别变量存储部82中并且是类别变量的变量X和Y,处理前进到步骤S20。在此情况下,条件变量Z包括至少一个数值变量。
在步骤S20中,控制部52对是类别变量的变量X和Y执行独立性测试处理3。
这里,将参考图7的流程图,来详细地描述由控制部52执行的独立性测试处理3。
在步骤S51中,离散化部75根据是由类别变量选择部74获取的类别变量的两个变量(变量X和Y)中的一个(例如,变量X),离散化包括在条件变量Z中的至少一个数值变量。其中数值变量被离散化的离散数据临时保存在离散数据存储部83。
此时,所有变量X和Y以及条件变量Z都可以被视为类别变量。
在步骤S52中,类别变量测试执行部72对是类别变量的变量X和Y执行独立性测试处理1。
在步骤S53中,执行判断部76判断独立性是否在步骤S52的独立性测试处理1中被拒绝。
在步骤S53中,如果判断独立性未被拒绝,即,在步骤S52的独立性测试处理1中,如果判断在变量X和Y之间有独立性,则处理前进到步骤S54。
在步骤S54中,离散化部75根据是由类别变量选择部74获取的类别变量的两个变量(变量X和Y)中的另一个(例如,变量Y),离散化包括在条件变量Z中的至少一个数值变量。
然后,在步骤S55中,类别变量测试执行部72再次对是类别变量的变量X和Y执行独立性测试处理1。
相反,在步骤S54中,如果判断独立性被拒绝,即,在步骤S52的独立性测试处理1中,如果判断在变量X和Y之间有依赖性,则不再执行对变量X和Y之间的独立性的测试,处理返回到步骤S20。
如上文所描述的,在独立性测试处理3中,根据多个类别变量中的每一个,即,变量X和Y,离散化数值变量,由此,执行独立性测试。在该处理中,执行判断部76判断独立性是否在某一独立性测试中被拒绝,并且如果判断独立性被拒绝,则使用类别变量测试执行部72的对独立性测试的执行结束。
返回到图4的流程图,在步骤S19中,如果判断变量X和Y都不是类别变量,即,如果变量X和Y都是数值变量,则条件变量Z包括至少两个类别变量。在此情况下,类别变量选择部74获取存储在类别变量存储部82的类别变量,处理前进到步骤S21。
在步骤S21中,控制部52对是数值变量的变量X和Y执行独立性测试处理4。
这里,将参考图8的流程图,来详细地描述由控制部52执行的独立性测试处理4。
在步骤S61中,控制部52将由类别变量选择部74获取的并包括在条件变量Z中的至少两个类别变量设置为Zj。应该注意,值j在1到m范围之内,m表示条件变量Z中所包括的类别变量的数量。
在步骤S62中,控制部52将j设置为1。
在步骤S63中,离散化部75根据由类别变量选择部74获取的条件变量Z中所包括的类别变量Zj(这里,Z1),离散化条件变量Z中所包括的变量X和Y及其他变量(数值变量)。其中数值变量被离散化的离散数据临时保存在离散数据存储部83。
此时,所有变量X和Y以及条件变量Z都可以被视为类别变量。
在步骤S64中,类别变量测试执行部72对是类别变量的变量X和Y执行独立性测试处理1。
在步骤S65中,控制部52将值j增大1。
然后,在步骤S66中,执行判断部76判断在步骤S64的独立性测试处理1中独立性是否被拒绝或是否j>m。
在步骤S66中,如果判断独立性未被拒绝并且j>m不成立,即,在步骤S64的独立性测试处理1中,如果判断在变量X和Y之间有独立性,并且如果没有执行基于所有类别变量Zj的数值变量的离散化和独立性测试,则处理返回到步骤S63,并重复步骤S63到S65的处理。
相反,在步骤S66中,如果判断独立性被拒绝或j>m成立,即,在步骤S64的独立性测试处理1中,如果判断在变量X和Y之间有依赖性,或者,如果执行了基于所有类别变量Zj的数值变量的离散化和独立性测试,则处理返回到步骤S21。
如上文所描述的,在独立性测试处理4中,根据多个类别变量中的每一个,即,类别变量Zj,离散化数值变量,由此,执行独立性测试。在该处理中,执行判断部76判断独立性是否在某一独立性测试中被拒绝,并且如果判断独立性被拒绝,则使用类别变量测试执行部72的对独立性测试的执行结束。
如上文所描述的,对于被执行独立性测试的预先确定的变量X和Y,如果独立性被拒绝,则其中变量对通过边来连接的图形模型作为图像向作为输出部54的监视器等等输出。这里,输出的图形模型是这样的图:其中,根据表示条件变量的有条件的独立性未被拒绝的信息,部分地定向连接变量对的边,并且部分地估计因果关系的方向。
根据上文所提及的处理,当变量X和Y以及条件变量Z包括至少一个类别变量和至少一个数值变量时,根据类别变量离散化数值变量,通过使用离散化的离散变量和类别变量,执行对变量X和Y之间的有条件的独立性的测试。因此,甚至在类别变量和数值变量被混合在多个变量中的情况下,也可以估计多个变量之间的因果关系。
在上面的描述中,只聚焦于预先确定的变量X和Y以及条件变量组Z,描述了因果关系估计处理的原理。然而,在实践中,聚焦于输入变量组中所包括的所有变量,需要执行因果关系估计处理。
因果关系估计处理的具体示例
将参考图9到11的流程图,来描述因果关系估计处理的具体示例。存储部53预先存储变量的数量N和可以从每一个变量中获取的等于或大于2的内部状态的数量。如此,当由输入部51输入其中描述了所有变量的状态的M个数据片段时,独立性测试处理开始。
另外,在初始状态,变量对存储部81存储变量对(其中,N个变量和不同的(N-1)个变量分别被设置为对(通过边连接)),类别变量存储部82和离散数据存储部83不存储数据。
在步骤S111中,控制部52将条件变量组的数量i设置为0,即,使条件变量组是空集。
在步骤S112中,控制部52从存储在变量对存储部81的变量对中选择一对变量。
在步骤S113中,控制部52判断变量对的两个变量是否都是类别变量。
在步骤S113中,如果判断两个变量都是类别变量,则处理前进到步骤S114,执行独立性测试处理1。相反,如果判断两个变量不都是类别变量,则处理前进到步骤S115。
在步骤S115中,控制部52判断两个变量是否都是数值变量。
在步骤S115中,如果判断两个变量都是数值变量,则处理前进到步骤S116,执行独立性测试处理2。相反,如果判断两个变量不都是数值变量,则处理前进到步骤S117。
在此情况下,两个变量中的任何一个是类别变量,另一个是数值变量。
在步骤S117中,根据两个变量中的是类别变量的一个变量,离散化部75离散化两个变量中的是数值变量的另一个变量。此后,在步骤S118中,执行独立性测试处理1。
在步骤S114、S116或S118之后,在步骤S119中,控制部52判断步骤S112到S118的处理是否已执行,即,对存储在变量对存储部81中的所有变量对执行对无条件的独立性的测试。
在步骤S119中,如果判断没有处理完所有变量对,则处理返回到步骤S112,对新选择的变量对重复步骤S112到S118的处理。
相反,在步骤S119中,如果判断已经处理完所有变量对,则处理前进到步骤S120(图10)。此时,变量对存储部81只存储其间的独立性被拒绝的两个变量对(是非独立的两个变量)。
在步骤S120中,控制部52将条件变量的组的数量i设置为1。
在步骤S121中,控制部52从存储在变量对存储部81的变量对中选择一对变量,即,是非独立的两个变量的对。
在步骤S122中,控制部52判断两个变量和条件变量是否全部都是类别变量。
在步骤S122中,如果判断两个变量和条件变量全部都是类别变量,则处理前进到步骤S123,执行独立性测试处理1。相反,如果判断两个变量不都是类别变量,则处理前进到步骤S124。
在步骤S124中,控制部52判断两个变量和条件变量是否全部都是数值变量。
在步骤S124中,如果判断两个变量和条件变量全部都是数值变量,则处理前进到步骤S125,执行独立性测试处理2。相反,如果判断两个变量和条件变量不都是数值变量,则处理前进到步骤S126。
在步骤S126中,控制部52判断两个变量中的一个是否是类别变量。此时,不考虑条件变量是类别变量还是数值变量。
在步骤S126中,如果判断两个变量中的一个是类别变量,则处理前进到步骤S127。然后,根据两个变量中的是类别变量的一个变量,离散化部75离散化两个变量中的是数值变量的另一个变量以及条件变量(如果条件变量是数值变量)。然后,在步骤S128中,执行独立性测试处理1。
相反,在步骤S126中,如果判断两个变量中的一个是类别变量的结果是否定的,即,如果两个变量都是类别变量或数值变量,则处理前进到步骤S129,控制部52判断是否只有条件变量是类别变量。
在步骤S129中,如果判断只有条件变量是类别变量,则处理前进到步骤S127,在条件变量被设置为离散化的基准的状态下执行S127和S128的处理。
相反,在步骤S129中,如果判断是否只有条件变量是类别变量的结果是否定的,即,如果两个变量都是类别变量以及条件变量是数值变量,则处理前进到步骤S130,并执行独立性测试处理3。
在步骤S123、S125、S128或S130之后,在步骤S131中,控制部52判断是否已经对存储在变量对存储部81的全部变量对执行步骤S121到S130的处理,即,对有条件的独立性的测试,其中,条件变量的组的数量被设置为1。
在步骤S131中,如果判断没有处理完所有变量对,则处理返回到步骤S121,对新选择的变量对重复步骤S121到S130的处理。
相反,在步骤S131中,如果判断已经处理完所有变量对,则处理前进到步骤S132(图11)。此时,变量对存储部81也只存储其间的独立性被拒绝的两个变量对(是非独立的两个变量)。
在步骤S132中,控制部52将条件变量的组的数量i增大1。即,首先,条件变量的组的数量被设置为2。
在步骤S133中,控制部52从存储在变量对存储部81的变量对中选择一对变量,即,是非独立的两个变量的对。
在步骤S134中,控制部52判断两个变量和构成条件变量的变量(在此情况下,两个变量)是否全部都是类别变量。
在步骤S134中,如果判断两个变量和构成条件变量的变量全部都是类别变量,则处理前进到步骤S135,执行独立性测试处理1。相反,如果判断两个变量和条件变量中所包括的变量是否全部都是类别变量的结果是否定的,则处理前进到步骤S136。
在步骤S136中,控制部52判断两个变量和构成条件变量的变量是否全部都是数值变量。
在步骤S136中,如果判断两个变量和构成条件变量的变量全部都是数值变量,则处理前进到步骤S137,执行独立性测试处理2。相反,如果判断两个变量和构成条件变量的变量是否全部都是数值变量的结果是否定的,则处理前进到步骤S138。
在步骤S138中,控制部52判断两个变量中的一个是否是类别变量。此时,不考虑构成条件变量的变量是类别变量还是数值变量。
在步骤S138中,如果判断两个变量中的一个是类别变量,则处理前进到步骤S139。然后,根据两个变量中的是类别变量的一个变量,离散化部75离散化两个变量中的是数值变量的另一个变量,并离散化数值变量(如果条件变量包括数值变量)。然后,在步骤S140中,执行独立性测试处理1。
相反,在步骤S138中,如果判断两个变量中的一个是类别变量的结果是否定的,即,如果两个变量都是类别变量或数值变量,则处理前进到步骤S141,控制部52判断是否只有构成条件变量的变量中的一个是类别变量。
在步骤S141中,如果判断只有构成条件变量的变量中的一个是类别变量,则处理前进到步骤S139,并在类别变量被设置为离散化的基准的状态下执行S139和S140的处理。
相反,在步骤S141中,如果判断只有构成条件变量的变量中的一个是类别变量的结果是否定的,则处理前进到步骤S142,并且控制部52判断两个变量是否都是类别变量。
在步骤S142中,如果判断两个变量都是类别变量,则处理前进到步骤S143,执行独立性测试处理3。
相反,在步骤S142中,如果判断两个变量都不是类别变量,则处理前进到步骤S144,并执行独立性测试处理4。
在步骤S135、S137、S140、S143或S144之后,在步骤S145中,控制部52判断是否对存储在变量对存储部81的全部变量对执行了步骤S133到S144的处理,即,对有条件的独立性的测试,其中,条件变量的组的数量被设置为2。
在步骤S145中,如果判断没有处理完所有变量对,则处理返回到步骤S133,对新选择的变量对重复步骤S133到S144的处理。
相反,在步骤S145中,如果判断已经处理完所有变量对,则处理前进到步骤S146。此时,变量对存储部81也只存储其间的独立性被拒绝的两个变量对(是非独立的两个变量)。
在步骤S146中,控制部52判断是否条件变量的组的数量i是最大数量(变量组中所包括的全部组的数量)imax(i=imax)。另外,imax可以是由用户预先确定的最大数量、由计算器根据估计处理时间长度确定的最大数量、以及由用户在计算处理中确定的最大数量中的任何一项。
在步骤S146中,如果判断i=imax不成立,则处理返回到步骤S132,条件变量的组的数量i增量1,即,条件变量的组的数量被设置为3或更大,然后,执行后续处理。
然后,在步骤S146中,如果判断i=imax成立,则处理结束。如此,当所有可执行的测试结束时,已经连续地在测试中被判断为变量是非独立的两个变量的对仍保留在变量对存储部81。
另外,在控制部52的控制之下,存储在存储部53的内容被输出到输出部54。这里,如上文所描述的,根据表示哪一个条件变量有条件的独立性不被拒绝的信息,部分地定向连接变量对的边。由此,例如,输出是由表示变量之间的因果关系的有向边构成的有向的(非循环)循环图、其中混合了表示因果关系的有向边和表示依赖关系的无向边的部分地有向的(非循环)循环图、混合的祖先图或部分地祖先图。
然而,在独立性测试处理4中(图8),随着条件变量的组的数量增加,处理更有可能被重复。然而,在独立性测试处理4中,有这样的可能性:在是离散化的基准的条件变量(类别变量)之中,作为另外两个变量之间的独立性测试的结果,有不合适作为两个关注的变量之间的有条件的独立性的条件的变量。因此,通过使用这样的条件变量来执行独立性测试是无用的,如此,总的计算量增大。
因此,可以在对例如所有变量对执行独立性测试处理之后,执行独立性测试处理4。
因果关系估计处理的另一个具体示例
这里,将参考图12的流程图,描述因果关系估计处理,其中,在对所有变量对执行独立性测试处理之后执行独立性测试处理4。
另外,图12中的流程图的到步骤S143的处理与图9到11中的流程图的到步骤S143的处理相同,将省略其描述。
即,在步骤S135、S137、S140或S143之后,或在步骤S142中,如果判断两个变量不都是类别变量,则处理前进到步骤S144。
在步骤S144中,控制部52判断是否对存储在变量对存储部81的所有变量对执行了步骤S133到S144的处理。
在步骤S144中,如果判断没有处理完所有变量对,则处理返回到步骤S133,对新选择的变量对重复步骤S133到S143的处理。
相反,在步骤S144中,如果判断已经处理完所有变量对,则处理前进到步骤S145。
在步骤S145中,控制部52从存储在变量对存储部81的变量对中选择一对变量。应该注意,作为此处选择的变量对,只选择是数值变量的两个变量。
在步骤S146中,控制部52执行独立性测试处理4。
在步骤S147中,控制部52判断是否对存储在变量对存储部81的所有变量对(其中两个变量都是数值变量的变量对)执行了步骤S146的处理,即,独立性测试处理4。
在步骤S147中,如果判断没有处理完所有变量对,则处理返回到步骤S145,对新选择的变量对重复步骤S146的处理。
相反,在步骤S147中,如果判断已经处理完所有变量对,则处理前进到步骤S148。应该注意,步骤S148的处理与图11的步骤S146的处理相同,将省略其描述。
根据上文所提及的处理,在对所有变量对执行独立性测试处理之后,执行独立性测试处理4。如此,在独立性测试处理4中不执行不需要的处理,可以减少总的计算量。
在上面的描述中,在对所有变量对执行独立性测试处理之后,执行独立性测试处理4。然而,在对变量对(其数量等于或大于预定数量)执行独立性测试处理之后,可以执行独立性测试处理4。在此情况下,可以获得上文所提及的相同效果。
进一步地,执行独立性测试处理4的时刻不仅限于图12的流程图所示出的时刻,并至少可以在独立性测试处理3的执行之后。
另外,也在独立性测试处理3中,对被关注的两个变量的独立性测试可能重复至多两次。因此,也在独立性测试处理3中,例如,在对所有变量对执行独立性测试处理之后,可以执行独立性测试处理3。
在上面的描述中,在信息处理设备11中执行因果关系估计处理。然而,因果关系估计处理可以在通过网络连接的设备之间执行。
网络系统的配置示例
图13示出了根据本技术的实施例的网络系统的配置示例。
图13所示出的网络系统包括诸如由用户操作的移动终端之类的客户端111,通过诸如因特网之类的网络112连接的服务器113。
客户端111包括分别对应于图3的输入部51和输出部54的输入部121和输出部122。
进一步地,服务器113包括分别对应于图3的控制部52和存储部53的控制部131和存储部132。
在这样的配置中,服务器113能够响应于来自客户端111的指令,执行因果关系估计处理,并将结果输出到客户端111。
本技术的应用示例
应该注意,本技术可以应用于下列示例。
(1)因果结构发现程序
根据本技术的实施例的因果关系估计处理应用于发现多个变量之间的统计因果结构的因果结构发现程序。应该注意,混合了类别变量和数值变量的多元随机变量是由用户所定义的,还可以预先提供数据集。通过输入这样的数据,当在上文所提及的因果关系估计处理中执行对有条件的独立性的测试时,根据需要离散化数值变量,并由此执行独立性测试。
这里,按与独立性测试处理4类似的方式,在有多个是离散化的基准的类别变量的情况下,计算离散化需要花费时间。因此,可以提供使用户预先指定是离散化的基准的类别变量的功能。在此情况下,只根据由用户指定的类别变量执行离散化和独立性测试,如此,可以减少计算量。在所有测试都结束之后,根据定向的规则执行定向,然后,表示混合了有向边和无向边的因果结构的图形模型作为图像向作为输出部54的监视器等等输出。此时,可以向监视器等等输出作为表示等效关系的文本数据的图形模型。由此,用户能够发现和检查变量之间的因果关系或依赖关系。
(2)工厂中的数据分析
根据本技术的实施例的因果关系估计处理应用于发现工厂中的各种测量项目和产量之间的因果关系的系统。应该注意,作为随机变量,定义了下列项目:产品是否是无缺陷产品Y;工厂的温度T;工厂的湿度M;测量项目1A;测量项目2B;设备1D;以及设备2E。这里,变量Y是具有表示制成品是否是无缺陷产品或有缺陷的产品的两个值的类别变量。变量D是制造产品的制造设备的变量和具有三种类型的型号的类别变量。变量E也是具有两种类型的型号的类别变量。所有其他变量都是数值变量,以及表示涉及产品和制造产品所在环境的数值的变量。
当条件变量的组的数量是0时,例如,在对变量A和B之间的独立性的测试中,变量A和B都是数值变量。如此,不执行离散化,而执行独立性测试处理2。在对变量D和E之间的独立性的测试中,变量D和E都是类别变量。因此,执行独立性测试处理1。在对变量D和M之间的独立性的测试中,变量D是类别变量,而变量M是数值变量。因此,根据变量D离散化变量M,并执行独立性测试处理1。
当条件变量的组的数量是1时,例如,在变量A被设置为条件变量的情况下,在对变量Y和M之间的有条件的独立性的测试中,变量Y是类别变量,并且变量A和M是数值变量。如此,根据变量Y,离散化变量A和M,并执行独立性测试处理1。在变量A被设置为条件变量的情况下,在对变量Y和D之间的有条件的独立性的测试中,变量Y和D是类别变量,而变量A是数值变量。如此,首先,根据变量Y离散化变量A,并执行独立性测试处理1。当独立性未被拒绝时,根据变量D离散化变量A,并再次执行独立性测试处理1。
如此,通过除重复独立性测试之外还估计叫做V形结构的图形结构并应用定向规则,作为图像向作为输出部54的监视器等等输出其中混合了有向边和无向边的图形模型。V形的结构是,例如,其中变量X和Y是独立的,变量X和Z是非独立的,变量Y和Z是非独立的图形结构。在此示例中,例如,{T-M}、{M→A}、{D→A}、{A→Y}、{B→Y}、{B-E}等等作为变量之间的因果关系输出。应该注意,这里,变量之间的符号“-”表示无向边,而符号“→”表示有向边。
(3)健康检查系统
根据本技术的实施例的因果关系估计处理应用于这样的健康检查系统,该系统发现可以通过健康检查获得的数据和主体的内脏器官的状态之间的统计因果结构。应该注意,在随机变量中,作为数值变量,定义了下列各项:年龄A;BMI(体重指数)B;血压C;尿酸水平D;体脂百分比E;血糖水平F;以及加班时间G,而作为类别变量,定义了下列各项:性别S;职业类型J;以及职位P。变量S是具有对应于男性和女性的两个值的类别变量。变量J是职业类型的变量,并是预先定义例如业务、研究、开发、人力资源等等的类别变量。变量P是职位的变量,并是预先定义例如主任、经理、一般职员等等的类别变量。
也在此示例中,当在上文所提及的因果关系估计处理中执行对有条件的独立性的测试时,根据需要离散化数值变量,并由此执行独立性测试。结果,用户能够发现和检查变量之间的因果关系或依赖关系。
在此示例中,可以检测构成器官的要素之间的诊断依赖关系。具体而言,当某一要素的两个变量都是类别变量时,统计量G2作为两个变量之间的依赖关系的强度输出。另外,当某一要素的两个变量都是数值变量时,表达式(4)的左侧的值作为两个变量之间的依赖关系的强度输出。进一步地,输出当某一要素的两个变量分别是类别变量和数值变量时,在根据类别变量离散化数值变量的情况下的统计量G2,作为两个变量之间的依赖关系的强度。因此,可以作为数值,检测两个变量之间的依赖关系的强度。
如上文所描述的,根据本技术的实施例,用户能够分析各种类型的数据,而不会导致意识到变量的形式。
进一步地,本技术不仅可以应用于上文所提及的示例,而且还可以应用于下列各项:支持对用户的选择的决策支持设备;遗传分析器;执行诸如计量经济分析、心理学实验分析、调查结果分析、业务分析,或人类行为分析之类的社交科学分析的分析器;分类输入文档的文档分类设备;标识输入图像的图像标识设备;分析来自传感器的输入信息的分析器;根据用户的偏好等等给出建议的建议设备;代理系统;等等。
应该注意,本技术的实施例不限于上文所提及的实施例,可以在不偏离本技术的范围的情况下修改为各种形式。
例如,本技术能够采用云计算的配置,其中,多个设备通过网络共享一个功能的共同处理。
进一步地,在上文所提及的流程图中所描述的每一个步骤不仅可以由一个设备执行,而且还由多个设备以共享方式执行。
此外,当一个步骤包括多个处理时,一个步骤中所包括的多个处理不仅可以由一个设备执行,而且还可以由多个设备以共享方式执行。
本技术能够采用下列配置。
(1)
一种测试多个变量之间的独立性的信息处理设备,所述信息处理设备包括:离散化部,当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及测试执行部,通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
(2)
根据(1)所述的信息处理设备,其中,当所述两个变量中的一个是类别变量时,所述离散化部根据所述两个变量中的一个变量离散化所述两个变量中的另一个和所述条件变量组中所包括的数值变量。
(3)
根据(1)或(2)所述的信息处理设备,其中,当只有构成所述条件变量组的变量中的某一个是类别变量时,所述离散化部根据所述类别变量离散化作为数值变量的所述两个变量和构成所述条件变量组的其他变量。
(4)
根据(1)到(3)中的任何一个所述的信息处理设备,进一步包括:判断部,当对所述两个变量之间的有条件的独立性的测试分别使用两个或更多类别变量来执行时,在对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,判断所述两个变量之间的独立性是否被拒绝,其中,当判断所述两个变量之间的独立性被拒绝时,所述测试执行部结束对所述两个变量之间的有条件的独立性的测试的执行。
(5)
根据(4)所述的信息处理设备,其中,当所述两个变量都是类别变量时,在分别通过使用所述两个变量执行的对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部判断所述两个变量之间的独立性是否被拒绝。
(6)
根据(4)所述的信息处理设备,其中,当所述两个变量都是数值变量并且所述条件变量组包括所述两个或更多类别变量时,在分别通过使用所述类别变量执行的对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部判断所述两个变量之间的独立性是否被拒绝。
(7)
根据(4)到(6)中的任何一个所述的信息处理设备,其中,在对预定数量的变量对执行两个变量之间的有条件的独立性的测试之后,在通过分别使用所述类别变量执行的所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部判断所述两个变量之间的独立性是否被拒绝。
(8)
根据(1)到(7)中的任何一个所述的信息处理设备,其中,其中,当存在作为离散化的基准的多个所述类别变量时,所述离散化部根据由用户指定的类别变量来离散化所述数值变量。
(9)
根据(1)到(8)中的任何一个所述的信息处理设备,其中,所述类别变量至少包括对人分类的变量,以及,所述数值变量至少包括表示关于人体的数值的变量。
(10)
根据(1)到(8)中的任何一个所述的信息处理设备,其中,所述类别变量至少包括对产品和制造所述产品的制造设备中的任何一个或者两者分类的变量,以及,所述数值变量至少包括表示涉及所述产品以及制造所述产品的环境中的任何一个或者两者的值的变量。
(11)
一种使信息处理设备测试多个变量之间的独立性的信息处理方法,所述信息处理方法包括:当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
(12)
一种程序,使计算机执行用于测试多个变量之间的独立性的处理,所述处理包括:当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
本领域的技术人员应该理解,可以根据设计要求及其他因素进行各种修改、组合、子组合和替代,只要它们在所附的权利要求或其等同物的范围内。

Claims (12)

1.一种测试多个变量之间的独立性的信息处理设备,所述信息处理设备包括:
离散化部,当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及
测试执行部,通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
2.根据权利要求1所述的信息处理设备,
其中,当所述两个变量中的一个是类别变量时,所述离散化部根据所述两个变量中的一个变量离散化所述两个变量中的另一个和所述条件变量组中所包括的数值变量。
3.根据权利要求1所述的信息处理设备,
其中,当只有构成所述条件变量组的变量中的某一个是类别变量时,所述离散化部根据所述类别变量离散化作为数值变量的所述两个变量和构成所述条件变量组的其他变量。
4.根据权利要求1所述的信息处理设备,还包括
判断部,当对所述两个变量之间的有条件的独立性的测试分别使用两个或更多类别变量来执行时,在对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,判断所述两个变量之间的独立性是否被拒绝,
其中,当判断所述两个变量之间的独立性被拒绝时,所述测试执行部结束对所述两个变量之间的有条件的独立性的测试的执行。
5.根据权利要求4所述的信息处理设备,
其中,当所述两个变量都是类别变量时,在分别通过使用所述两个变量执行的对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部判断所述两个变量之间的独立性是否被拒绝。
6.根据权利要求4所述的信息处理设备,
其中,当所述两个变量都是数值变量并且所述条件变量组包括所述两个或更多类别变量时,在分别通过使用所述类别变量执行的对所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部判断所述两个变量之间的独立性是否被拒绝。
7.根据权利要求4所述的信息处理设备,
其中,在对预定数量的变量对执行两个变量之间的有条件的独立性的测试之后,在通过分别使用所述类别变量执行的所述两个变量之间的有条件的独立性的测试中的任何一个测试中,所述判断部判断所述两个变量之间的独立性是否被拒绝。
8.根据权利要求1所述的信息处理设备,
其中,当存在作为离散化的基准的多个所述类别变量时,所述离散化部根据由用户指定的类别变量来离散化所述数值变量。
9.根据权利要求1所述的信息处理设备,
其中,所述类别变量至少包括对人分类的变量,以及
其中,所述数值变量至少包括表示关于人体的数值的变量。
10.根据权利要求1所述的信息处理设备,
其中,所述类别变量至少包括对产品和制造所述产品的制造设备中的任何一个或者两者分类的变量,以及
其中,所述数值变量至少包括表示涉及所述产品以及制造所述产品的环境中的任何一个或者两者的值的变量。
11.一种使信息处理设备测试多个变量之间的独立性的信息处理方法,所述信息处理方法包括:
当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及
通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
12.一种程序,使计算机执行用于测试多个变量之间的独立性的处理,所述处理包括:
当至少一个类别变量和至少一个数值变量被包括在图形模型中的非独立的至少两个变量中以及充当所述两个变量之间的独立性的条件的条件变量组中时,根据所述类别变量来离散化所述数值变量;以及
通过使用所述类别变量和通过离散化所述数值变量而获得的离散变量来执行对所述两个变量之间的有条件的独立性的测试。
CN201410201455.XA 2013-05-21 2014-05-14 信息处理设备、信息处理方法以及程序 Pending CN104182378A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013106909A JP2014228991A (ja) 2013-05-21 2013-05-21 情報処理装置および方法、並びにプログラム
JP2013-106909 2013-05-21

Publications (1)

Publication Number Publication Date
CN104182378A true CN104182378A (zh) 2014-12-03

Family

ID=51936062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410201455.XA Pending CN104182378A (zh) 2013-05-21 2014-05-14 信息处理设备、信息处理方法以及程序

Country Status (3)

Country Link
US (1) US9852378B2 (zh)
JP (1) JP2014228991A (zh)
CN (1) CN104182378A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806452A (zh) * 2021-09-17 2021-12-17 北京百度网讯科技有限公司 信息处理方法、装置、电子设备及存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014228991A (ja) * 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP6767312B2 (ja) * 2017-06-12 2020-10-14 日本電信電話株式会社 検知システム、検知方法及び検知プログラム
JP6884389B2 (ja) * 2017-11-07 2021-06-09 国立研究開発法人産業技術総合研究所 解析装置、解析方法およびプログラム
JP6835704B2 (ja) * 2017-12-04 2021-02-24 日本電信電話株式会社 検知システム、学習方法及び学習プログラム
CN110555047B (zh) 2018-03-29 2024-03-15 日本电气株式会社 数据处理方法和电子设备
CN110390396B (zh) * 2018-04-16 2024-03-19 日本电气株式会社 用于估计观测变量之间的因果关系的方法、装置和系统
EP3816875B1 (en) 2018-06-28 2024-08-07 Sony Group Corporation Information processing device, information processing method and program
CN114175082A (zh) * 2019-07-24 2022-03-11 索尼集团公司 信息处理设备、信息处理方法和信息处理程序
US10706104B1 (en) * 2019-07-25 2020-07-07 Babylon Partners Limited System and method for generating a graphical model
WO2022059175A1 (ja) * 2020-09-18 2022-03-24 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
US11763325B2 (en) * 2020-11-13 2023-09-19 Adobe Inc. Automated discovery of causal relationships in mixed datasets

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117185B1 (en) * 2002-05-15 2006-10-03 Vanderbilt University Method, system, and apparatus for casual discovery and variable selection for classification
WO2004029828A2 (en) * 2002-09-24 2004-04-08 Ismartsoft, Inc. Method and apparatus for data analysis
JP5135831B2 (ja) * 2007-03-15 2013-02-06 富士ゼロックス株式会社 計算装置
US20080279434A1 (en) * 2007-05-11 2008-11-13 William Cassill Method and system for automated modeling
JP5845630B2 (ja) * 2011-05-24 2016-01-20 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
JP5854274B2 (ja) * 2012-03-28 2016-02-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2014228991A (ja) * 2013-05-21 2014-12-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
US10387494B2 (en) * 2014-09-24 2019-08-20 Oracle International Corporation Guided data exploration

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806452A (zh) * 2021-09-17 2021-12-17 北京百度网讯科技有限公司 信息处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP2014228991A (ja) 2014-12-08
US20140351198A1 (en) 2014-11-27
US9852378B2 (en) 2017-12-26

Similar Documents

Publication Publication Date Title
CN104182378A (zh) 信息处理设备、信息处理方法以及程序
Kaya et al. Building Bayesian networks based on DEMATEL for multiple criteria decision problems: A supplier selection case study
Lacave et al. Learning Analytics to identify dropout factors of Computer Science studies through Bayesian networks
Zhang et al. Anti-discrimination learning: a causal modeling-based framework
Misirli et al. Bayesian networks for evidence-based decision-making in software engineering
Nguyen et al. Model selection for degradation modeling and prognosis with health monitoring data
Sim et al. Missing values and optimal selection of an imputation method and classification algorithm to improve the accuracy of ubiquitous computing applications
Apeland et al. Quantifying uncertainty under a predictive, epistemic approach to risk analysis
Apeland et al. Risk based maintenance optimization: foundational issues
EP3499375A1 (en) Predicting quality of an information system using system dynamics modelling and machine learning
Leite et al. Active testing strategy to predict the best classification algorithm via sampling and metalearning
Peng et al. Fairmask: Better fairness via model-based rebalancing of protected attributes
Redhead et al. Reliable network inference from unreliable data: A tutorial on latent network modeling using STRAND.
DiRenzo et al. A practical guide to understanding and validating complex models using data simulations
Vasquez Verdugo et al. Faired: A systematic fairness analysis approach applied in a higher educational context
CN113360762A (zh) 基于人工智能的内容推荐方法及人工智能内容推荐系统
Sadiq et al. Fuzzy-soft set approach for ranking the functional requirements of software
Wu et al. Fuzzy nonlinear programming approach for evaluating and ranking process yields with imprecise data
Filiz et al. Educational data mining methods for TIMSS 2015 mathematics success: Turkey case
Jin et al. Introduction to optimization
Đorđević Evaluation of the usability of Web-based applications
Pousi et al. Simulation metamodelling with Bayesian networks
CN112988135B (zh) 面向开源软件的任务单元推荐方法、装置和计算机设备
Seger et al. Predicting and visualizing the uncertainty propagations in traffic assignments model using Monte Carlo simulation method
Daneshkhah et al. Prior elicitation and evaluation of imprecise judgements for Bayesian analysis of system reliability

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141203

WD01 Invention patent application deemed withdrawn after publication