CN114981886A - 使用多个数据源的语音转录 - Google Patents
使用多个数据源的语音转录 Download PDFInfo
- Publication number
- CN114981886A CN114981886A CN202080079550.0A CN202080079550A CN114981886A CN 114981886 A CN114981886 A CN 114981886A CN 202080079550 A CN202080079550 A CN 202080079550A CN 114981886 A CN114981886 A CN 114981886A
- Authority
- CN
- China
- Prior art keywords
- speech
- speaker
- transcription
- user
- hmd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 228
- 230000035897 transcription Effects 0.000 title claims abstract description 228
- 238000012545 processing Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims description 84
- 230000036651 mood Effects 0.000 claims description 16
- 239000000945 filler Substances 0.000 claims description 11
- 230000008451 emotion Effects 0.000 claims 2
- 238000010801 machine learning Methods 0.000 description 24
- 208000013057 hereditary mucoepithelial dysplasia Diseases 0.000 description 23
- 230000015654 memory Effects 0.000 description 23
- 238000013473 artificial intelligence Methods 0.000 description 22
- 230000003993 interaction Effects 0.000 description 21
- 230000008569 process Effects 0.000 description 21
- 230000006855 networking Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 238000009877 rendering Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000033001 locomotion Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000001429 visible spectrum Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013475 authorization Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013481 data capture Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 235000008597 Diospyros kaki Nutrition 0.000 description 2
- 244000236655 Diospyros kaki Species 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/0093—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B27/0172—Head mounted characterised by optical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/157—Conference systems defining a virtual conference space and using avatars or agents
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/0138—Head-up displays characterised by optical features comprising image capture systems, e.g. camera
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/014—Head-up displays characterised by optical features comprising information/image processing systems
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
- G02B2027/0178—Eyeglass type
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Otolaryngology (AREA)
- Optics & Photonics (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本公开描述了使用音频、图像和其他数据来转录语音。描述了一种系统,其包括被配置为捕获与多个说话者相关联的音频数据的音频捕获系统、被配置为捕获多个说话者中的一个或多个说话者的图像的图像捕获系统,以及语音处理引擎。该语音处理引擎可以被配置为:识别音频数据中的多个语音片段,针对多个语音片段中的每个语音片段以及基于图像来标识与语音片段相关联的说话者;转录多个语音片段中的每个语音片段以产生多个语音片段的转录,针对多个语音片段中的每个语音片段,转录包括对与该语音片段相关联的说话者的指示;以及分析转录以产生从转录得出的附加数据。
Description
技术领域
本公开一般涉及语音转录系统,并且更具体地涉及转录多人的语音。
背景技术
语音识别正变得越来越流行并且越来越多地被添加到电视(TV)、计算机、平板电脑、智能电话和扬声器中。例如,许多智能设备可以基于用户说出的命令或问题来执行服务。此类设备使用语音识别来基于所捕获的音频标识用户的命令和问题,并且然后执行操作或标识响应信息。
发明内容
一般而言,本公开描述了用于使用音频、图像和其他数据来转录语音的系统和方法。在一些示例中,系统可以结合语音识别、说话者标识和视觉模式识别技术来产生两个或更多个用户之间的交互的完整转录。例如,这样的系统可以捕获音频数据和图像数据,识别音频数据中的多个语音片段,基于图像数据来标识与每个语音片段相关联的说话者,并且转录多个语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录。在一些示例中,可以训练人工智能(AI)/机器学习(ML)模型以识别和转录来自一个或多个标识出的说话者的语音。在一些示例中,系统可以基于检测到图像数据中具有移动的嘴唇的一个或多个面部来识别语音和/或标识说话者。这样的系统还可以分析转录以从转录产生附加数据,包括针对转录中所描述的会议或事件的日历邀请、与转录中所标识的主题相关的信息、包括转录中所标识的任务的任务列表、摘要、通知(例如,给未出现在交互中的(多个)人,给关于交互中所讨论的主题或人的用户)、统计数据(例如,说话者所说的词数,说话者的语气,关于说话者使用的填充词的信息,每个说话者说话的时间百分比,关于所使用的脏话的信息,关于所使用的词的长度的信息,使用“填充词”的次数,说话者的音量或说话者的情绪等)。在一些示例中,语音转录是在语音、对话或交互近实时或看似近实时地进行的同时进行的。在其他一些示例中,在语音、对话或交互已经终止之后执行语音转录。
在一些示例中,本文描述的技术由头戴式显示器(HMD)或由具有用于捕获图像数据的图像捕获设备(例如,相机)和用于捕获音频数据的音频捕获设备(例如,麦克风)的计算设备来执行。在一些示例中,HMD或计算设备可以转录在用户之间的交互期间针对每一个用户所捕获的语音片段中的所有语音片段。在其他一些示例中,HMD可以仅针对佩戴HMD的用户转录语音片段,并且HMD、计算设备和/或转录系统可以可选地组合从其他HMD和/或计算设备接收到的个体转录。
根据本发明的第一方面,提供了一种系统,包括:音频捕获系统,被配置为捕获与多个说话者相关联的音频数据;图像捕获系统,被配置为捕获多个说话者中的一个或多个说话者的图像;以及语音处理引擎,其被配置为:识别音频数据中的多个语音片段,针对多个语音片段中的每个语音片段以及基于图像来标识与语音片段相关联的说话者,转录多个语音片段中的每个语音片段以产生多个语音片段的转录,针对多个语音片段中的每个语音片段,该转录包括对与该语音片段相关联的说话者的指示,并且分析转录以产生从转录得出的附加数据。
为了识别多个语音片段,语音处理引擎还可以被配置为基于图像来识别多个语音片段。
为了针对多个语音片段中的每个语音片段标识说话者,语音处理引擎还可以被配置为检测图像中的一个或多个面部。
语音处理引擎还可以被配置为基于与每个语音片段相关联的说话者的身份来选择一个或多个语音识别模型。
为了针对多个语音片段中的每个语音片段标识说话者,语音处理引擎还可以被配置为检测图像中具有移动的嘴唇的一个或多个面部。
语音处理引擎还可以被配置为访问外部数据。为了针对多个语音片段中的每个语音片段标识说话者,语音处理引擎还可以被配置为基于外部数据来标识说话者。
外部数据可以包括日历信息和位置信息中的一项或多项。
该系统还可以包括能够由用户佩戴的头戴式显示器(HMD)。一个或多个语音识别模型可以包括针对用户的话音识别模型。语音处理引擎还可以被配置为基于多个语音片段的属性而将HMD的用户标识为多个语音片段的说话者。HMD可以被配置为输出人工现实内容。人工现实内容可以包括虚拟会议应用,该虚拟会议应用包括视频流和音频流。
音频捕获系统可以包括麦克风阵列。
附加数据可以包括以下一项或多项:针对转录中所描述的会议或事件的日历邀请、与转录中所标识的主题相关的信息、和/或包括转录中所标识的任务的任务列表中。
附加数据可以包括以下至少一项:关于转录的包括说话者所说的词数的统计数据、说话者的语气、关于说话者使用的填充词的信息、说话者说话的时间百分比、关于所使用的脏话的信息、关于所使用的词的长度的信息、转录的摘要或说话者的情绪。
附加数据可以包括音频流,该音频流包括语音片段的与多个说话者中的至少一个说话者相关联的经修改版本。
该方法还可以包括:访问外部数据;并且针对多个语音片段中的每个语音片段,基于外部数据来标识说话者。外部数据可以包括日历信息和位置信息中的一项或多项。
附加数据可以包括以下一项或多项:针对转录中所描述的会议或事件的日历邀请、与转录中所标识的主题相关的信息、和/或包括转录中所标识的任务的任务列表。
附加数据可以包括以下至少一项:关于转录的包括说话者所说的词数的统计数据、说话者的语气、关于说话者使用的填充词的信息、说话者说话的时间百分比、关于所使用的脏话的信息、关于所使用的词的长度的信息、转录的摘要、或者说话者的情绪。
根据本发明的第二方面,提供了一种方法,包括:捕获与多个说话者相关联的音频数据;捕获多个说话者中的一个或多个说话者的图像;识别音频数据中的多个语音片段;针对多个语音片段中的每个语音片段以及基于图像来标识与该语音片段相关联的说话者;转录多个语音片段中的每个语音片段以产生多个语音片段的转录,针对多个语音片段中的每个语音片段,该转录包括对与该语音片段相关联的说话者的指示;以及分析转录以产生从转录得出的附加数据。
根据本发明的第三方面,提供了一种包括指令的计算机可读存储介质,该指令在被执行时将计算系统的处理电路装置配置为:捕获与多个说话者相关联的音频数据;捕获多个说话者中的一个或多个说话者的图像;识别音频数据中的多个语音片段;针对多个语音片段中的每个语音片段以及基于图像来标识与该语音片段相关联的说话者;转录多个语音片段中的每个语音片段以产生多个语音片段的转录,针对多个语音片段中的每个语音片段,该转录包括对与该语音片段相关联的说话者的指示;以及分析转录以产生从转录得出的附加数据。
这些技术具有各种技术优势和实际应用。例如,根据本公开的一个或多个方面的技术可以提供一种语音转录系统,其可以从转录生成附加数据。通过自动生成附加数据,根据本公开的技术的系统可以向用户提供服务,而用户不必说出向系统发信号通知命令或问题已被讲出来或将被讲出来的特定词(例如,“唤醒”词),并且可能没有具体的命令或指令。这可以促进用户与系统的交互,使交互与用户可能与另一用户交互的方式更加一致,从而使与系统的交互更加自然。
本公开的技术的一个或多个示例的细节在附图和以下描述中被阐述。这些技术的其他特征、目的和优点将从描述和附图中以及从权利要求中变得明显。
附图说明
图1A是描绘根据本公开的技术执行语音转录的示例系统的图示。
图1B是描绘根据本公开的技术执行语音转录的示例系统的图示。
图1C是描绘根据本公开的技术执行语音转录的示例系统的图示。
图2A是描绘根据本公开的技术的示例HMD的图示。
图2B是描绘根据本公开的技术的示例HMD的图示。
图3是描绘根据本公开的技术在其中由图1A和图1B的人工现实系统的HMD的示例实例执行语音转录的示例的框图。
图4是示出根据本公开的技术在其中由图1A和图1B的人工现实系统的HMD和转录系统的示例实例执行语音转录的示例实现的框图。
图5是示出根据本公开的技术在其中由图1C的系统的计算设备的示例实例执行语音转录的示例实现的框图。
图6是图示根据本公开的各方面的用于转录和分析语音的方法的示例操作的流程图。
图7图示根据本公开的技术的音频数据和转录。
图8是图示根据本公开的各方面的用于转录语音的方法的示例操作的流程图。
图9是图示根据本公开的各方面的用于标识语音片段的说话者的方法的示例操作的流程图。
图10是图示根据本公开的各方面的用于标识潜在说话者模型的方法的示例操作的流程图。
图11是图示根据本公开的各方面的用于针对分布式设备转录语音的方法的示例操作的流程图。
贯穿附图和描述,相同的附图标记指代相同的元件。
具体实施方式
图1A是描绘根据本公开的技术执行语音转录的系统10A的图示。在图1A的示例中,系统10A是包括头戴式设备(HMD)112的人工现实系统。如图所示,HMD 112通常由用户110佩戴并且包括用于向用户110呈现人工现实内容122的电子显示器和光学组件。此外,例如,HMD 112包括用于跟踪HMD 112的运动的一个或多个运动传感器(例如,加速度计)、用于捕获周围物理环境的音频数据的一个或多个音频捕获设备(例如,麦克风)、以及用于捕获周围物理环境的图像数据的一个或多个图像捕获设备(例如,相机、红外(IR)检测器、多普勒雷达、线扫描仪)。HMD 112被图示为经由网络104来与转录系统106通信,转录系统106可以对应于任何形式的计算资源。例如,转录系统106可以是物理计算设备或者可以是向客户端设备和其他设备或系统提供服务的云计算系统、服务器群和/或服务器集群(或其一部分)的组件。因此,转录系统106可以表示一个或多个物理计算设备、虚拟计算设备、虚拟机、容器和/或其他虚拟化计算设备。在一些示例实现中,HMD 112作为独立的移动人工现实系统来操作。
网络104可以是互联网,或者可以包括或表示任何公共或私人通信网络或其他网络。例如,网络104可以是或可以包括蜂窝、Wi-Fi、ZigBee、蓝牙、近场通信(NFC)、卫星、企业、服务提供方和/或能够在计算系统、服务器和计算设备之间传送传输数据的其他类型的网络。客户端设备、服务器设备或其他设备中的一个或多个设备可以使用任何合适的通信技术跨网络104传输和接收数据、命令、控制信号和/或其他信息。网络104可以包括一个或多个网络集线器、网络交换机、网络路由器、卫星天线或任何其他网络装备。这样的设备或组件可以可操作地相互耦合,从而提供在计算机、设备或其他组件之间的信息交换(例如,在一个或多个客户端设备或系统与一个或多个服务器设备或系统之间)。图1B中所图示的每个设备或系统可以使用一个或多个网络链路而可操作地被耦合到网络104。
一般来说,人工现实系统10A使用从真实世界的3D物理环境捕获的信息来渲染人工现实内容122以显示给用户110。在图1A的示例中,用户110观看由在HMD 112上执行的人工现实应用构建和渲染的人工现实内容122。人工现实内容122A可以对应于根据虚拟或视频会议应用、社交交互应用、移动指令应用、替代世界应用、导航应用、教育应用、游戏应用、训练或仿真应用、增强现实应用、虚拟现实应用、或者实现人工现实的其他类型的应用所渲染的内容。在一些示例中,人工现实内容122可以包括真实世界图像和虚拟对象的混合,例如混合现实和/或增强现实。
在操作期间,通过跟踪和计算参考框架的姿势信息,人工现实应用构建人工现实内容122以向用户110显示,参考框架通常是HMD 112的观看视角。使用HMD 112作为参考框架,并且基于由HMD 112的当前估计姿势所确定的当前视场130,人工现实应用渲染3D人工现实内容,在一些示例中,该内容可以至少部分地被覆盖在用户110的真实世界3D物理环境上。在此过程期间,人工现实应用使用从HMD 112接收的感测数据(诸如移动信息和用户命令)以及在一些示例中来自任何外部传感器(诸如外部相机)的数据,以在真实世界物理环境内捕获3D信息,诸如用户110的运动。基于感测数据,人工现实应用确定针对HMD 112的参考框架的当前姿势,并且根据HMD 112的当前姿势,渲染人工现实内容122。
更具体地,如本文进一步描述的,HMD 112的图像捕获设备捕获图像数据,该图像数据表示图像捕获设备138的视场130内的真实世界物理环境中的对象。这些对象可以包括人101A和102A。视场130通常对应于HMD 112的观看视角。
图1A描绘了用户110与人101A和102A交互的场景。人101A和102A两者都在HMD 112的视场130中,允许HMD 112捕获人101A和102A的音频数据和图像数据。HMD 112A可以向用户110显示在人工现实内容122中的人101B和102B,分别对应于人101A和102A。在一些示例中,人101B和/或102B可以分别是人101A和102A的未更改的图像。在其他示一些例中,人101B和/或人102B可以是与人101B和/或人102B相对应的化身(或任何其他虚拟表示)。
在图1A中所示的示例中,用户110说“Jack和Steve,你们好。怎么样了?(HelloJack and Steve.How’s it going?)”并且人101A响应“Mary在哪里?(Where is Mary?)”。在该场景期间,HMD 112捕获图像数据和音频数据,并且HMD 112的语音处理引擎(未示出)可以被配置为识别所捕获的音频数据中的语音片段以及标识与每个语音片段相关联的说话者。例如,语音处理引擎可以识别在音频数据中的语音片段“Jack和Steve,你们好。怎么样了”和“Mary在哪里?”。在一些示例中,语音处理引擎可以将单个词语(例如,“你们好”、“Jack”、“和”、“Steve”等)或一个或多个词的任何组合识别为语音片段。在一些示例中,基于针对用户110所存储的话音识别模型(例如,基于语音片段的属性类似于已存储的话音识别模型)和/或声音强度(例如,音量),语音处理引擎可以将用户110标识为“Jack和Steve,你们好。怎么样了”的说话者。
在一些示例中,语音处理引擎可以被配置为检测图像数据中具有移动的嘴唇的面部以识别语音片段(例如,语音片段的开始和结束)和/或标识说话者。例如,语音处理引擎可以检测人101A和102A的面部并且检测人101A的嘴部103正在移动,同时捕获到与语音片段“Mary在哪里?”相关联的音频。基于该信息,语音处理引擎可以将人101A确定为该语音片段的说话者。在另一示例中,语音处理引擎可以确定人101A是说话者,因为用户110在人101A正在说话的同时正在关注他(例如,在人101A的嘴唇正在移动并且音频数据正在被捕获的同时)。在一些示例中,语音处理引擎还获取其他信息,诸如例如位置信息(例如,GPS坐标)或日历信息,以标识说话者或标识潜在说话者模型。例如,语音处理引擎可以使用日历会议信息来标识人101A和102A。
语音处理引擎可以转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录。语音处理引擎还可以分析转录以产生从转录得出的附加数据。例如,在图1A中所示的示例中,语音处理引擎可以转录语音片段“Mary在哪里?”,分析日历信息,以及确定Mary拒绝了会议邀请。然后语音处理引擎可以生成警报105并且在人工现实内容122中向用户110显示该警报。以这种方式,语音处理引擎可以帮助用户110响应人101A。
语音处理引擎可以产生其他附加数据,诸如针对转录中所描述的会议或事件的日历邀请、与转录中所标识的主题相关的信息、或包括转录中所标识的任务的任务列表。在一些示例中,语音处理引擎可以生成通知。例如,处理引擎可以生成指示人101A正在关于Mary询问的通知并将该通知传输给Mary。在一些示例中,语音处理引擎可以产生关于转录的包括说话者所说的词数的统计数据、说话者的语气、说话者的音量、关于说话者使用的填充词的信息、每个说话者说话的时间百分比、关于所使用的脏话的信息、关于所使用的词的长度的信息、转录的摘要、或者说话者的情绪。语音处理引擎还可以产生语音片段的与多个说话者中的至少一个说话者相关联的经修改版本。例如,语音处理引擎可以生成一个音频或视频文件,其中一个或多个说话者的话音被另一种话音(例如,卡通人物的话音或名人的话音)替换,或者替换音频或视频文件中的一个或多个语音片段。
在一些示例中,语音处理引擎可以被包括在转录系统106中。例如,HMD 112可以捕获音频和图像数据并且通过网络104将音频和图像数据传输给转录系统106。转录系统106可以识别音频数据中的语音片段,标识与语音片段中的每个语音片段相关联的说话者,转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录,以及分析转录以产生从转录得出的附加数据。
本文描述的技术中的一个或多个技术可以具有各种技术优势和实际应用。例如,根据本公开的一个或多个方面的语音转录系统可以从转录生成附加数据。通过自动生成附加数据,根据本公开的技术的系统可以向用户提供服务,而无需用户说出“唤醒”词或者甚至无需录入命令或指令。这可以促进用户与系统的交互,使交互与用户可能与另一个用户交互的方式更加一致,从而使与系统的交互更加自然。
图1B是描绘根据本公开的技术执行语音转录的示例系统的图示。在这个示例中,用户110正佩戴112A,人101A正佩戴HMD 112B,并且人102A正佩戴112C。在一些示例中,用户110、101A和/或103A可以在相同的物理环境中或在不同的物理环境中。在图1B中,HMD 112A可以向用户110显示人工现实内容123中的人101B和102B。在这个示例中,人工现实内容123包括虚拟会议应用,该虚拟会议应用包括来自HMD 112B和HMD 112C中的每个HMD的视频流和音频流。在一些示例中,人101B和/或102B可以分别是人101A和102A的未更改的图像。在其他一些示例中,人101B和/或人102B可以是与人101B和/或人102B相对应的化身(或任何其他虚拟表示)。
在图1B中所示的示例中,HMD 112A、112B和112C(统称为“HMD 112”)彼此无线通信(例如,直接或经由网络104)。HMD 112中的每个HMD 112可以包括语音处理引擎(未示出)。在一些示例中,HMD 112中的每个HMD 112可以与图1A的HMD 112以基本相同的方式操作。在一些示例中,HMD 112A可以存储对应于用户110的第一语音识别模型,HMD 112B可以存储对应于用户101A的第二语音识别模型,并且HMD 112C可以存储对应于用户102A的第三语音识别模型。在一些示例中,HMD 112中的每个HMD 112可以共享和存储第一、第二和第三语音识别模型的副本。
在一些示例中,HMD 112中的每个HMD 112获取音频数据和/或图像数据。例如,HMD112中的每个HMD 112可以从其物理环境捕获音频数据和图像数据和/或从其他HMD 112获取音频数据和/或图像数据。在一些示例中,每个HMD 112可以转录与佩戴该HMD的用户对应的语音片段。例如,HMD 112A可以只转录对应于用户110的一个或多个语音片段,HMD 112B可以只转录对应于用户101A的一个或多个语音片段,并且HMD 112C可以只转录对应于用户102A的一个或多个语音片段。例如,在这样的示例中,HMD 112A将从其物理环境捕获音频数据和/或图像数据,识别音频数据中的语音片段,标识对应于用户110的语音片段(例如,基于针对用户110所存储的语音识别模型),以及转录对应于用户110的每个语音片段。HMD112中的每个HMD 112将向转录系统106传输其各自的转录。系统106将组合各个转录以产生完整的转录并分析完整的转录以产生从完整转录中得出的附加数据。以这种方式,每个HMD112不需要为其他用户存储语音识别模型。此外,转录来自对应用户的语音的每个HMD 112可以改进转录和/或说话者标识准确性。
在其他一些示例中,HMD 112中的每个HMD 112可以捕获音频和图像数据并且通过网络104(例如,在音频和视频流中)将音频和图像数据传输给转录系统106。转录系统106可以识别音频数据中的语音片段,标识与语音片段中的每个语音片段相关联的说话者,转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录,并且分析转录以产生从转录得出的附加数据。
图1C是描绘根据本公开的技术执行语音转录的示例系统10B的图示。在这个示例中,用户110、101和102处于相同的物理环境中并且计算设备120捕获音频和/或图像数据。在其他一些示例中,位于不同物理环境中的一个或多个其他用户可以是由计算设备120促进的与用户110、101和102的交互的一部分。图1C中的计算设备120被示为单个计算设备,其可以对应于移动电话、平板电脑、智能手表、游戏控制台、工作站、台式计算机、膝上型计算机、辅助设备、专用桌面设备或其他计算设备。在其他一些示例中,计算设备120可以跨多个计算设备分布。
在一些示例中,计算设备120可以执行与以上参考图1A和图1B中的HMD 112所描述的类似的转录操作。例如,计算设备120的语音处理引擎(未示出)可以识别音频数据中的语音片段,标识与语音片段中的每个语音片段相关联的说话者,转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录,以及分析转录以产生从转录中得出的附加数据。在另一示例中,计算设备120捕获音频和/或图像数据,将音频和/或图像数据传输给转录系统,并且然后转录系统106的语音处理引擎识别音频数据中的语音片段,标识与语音片段中的每个语音片段相关联的说话者,转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录,以及分析转录以产生从转录得出的附加数据。
在计算设备120促进涉及远程用户和/或不同物理环境中的用户的交互的示例中,计算设备120可以使用来自与远程用户相对应的设备的音频信息和图像或视频信息的任何指示(例如,音频和/或视频流),来识别(多个)音频流中的语音片段,标识与(多个)音频流中的语音片段中的每个语音片段相关联的说话者(例如,远程用户),转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者(包括远程说话者)的指示的转录,以及分析转录以产生从转录得出的附加数据。
图2A是描绘被配置为根据本公开的一个或多个技术来操作的示例HMD 112的图示。图2A的HMD 112可以是图1A的HMD 112或图1B的HMD 112A、112B和112C的示例。HMD 112可以作为被配置为实现本文所述的技术的独立的移动人工现实系统来操作,或者可以是系统的一部分,诸如图1A、图1B的系统10A。
在这个示例中,HMD 112包括前刚性主体和用于将HMD 112固定到用户的带。此外,HMD 112包括面向内部的电子显示器203,其被配置为向用户呈现人工现实内容。电子显示器203可以是任何合适的显示技术,诸如液晶显示器(LCD)、量子点显示器、点阵显示器、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、阴极射线管(CRT))显示器、电子墨水、或者单色、彩色或任何其他类型的能够生成视觉输出的显示器。在一些示例中,电子显示器是用于向用户的每只眼睛提供单独图像的立体显示器。在一些示例中,当跟踪HMD 112的定位和取向以根据HMD 112和用户的当前观看视角来渲染人工现实内容时,相对于HMD112的前刚体的显示器203的已知取向和定位被用作参考框架,也被称为局部原点。参考框架也可以被用于跟踪HMD 112的定位和取向。在其他一些示例中,HMD 112可以采取其他可佩戴的头戴式显示器的形式,诸如眼镜或护目镜。
如图2A中进一步所示,在这个示例中,HMD 112还包括一个或多个运动传感器206,诸如输出指示HMD 112的当前加速度的数据的一个或多个加速度计(也称为惯性测量单元或“IMU”)、输出指示HMD 112的位置的数据的GPS传感器、输出指示HMD 112与各种对象的距离的数据的雷达或声纳、或提供对HMD 112或物理环境内的其他对象的位置或取向的指示的其他传感器。此外,HMD 112可以包括集成的图像捕获设备208A和208B(统称为“图像捕获系统208”,其可以包括任何数目的图像捕获设备)(例如,摄像机、静态相机、IR扫描仪、UV扫描仪、激光扫描仪、多普勒雷达扫描仪、深度扫描仪)和音频捕获系统209(例如,麦克风),其分别被配置为捕获原始图像和音频数据。在一些方面,图像捕获系统208可以从电磁光谱的可见光谱和不可见光谱(例如,IR光)捕获图像数据。图像捕获系统208可以包括从可见光谱捕获图像数据的一个或多个图像捕获设备和从不可见光谱捕获图像数据的一个或多个分开的图像捕获设备,或者这些可以被组合在相同的一个或多个图像捕获设备中。更具体地,图像捕获系统208捕获表示图像捕获系统208的视场130内的物理环境中的对象的图像数据,视场130通常对应于HMD 112的观看视角,并且音频捕获系统209捕获在HMD 112附近的音频数据(例如,在音频捕获设备的360度范围内)。在一些示例中,音频捕获系统209可以包括麦克风阵列,该麦克风阵列可以捕获关于音频源相对于HMD 112的方向性的信息。HMD112包括内部控制单元210,其可以包括内部电源和具有一个或多个处理器、存储器和硬件的一个或多个印刷电路板,以提供用于执行可编程操作来处理感测数据以及在显示器203上呈现人工现实内容的操作环境。
在一个示例中,根据本文描述的技术,控制单元210被配置为识别利用音频捕获系统209所捕获的音频数据中的语音片段,标识与每个语音片段相关联的说话者,转录语音片段中的每个语音片段以产生多个语音片段的转录,该转录包括对与每个语音片段相关联的说话者的指示,并且分析转录以产生从转录得出的附加数据。在一些示例中,控制单元210使音频数据和/或图像数据通过网络104被传输给转录系统106(例如,以与音频数据和/或图像数据被捕获时近实时或看似近实时的方式,或在交互完成之后)。
图2B是描绘根据本公开的技术的示例HMD 112的图示。如图2B中所示,HMD 112可以采取眼镜的形式。图2A的HMD 112可以是图1A和图1B的HMD 112中的任何HMD 112的示例。HMD 112可以是系统的一部分,诸如图1A-图1B的系统10A,或者可以作为独立的移动系统来操作,该移动系统被配置为实现本文描述的技术。
在这个示例中,HMD 112是包括前框架的眼镜,该前框架包括允许HMD 112搁置在用户的鼻子上的梁和眼镜腿(或“臂部”),其在用户的耳朵上延伸以将HMD 112固定到用户。此外,图2B的HMD 112包括面向内部的电子显示器203A和203B(统称为“电子显示器203”),其被配置为向用户呈现人工现实内容。电子显示器203可以是任何合适的显示技术,诸如液晶显示器(LCD)、量子点显示器、点阵显示器、发光二极管(LED)显示器、有机发光二极管(OLED)显示器、阴极射线管(CRT))显示器、电子墨水、或者单色、彩色或任何其他类型的能够生成视觉输出的显示器。在图2B中所示的示例中,电子显示器203形成用于向用户的每只眼睛提供单独图像的立体显示器。在一些示例中,当跟踪HMD 112的定位和取向以根据HMD112和用户的当前观看视角来渲染人工现实内容时,相对于HMD 112的前框架的显示器203的已知取向和定位被用作参考框架,也被称为局部原点。
如图2B中进一步所示,在这个示例中,HMD 112还包括一个或多个运动传感器206,诸如输出指示HMD 112的当前加速度的数据的一个或多个加速度计(也称为惯性测量单元或“IMU”)、输出指示HMD 112的位置的数据的GPS传感器、输出指示HMD 112与各种对象的距离的数据的雷达或声纳、或者提供对HMD 112或物理环境内的其他对象的位置或取向的指示的其他传感器。此外,HMD 112可以包括集成的图像捕获设备208A和208B(统称为“图像捕获系统208”)(例如,摄像机、静态相机、IR扫描仪、UV扫描仪、激光扫描仪、多普勒雷达扫描仪、深度扫描仪)和音频捕获系统209(例如,麦克风),其分别被配置为捕获图像和音频数据。在一些方面,图像捕获系统208可以从电磁光谱的可见光谱和不可见光谱(例如,IR光)捕获图像数据。图像捕获系统208可以包括从可见光谱捕获图像数据的一个或多个图像捕获设备和从不可见光谱捕获图像数据的一个或多个分开的图像捕获设备,或者这些可以被组合在相同的一个或多个图像中捕获设备中。更具体地,图像捕获系统208捕获表示图像捕获系统208的视场130内的物理环境中的对象的图像数据,视场130通常对应于HMD 112的观看视角,并且音频捕获系统209捕获在HMD 112附近的音频数据(例如,在音频捕获设备的360度范围内)。HMD 112包括内部控制单元210,其可以包括内部电源和具有一个或多个处理器、存储器和硬件的一个或多个印刷电路板,以提供用于执行可编程操作来处理感测数据以及在显示器203上呈现人工现实内容的操作环境。根据本文描述的技术,图2B的控制单元210被配置为与图2A的控制单元210类似地操作。
图3是描绘根据本公开的技术在其中由图1A和图1B的人工现实系统的HMD 112的示例实例执行语音转录的示例的框图。在图3的示例中,HMD 112根据本文描述的技术执行图像和音频数据捕获、说话者标识、转录和分析操作。
在这个示例中,HMD 112包括一个或多个处理器302和存储器304,在一些示例中,它们提供用于执行操作系统305的计算机平台,操作系统305例如可以是嵌入式实时多任务操作系统,或其他类型的操作系统。进而,操作系统305提供用于执行一个或多个软件组件317的多任务操作环境。处理器302耦合到一个或多个I/O接口315,其提供用于与诸如显示设备、图像捕获设备、其他HMD等的其他设备通信的I/O接口。此外,一个或多个I/O接口315可以包括一个或多个有线或无线网络接口控制器(NIC),用于与诸如网络104的网络通信。此外,(多个)处理器302耦合到电子显示器203、运动传感器206、图像捕获系统208和音频捕获系统209。在一些示例中,处理器302和存储器304可以是分开的、分立的组件。在其他一些示例中,存储器304可以是在单个集成电路内与处理器302并置的片上存储器。图像捕获系统208和音频捕获系统209分别被配置为获取图像数据和音频数据。
一般来说,应用引擎320包括提供和呈现人工现实应用的功能性,例如转录应用、话音助理应用、虚拟会议应用、游戏应用、导航应用、教育应用、训练或仿真应用等。应用引擎320可以包括例如一个或多个软件包、软件库、硬件驱动和/或应用程序接口(API),以用于在HMD 112上实现人工现实应用。响应于应用引擎320的控制,渲染引擎322生成3D人工现实内容以用于由HMD 112的应用引擎340显示给用户。
应用引擎340和渲染引擎322根据参考框架内的HMD 112的当前姿势信息构建人工内容以显示给用户110,参考框架通常是由姿势跟踪器326确定的HMD 112的观看视角。基于当前观看视角,渲染引擎322构建3D人工现实内容,在一些情况下,该内容可以至少部分地被覆盖在用户110的真实世界3D环境上。在此过程期间,姿势跟踪器326对从HMD 112接收到的感测数据和用户命令进行操作,以捕获真实世界环境内的3D信息,诸如用户110的运动,和/或关于用户110的特征跟踪信息。在一些示例中,应用引擎340和渲染引擎322可以根据本公开的技术生成和渲染用于转录应用或话音助理应用的一个或多个用户界面以供显示。例如,应用引擎340和渲染引擎322可以生成和渲染用户界面以供显示,以用于显示转录和/或附加数据。
HMD 112的软件应用317操作以提供整体人工现实应用,包括转录应用。在这个示例中,软件应用317包括渲染引擎322、应用引擎340、姿势跟踪器326、语音处理引擎341、图像数据330、音频数据332、说话者模型334和转录336。在一些示例中,HMD 112可以(例如,在存储器304中)存储其他数据,包括位置信息、针对用户的日历事件数据(例如,受邀者员、已确认人员、会议主题)等。在一些示例中,图像数据330、音频数据332、说话者模型334和/或转录336可以表示储存库或高速缓存。
语音处理引擎341根据本公开的技术执行与转录音频数据332中的语音相关的功能以及分析转录。在一些示例中,语音处理引擎341包括语音识别引擎342、说话者标识器344、语音转录器346和话音助理应用348。
语音识别引擎342执行与识别音频数据332中的一个或多个语音片段相关的功能。在一些示例中,语音识别引擎342将一个或多个语音片段存储在音频数据332中(例如,与原始模拟数据分开)。语音片段可以包括一个或多个说出的词。例如,语音片段可以是单个词、两个或更多个词、或者甚至是短语或完整的句子。在一些示例中,语音识别引擎342使用任何语音识别技术来识别音频数据332中的一个或多个语音片段。例如,音频数据332可以包括模拟数据并且语音识别引擎342可以使用模数转换器(ADC)将模拟数据转换为数字数据,过滤数字化音频数据中的噪声,并且将一个或多个统计模型(例如,隐马尔可夫模型或神经网络)应用于经过滤的数字化音频数据以识别一个或多个语音片段。在一些示例中,语音识别引擎342可以应用人工智能(AI)/机器学习(ML)模型,该模型被训练来识别针对一个或多个特定用户(例如,图1A-图1C的用户110)的语音。在一些示例中,AI/ML模型可以从用户接收训练反馈以调整语音识别确定。在一些示例中,语音识别引擎342可以基于图像数据330来识别音频数据332中的一个或多个语音片段。例如,语音识别引擎342可以被配置为检测图像数据中具有移动的嘴唇的面部以识别语音片段(例如,语音片段的开始和结束)。
说话者标识器344执行与标识与由语音识别引擎342识别的一个或多个语音片段中的每一个语音片段相关联的说话者相关的功能。例如,说话者标识器344可以被配置为检测图像数据330中具有移动的嘴唇的面部以标识说话者或潜在说话者。在另一示例中,音频捕获系统209可以包括麦克风阵列,该麦克风阵列可以捕获关于音频源相对于HMD 112的方向性的信息,并且说话者标识器344可以基于该方向性信息和图像数据330来标识说话者或潜在说话者(例如,说话者标识器344可以基于关于语音片段“Mary在哪里?”的方向性信息来标识图1中的人101A)。在又一示例中,说话者标识器344将基于用户关注谁(例如,基于HMD 112的视场)来标识说话者。在一些示例中,说话者标识器344可以确定针对每个语音片段的散列值或嵌入值,(例如,从说话者模型334)获取潜在说话者模型,将散列值与潜在说话者模型比较,并标识与散列值最接近的说话者模型。说话者标识器344可以基于外部数据、图像数据330(例如,基于检测到的具有移动的嘴唇的面部)和/或用户输入来标识潜在说话者模型。例如,说话者标识器344可以基于日历信息(例如,关于确认的或潜在的会议受邀者的信息)、在图像数据330中所标识的一个或多个面部、位置信息(例如,相对于HMD 112的与其他人相关联的人或设备的接近度信息)和/或基于经由用户输入所选择的潜在说话者模型来标识潜在说话者。在一些示例中,如果针对语音片段的散列值与最接近的说话者模型之间的差异等于或大于阈值差异,则说话者标识器344可以基于散列值来创建新的说话者模型并且将新的说话者模型关联到语音片段。如果语音片段的散列值与最接近的说话者模型之间的差异小于阈值差异,则说话者标识器344可以将与最接近的说话者模型相关联的说话者标识为语音片段的说话者。在一些示例中,说话者模型334可以包括针对不同说话者的散列值(或其他话音属性)。在一些示例中,说话者模型344可以包括AI/ML模型,该AI/ML模型被训练来标识一个或多个说话者(例如,图1A-图1C的人110、101、102)的语音。在一些示例中,AI/ML模型可以从用户接收训练反馈以调整说话者标识确定。说话者模型334还可以包括说话者标识符(ID)、名称或标签,其由说话者标识器344自动生成(例如,“说话者1”、“说话者2”等)或由用户(例如,说话者)经由I/O接口315手动录入(“Jack”、“Steve”、“老板”等)。在一些示例中,每个说话者模型344可以包括说话者的一个或多个图像和/或针对说话者的面部的散列值。
在一些示例中,说话者标识器344可以被配置为标识归属于HMD 112的用户的语音片段。例如,说话者标识器344可以应用特定于HMD 112的用户(例如,用户110)的说话者模型,以标识与用户相关联的一个或多个语音片段(例如,基于语音片段的属性与用户说话者模型类似来标识用户110说出的语音片段)。换言之,说话者标识器344可以针对由HMD 112的用户说出的(多个)语音片段过滤由语音识别引擎342识别的一个或多个说话者片段。
语音转录器346执行与转录由语音识别引擎342识别的语音片段相关的功能。例如,语音转录器346产生由语音识别引擎342识别的一个或多个语音片段的文本输出,该文本输出具有对由说话者标识器344标识的一个或多个说话者的指示。在一些示例中,语音转录器346产生由语音识别引擎342识别的与HMD 112的用户(例如,用户110)相关联的一个或多个语音片段的文本输出。换言之,在一些示例中,语音转录器346仅产生针对如说话者标识器344所标识的由HMD 112的用户说出的一个或多个语音片段的文本输出。无论哪种方式,语音转录器346然后将文本输出存储在转录336中。
话音助理应用348执行与分析转录以产生从转录得出的附加数据相关的功能。例如,话音助理应用348可以产生附加数据,诸如针对转录中所描述的会议或事件的日历邀请(例如,对应于语音片段“星期五早上第一件事让我们再次取得联系”,与转录中所标识的主题相关的信息(例如,会议受邀者拒绝会议邀请的通知,如图1A中所示,对未出现在交互中的人的通知),或者包括转录中所标识的任务的任务列表(例如,对应于语音片段“请在会议结束后发出上个月的销售报告”的任务项)。在一些示例中,话音助理应用348可以产生关于转录的包括说话者所说的词数的统计数据、说话者的语气、关于说话者使用的填充词的信息(例如,嗯、哼、哦、如,等等)、每个说话者说话的时间百分比、所使用的脏话的信息、关于所使用的词的长度的信息、转录的摘要、或者说话者的情绪。话音助理应用348还可以产生语音片段的与多个说话者中的至少一个相关联的经修改版本。例如,话音助理应用348可以生成音频或视频文件,其中一个或多个说话者的话音被另一种话音(例如,卡通的话音或名人的话音)替换,或者替换音频或视频文件中的一个或多个语音片段的语言。
如上所述,说话者模型334可以包括各种AI/ML模型。这些AI/ML模型可以包括人工神经网络(ANN)、决策树、支持向量网络、贝叶斯网络、遗传算法、线性回归、逻辑回归、线性鉴别分析、朴素贝叶斯、k-最近邻、学习向量量化、支持向量机、随机决策森林、或者任何其他已知的AI/ML数学模型。可以训练这些AI/ML模型来处理音频数据以及识别语音片段和/或标识语音片段的说话者。例如,可以训练这些AI/ML模型以识别音频数据332中的语音和/或特定话音。在一些示例中,可以训练这些AI/ML模型以标识图像数据中的潜在说话者。例如,可以训练这些AI/ML模型以识别图像数据330中的人(例如,面部)和/或移动的嘴唇。在一些示例中,可以利用针对一个或多个用户的语音数据集和/或对应于一个或多个用户的图像集来训练说话者模型334。在一个或多个方面,被存储在图像数据330、音频数据332、说话者模型334和/或转录336中的每项中的信息可以被存储在储存库、数据库、地图、搜索树、或者任何其他数据结构中。在一些示例中,图像数据330、音频数据332、说话者模型334和/或转录336可以与HMD 112分开(例如,可以是通过图1A的网络104来与HMD 112通信的(多个)分开的数据库。
运动传感器206可以包括传感器,诸如输出指示HMD 112的当前加速度的数据的一个或多个加速度计(也称为惯性测量单元或“IMU”)、输出指示HMD与各种对象的距离的数据的雷达或声纳112、或者提供对HMD 112或物理环境内的其他对象的位置或取向的指示的其他传感器。
图4是示出根据本公开的技术的其中由图1A、图1B的人工现实系统的HMD和转录系统的示例实例执行语音转录的示例实现的框图。在图4的示例中,HMD 112捕获音频和/或图像数据并将音频和/或图像数据传输给转录系统106。根据本文描述的一种或多种技术,转录系统106的语音识别引擎441识别音频数据中的语音片段,标识与语音片段中的每个语音相关联的说话者,转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录,以及分析转录以产生从转录得出的附加数据。
在这个示例中,并且以类似于图3的方式,HMD 112包括一个或多个处理器302和存储器304,在一些示例中,它们提供用于执行操作系统305的计算机平台,操作系统305例如可以是嵌入式实时多任务操作系统、或者其他类型的操作系统。进而,操作系统305提供用于执行一个或多个软件组件317的多任务操作环境。此外,(多个)处理器302耦合到电子显示器203、运动传感器206、图像捕获系统208和音频捕获系统209。在一些示例中,HMD 112还包括图3中所示的组件中的任何其他组件。例如,HMD 112可以包括语音处理引擎341(其包括语音识别引擎342、说话者标识器344、语音转录器346和话音助理应用348)、图像数据330、音频数据332、说话者模型334和转录336。
一般来说,转录系统106是一种设备,该设备处理从HMD 112接收到的音频和/或图像数据以产生包括对音频数据中包含的语音片段中的一个或多个说话者的指示的转录,以及从转录得出的附加数据产生附加数据。在一些示例中,转录系统106是单个计算设备,诸如服务器、工作站、台式计算机、膝上型计算机、或者游戏系统。在其他一些示例中,转录系统106的至少一部分(诸如处理器412和/或存储器414)可以跨云计算系统、数据中心或跨网络分布,网络诸如是互联网、另一公共或私人通信网络,例如宽带、蜂窝、Wi-Fi和/或用于在计算系统、服务器和计算设备之间传输数据的其他类型的通信网络。
在图4的示例中,转录系统106包括一个或多个处理器412和存储器414,在一些示例中,它们提供用于执行操作系统416的计算机平台,操作系统416例如可以是嵌入式实时多任务操作系统或其他类型的操作系统。进而,操作系统416提供用于执行一个或多个软件组件417的多任务操作环境。处理器412耦合到一个或多个I/O接口415,该I/O接口415提供用于与诸如键盘、鼠标、游戏控制器、显示设备、图像捕获设备、HMD等的其他设备通信的I/O接口。此外,一个或多个I/O接口415可以包括一个或多个有线或无线网络接口控制器(NIC),用于与诸如网络104的网络通信。处理器302、412中的每个处理器可以包括以下中的任何一个或多个:多核处理器、控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或者等效的分立或集成逻辑电路。存储器304、414可以包括用于存储数据和可执行软件指令的任何形式的存储器,诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM))、电可擦除可编程只读存储器(EEPROM)和闪存。
转录系统106的软件应用417操作以提供转录应用。在这个示例中,软件应用417包括渲染引擎422、应用引擎440、姿势跟踪器426、语音处理引擎441、图像数据430、音频数据432、说话者模型434和转录436。类似于图3的语音处理引擎341,语音处理引擎441包括语音识别引擎442、说话者标识器444、语音转录器446和话音助理应用448。
一般来说,应用引擎440包括提供和呈现人工现实应用的功能性,例如转录应用、话音助理应用、虚拟会议应用、游戏应用、导航应用、教育应用、训练或仿真应用等。应用引擎440可以包括例如一个或多个软件包、软件库、硬件驱动和/或应用程序接口(API),以用于在计算系统120上实现人工现实应用。响应于应用引擎440的控制,渲染引擎422生成3D人工现实内容以用于由HMD 112的应用引擎340显示给用户。
应用引擎440和渲染引擎422执行与根据参考框架内的HMD 112的当前姿势信息构建人工内容以显示给用户110相关的功能,参考框架通常是由姿势确定跟踪器426确定的HMD 112的观看视角。基于当前观看视角,渲染引擎422构建3D人工现实内容,在一些情况下,该内容可以至少部分地被覆盖在用户110的真实世界3D环境上。在此过程期间,姿势跟踪器426对从HMD 112接收到的感测数据(诸如来自HMD 112上的传感器的图像数据430)进行操作,并且在一些示例中对来自外部传感器(诸如外部相机)的数据进行操作,以捕获真实世界环境内的3D信息,诸如由用户110进行的运动,和/或相关于用户110的特征跟踪信息。基于感测数据,计算系统120经由一个或多个I/O接口315、415构建人工现实内容以用于传送给HMD 112以显示给用户110。在一些示例中,应用引擎440和渲染引擎422可以根据本公开的技术生成和渲染用于多媒体查询应用的一个或多个用户界面以供显示。例如,应用引擎440和渲染引擎422可以生成和呈现用于显示的用户界面,以用于显示转录和/或附加数据。
语音识别引擎442执行与识别从HMD 112接收到的音频数据432中的一个或多个语音片段相关的功能(例如,如上文参考图3的语音识别引擎342所描述的)。在一些示例中,语音识别引擎442将一个或多个语音片段存储在音频数据432中(例如,与原始模拟数据分开)。语音片段可以包括一个或多个说出的词。例如,语音片段可以是单个词、两个或更多个词、或者甚至是短语或完整的句子。
说话者标识器444执行与标识与由语音识别引擎442识别的一个或多个语音片段中的每个语音片段相关联的说话者相关的功能。例如,说话者标识器444可以被配置为检测图像数据430中具有移动的嘴唇的面部以标识说话者或潜在说话者。在另一示例中,HMD112的音频捕获系统209可以包括麦克风阵列,该麦克风阵列可以捕获关于音频源相对于HMD 112的方向性的信息,并且说话者标识器444可以基于该方向性信息和图像数据430来标识说话者或潜在说话者(例如,说话者标识器444可以基于关于语音片段“Mary在哪里?”的方向性信息来标识图1中的人101A)。在又一示例中,说话者标识器444将基于用户关注谁(例如,基于HMD 112的视场)来标识说话者。
在一些示例中,说话者标识器444可以确定针对每个语音片段的散列值或嵌入值,(例如,从说话者模型434)获取潜在说话者模型,将散列值与潜在说话者模型相比较,以及标识与散列值最接近的说话者模型。说话者标识器444可以基于外部数据、从HMD 112接收的图像数据430(例如,基于检测到的具有移动的嘴唇的面部)和/或用户输入来标识潜在说话者模型。例如,说话者标识器344可以基于日历信息(例如,关于确认的或潜在的会议受邀者的信息)、在从HMD 112接收到的图像数据430中所标识的一个或多个面部、位置信息(例如,相对于HMD 112的与其他人相关联的人或设备的接近度信息)、和/或基于经由用户输入所选择的潜在说话者模型来标识潜在说话者。在一些示例中,如果语音片段的散列值与最接近的说话者模型之间的差异等于或大于阈值差异,则说话者标识器444可以基于散列值来创建新的说话者模型并且将新的说话者模型关联到语音片段。如果语音片段的散列值与最接近的说话者模型之间的差异小于阈值差异,则说话者标识器444将与最接近的说话者模型相关联的说话者标识为语音片段的说话者。在一些示例中,说话者模型434可以包括针对不同说话者的散列值。
在一些示例中,说话者标识器444可以被配置为标识归属于HMD 112的用户的语音片段。例如,说话者标识器444可以应用特定于HMD 112的用户(例如,用户110)的说话者模型,以标识与用户相关联的一个或多个语音片段(例如,基于语音片段的属性与用户说话者模型类似来标识用户110说出的语音片段)。
类似于上面关于图3描述的语音转录器346,语音转录器446执行与转录由语音识别引擎442识别的一个或多个语音片段相关的功能。例如,语音转录器446产生由语音识别引擎442识别的一个或多个语音片段的文本输出并将文本输出存储在转录436中,该文本输出具有对由说话者标识器444标识的一个或多个说话者的指示。在一些示例中,语音转录器346仅产生如说话者标识器444所标识的由HMD 112的用户说出的一个或多个语音片段的文本输出。在一些示例中,语音处理引擎441将文本输出传输给HMD 112。
话音助理应用448执行与分析转录以产生从转录得出的附加数据相关的功能。例如,话音助理应用448可以产生附加数据,诸如针对转录中所描述的会议或事件的日历邀请(例如,对应于语音片段“星期五早上第一件事让我们再次取得联系”,与转录中所标识的主题相关的信息(例如,会议受邀者拒绝会议邀请的通知,如图1A中所示,对未出现在交互中的人的通知),或者包括转录中标识的任务的任务列表(例如,对应于语音片段“请在会议结束后发出上个月的销售报告”的任务项)。在一些示例中,话音助理应用448可以产生关于转录的包括说话者说出的词数的统计数据、说话者的语气、关于说话者使用的填充词的信息(例如,嗯、哼、哦、如,等等)、每个说话者说话的时间百分比、所使用的脏话的信息、关于所使用的词的长度的信息、转录的摘要或说话者的情绪。话音助理应用448还可以产生语音片段的与多个说话者中的至少一个说话者相关联的经修改版本。例如,话音助理应用348可以生成音频或视频文件,其中一个或多个说话者的话音被另一种话音(例如,卡通的话音或名人的话音)替换,或者替换音频或视频文件中的一个或多个语音片段的语言。在一些示例中,语音处理引擎441将附加数据传输给HMD 112。
类似于上面关于图3描述的说话者模型334,说话者模型434可以包括各种AI/ML模型。可以训练这些AI/ML模型来处理音频数据以及识别语音片段和/或标识语音片段的说话者。例如,可以训练这些AI/ML模型以识别音频数据432中的语音和/或特定话音。在一些示例中,可以训练这些AI/ML模型以标识图像数据中的潜在说话者。例如,可以训练这些AI/ML模型以识别图像数据430中的人(例如,面部)和/或移动的嘴唇。在一些示例中,可以利用一个或多个用户的语音数据集和/或对应于一个或多个用户的图像集来训练说话者模型334。在一些示例中,AI/ML模型可以(例如,经由I/O接口415)接收来自用户的训练反馈以调整说话者标识确定。说话者模型334还可以包括说话者标识符、名称或标签,其由说话者标识器344自动生成(例如,“说话者1”、“说话者2”等)或者由用户经由I/O接口415手动输入(例如,“Jack”、“Steve”、“老板”等)。在一些示例中,说话者模型344可以各自包括说话者的一个或多个图像和/或针对说话者的面部的散列值。
在一些示例中,转录系统106从两个或更多个HMD(例如,图1B的HMD 112)接收音频和/或图像数据。在一些示例中,每个HMD可以传输相同物理环境的或者来自不同物理环境的音频和/或图像数据(例如,如图1B中所示)。通过从两个或更多个不同源捕获关于相同环境的音频和/或图像数据,更大量的信息可以被捕获。例如,可以从两个或更多个不同的视角捕获图像数据,或者可以从环境的两个不同点捕获音频数据,这可以使得能够捕获不同的声音。在一些示例中,转录系统106根据从所有HMD接收到的数据产生单个转录。
图5是示出根据本公开的技术在其中由图1C的系统的计算设备120的示例实例执行语音转录的示例实现的框图。在图5的示例中,计算设备120执行如上文参考图3的HMD112描述的图像和音频数据捕获、说话者标识、转录和分析操作。
在这个示例中,计算设备120包括一个或多个处理器502和存储器504,在一些示例中,它们提供用于执行操作系统505的计算机平台,操作系统505例如可以是嵌入式实时多任务操作系统或其他类型的操作系统。进而,操作系统505提供用于执行一个或多个软件组件517的多任务操作环境。处理器502耦合到一个或多个I/O接口515,其提供用于与诸如键盘、鼠标、游戏控制器、显示设备、图像捕获设备、其他HMD等的其他设备通信的I/O接口。此外,一个或多个I/O接口515可以包括一个或多个有线或无线网络接口控制器(NIC),用于与诸如网络104之类的网络通信。此外,(多个)处理器502耦合到电子显示器503、图像捕获系统508和音频捕获系统509。图像捕获系统208和音频捕获系统209被配置为分别获取图像数据和音频数据。
图5中的计算设备120被示出为单个计算设备,其可以对应于移动电话、平板电脑、智能手表、游戏控制台、工作站、台式计算机、膝上型计算机或其他计算设备。在其他一些示例中,计算设备120可以跨多个计算设备(诸如分布式计算网络、数据中心或云计算系统)分布。
计算系统的软件应用517操作以提供转录应用。分别类似于图3和图4的软件应用317和软件应用417,软件应用517包括渲染引擎522、应用引擎540、语音处理引擎541、图像数据530、音频数据532、说话者模型534和转录536。分别类似于图3和图4的语音处理引擎341和语音处理引擎441,语音处理引擎541包括语音识别引擎542、说话者标识器544、语音转录器546和话音助理应用548。
类似于HMD 112处理音频和/或图像数据的方式(例如,如上文关于图3所述),计算系统120捕获音频和/或图像数据并将音频和/或图像数据传输给转录系统106,并且转录系统106的语音识别引擎441识别音频数据中的语音片段,标识与语音片段中的每个语音片段相关联的说话者,转录每个语音片段以产生包括与每个语音片段相关联的说话者的指示的转录,以及分析转录以产生从转录得出的附加数据。
在一些示例中,图5的计算设备120简单地捕获图像数据530和音频数据532并将该数据传输给转录系统106。转录系统106以与其处理从HMD 112接收到的音频和/或图像数据相同的方式处理从计算设备120接收到的音频和/或图像数据以产生包括对音频数据中包含的语音片段中的一个或多个说话者的指示的转录,并且从转录得出的附加数据产生附加数据(例如,如上文关于图4所描述的)。
在一些示例中,转录系统106从图4的HMD 112和图5的计算设备120接收音频和/或图像数据。在一些示例中,HMD 112和计算设备120可以传输相同物理环境的或来自不同物理环境的音频和/或图像数据。通过从两个或更多个不同源捕获关于相同环境的音频和/或图像数据,更大量的信息可以被捕获。例如,可以从两个或更多个不同的视角捕获图像数据,或者可以从环境的两个不同点捕获音频数据,这可以使得能够捕获不同的声音。在一些示例中,转录系统106以与其处理来自计算设备120的数据相同或类似的方式处理来自HMD112的数据,反之亦然,并且根据从HMD 112和计算设备120接收到的数据产生单个转录。
图6是图示了根据本公开的各方面的用于转录和分析语音的方法的示例操作的流程图600。在一些示例中,图6中所示的一个或多个操作可以由HMD 112、计算设备120和/或转录系统106执行。
HMD 112的音频捕获系统209和图像捕获系统208和/或计算设备120的音频捕获系统509和图像捕获系统508捕获音频和图像数据(602)。在一些示例中,音频和/或图像数据是自动或手动被捕获的。例如,HMD 112和/或计算系统120的音频和/或图像捕获系统可以被配置为在通电时总是捕获音频和/或图像数据。在一些示例中,HMD 112的多媒体捕获系统138和/或计算系统130的多媒体系统138可以被配置为响应于发起数据捕获的用户输入和/或响应于发起转录、虚拟会议、或话音助理应用而捕获多媒体数据。在一些示例中,HMD112和/或计算设备120可以将音频和/或图像数据传输给转录系统106(例如,实时地、近实时地或者在交互终止之后)。
语音处理引擎341、441或541使用图像数据来转录音频数据(604)。例如,语音处理引擎341、441或541可以识别音频数据中的语音片段,标识与语音片段中的每个语音片段相关联的说话者,并且转录每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录。
话音助理应用348、448或548然后分析转录以产生从转录得出的附加数据(606)。例如,话音助理应用348、448或548可以产生附加数据,诸如针对转录中所描述的会议或事件的日历邀请(例如,对应于语音片段“星期五早上第一件事让我们再次取得联系”、与转录中所标识的主题相关的信息(例如,会议受邀者拒绝会议邀请的通知,如图1A中所示,对未出现在交互中的人的通知),或者包括转录中所标识的任务的任务列表(例如,对应于语音片段“请在会议结束后发出上个月的销售报告”的任务项)。
在一些示例中,附加数据可以包括关于转录的包括说话者所说的词数的统计数据、说话者的语气、关于说话者使用的填充词的信息(例如,嗯、哼、哦、如,等等)、每个说话者说话的时间百分比、所使用的脏话的信息、关于所使用的词的长度的信息、转录的摘要、或者说话者的情绪(例如,每个片段或整个转录)。话音助理应用348、448或548还可以产生语音片段的与多个说话者中的至少一个说话者相关联的经修改版本。例如,话音助理应用348、448或548可以生成音频或视频文件,其中一个或多个说话者的话音被另一种话音(例如,卡通的话音或名人的话音)替换,或者替换音频或视频文件中的一个或多个语音片段的语言。在一些示例中,话音助理应用348、448或548实时地(例如,在音频和图像数据被捕获时)、近实时地、在交互终止之后、或者在HMD 112或计算设备120停止捕获图像或图像数据之后分析转录。
图7图示了根据本公开的技术的音频数据702和转录706。在图7中所示的示例中,音频数据702对应于由HMD 112的音频捕获系统209或计算设备120的音频捕获系统509捕获的模拟数据。语音识别引擎342、442或552识别音频数据702中的语音片段704A、704B、704C(统称为“语音片段704”)并且生成对应的转录语音片段706A、706B和706C(统称为“转录706”)。虽然语音片段704每个都包括整个句子,但是语音片段可以包括一个或多个词。例如,语音片段可能并不总是包括整个句子,并且可以包括单个词或短语。在一些示例中,语音识别引擎342、442或552可以组合一个或多个词以形成包括完整句子的语音片段,如图7中所示。
在图7中所示的示例中,说话者标识器344、444或544将“说话者1”标识为语音片段706A和706B的说话者并且将“说话者2”标识为语音片段706C的说话者(例如,基于上面参考图3-图5描述的说话者模型和/或图像数据)。在一些示例中,标签或标识符“说话者1”和“说话者2”(被插入到结果转录中)可以由说话者标识器344、444或544自动生成。在其他一些示例中,这些标识符或标签可以由用户手动录入,并且可以包括名称(例如,“Jack”、“Steve”、“老板”等)。无论哪种方式,这些标签、标识符或名称都可以提供对作为转录中的语音片段源的说话者的指示。
在一些示例中,话音助理应用348、448或548可以分析转录706以产生附加数据。例如,话音助理应用348、448或548可以产生通知(例如,如图1A所示的“Mary拒绝了会议邀请”的通知)。在一些示例中,附加数据可以包括关于转录的包括说话者所说的词数的统计数据、说话者的语气、关于说话者使用的填充词的信息(例如,嗯、哼、哦、如,等等)、每个说话者说话的时间百分比、所使用的脏话的信息、关于所使用的词的长度的信息、转录的摘要、或者说话者的情绪(例如,每个片段或整个转录)。在另一示例中,话音助理应用348、448或548可以生成音频或视频数据,其中说话者1和/或说话者2的话音被另一种话音(例如,卡通的话音或名人的话音)替换,或者替换音频或视频文件中的语音片段704中的任何语音片段704的语言。
图8是图示了根据本公开的各方面的用于转录语音的方法的示例操作的流程图800。流程图800是由语音处理引擎341、441或541在图6中的流程图600的元素604处执行的功能的一个示例。
最初,语音识别引擎342、442或542识别音频数据(例如,音频数据332、432、532或702)中的一个或多个语音片段(802)。例如,语音识别引擎342、442或542可以使用模数转换器(ADC)将模拟音频数据702转换为数字数据,过滤数字化音频数据中的噪声,并且将一个或多个统计模型(例如,隐马尔可夫模型或神经网络)应用于经过滤的数字化音频数据以识别图7的语音片段706A。在一些示例中,语音识别引擎342、442或542可以将被训练来识别针对一个或多个特定用户(例如,图1A-图1C的用户110)的语音的AI/ML模型应用于音频数据702。例如,语音识别引擎342、442或542可以应用被训练来仅识别HMD 112的用户(用户110)的语音的AI/ML模型。在一些示例中,AI/ML模型可以从用户接收训练反馈以调整语音识别确定。在一些示例中,语音识别引擎342、442或542可以基于图像数据330、430或530来识别音频数据332、432或532中的一个或多个语音片段。例如,语音识别引擎342、442、或者542可以被配置为检测图像数据中具有移动的嘴唇的面部以识别语音片段(例如,语音片段的开始和结束)。
说话者标识器344、444或544标识与所识别的语音片段相关联的说话者(804)。例如,基于语音片段704A的声音强度(例如,音量)(例如,对于源自图1B中的HMD 112A的用户的语音,声音强度会较大),说话者标识器344、444或544可以将说话者1标识为图7中的片段704A的说话者。在另一示例中,说话者标识器344、444或544可以使用由HMD 112的图像捕获系统208和/或计算设备120的图像捕获系统508捕获的图像数据来将说话者2标识为图7中的片段704C的说话者。例如,说话者标识器344、444或544可以被配置为检测图像数据330、430或530中具有移动的嘴唇的面部以标识说话者并且可以基于检测到的具有移动的嘴唇的面部和/或图像数据的焦点(例如,暗示用户110正在看说话者)来标识说话者。在另一示例中,HMD 112的音频捕获系统209或计算系统120的音频捕获系统509分别可以包括麦克风阵列,该麦克风阵列可以分别捕获关于音频源相对于HMD 112或计算设备120的方向性的信息,并且说话者标识器344、444或544可以基于该方向性信息和图像数据330、430或530来标识说话者或潜在说话者。
说话者标识器344、444或544利用说话者标识符来标记所识别的语音片段(806)。例如,说话者标识器344、444或544利用图7中的标识符“说话者1”标记语音片段704A。如上面关于图7所述,在一些示例中,说话者标识器344、444或544自动生成标识符“说话者1”以包含在转录706中。在其他一些示例中,用户、管理员或其他源为一个或多个片段录入标识符、标签或名称。这些标签、标识符或名称可以提供对转录中的语音片段的说话者的指示。
语音转录器346、446或546转录由语音识别引擎342、442或542识别的语音片段(808)。例如,语音转录器346、446或546产生针对图7中的片段704A的文本输出706A。语音处理引擎341、441或541接下来确定语音识别引擎342、442或542是否识别出音频数据(例如,音频数据332、432、532或702)中的一个或多个附加语音片段(810)。如果语音识别引擎342、442或542识别出一个或多个附加语音片段(810的“是”分支),那么重复元素804到810。例如,语音识别引擎342、442或542识别语音片段704B(802),说话者标识器344、444或544然后将说话者1标识为语音片段704B的说话者(804)并且利用关于说话者1是说话者的指示来标记语音片段704B,并且然后语音转录器346、446或546转录语音片段704B。该过程可以继续直到没有识别出附加的语音片段(例如,当交互终止时,当不再捕获音频/图像数据时,或者当整个音频数据已经被处理时)(810的“否”分支),并且转录完成(812)(例如,流程图600可以继续到图6中的606)。
在一些示例中,流程图800处理来自两个或更多个源(例如,从两个或更多个HMD112和/或计算设备120接收)的音频和/或图像数据(例如,音频和/或视频流或文件)。在那种实例中,可以针对每个音频数据流或文件重复流程图800的操作。在一些示例中,流程图800将组合每个音频数据流或文件的转录并且产生单个完整转录,其包括对转录中的每个语音片段的说话者的指示。例如,流程图800可以使用来自每个音频数据文件或流的时间戳来组合转录。
图9是图示了根据本公开的各方面的用于标识语音片段的说话者的方法的示例操作的流程图900。流程图900是由说话者标识器344、444或544在图8中的流程图800的元素804处执行的功能的一个示例。
说话者标识器344、444、544可以确定针对语音片段的语音片段散列值(902)。例如,语音处理引擎341、441或541可以将每个识别出的语音片段存储在分开的文件(例如,临时文件)中。这些文件可以包含模拟音频数据或音频数据的数字化版本(例如,除了语音以外的噪声已被过滤)。说话者标识器可以将散列函数应用于这些个体文件以确定针对每个语音片段的语音片段散列值。说话者标识器344、444、544可以从说话者模型334、434或534获取潜在说话者模型(904),并且比较语音片段散列值与潜在说话者模型的散列值(906)。说话者标识器344、444、544标识最接近的说话者模型,该最接近的说话者具有最接近语音片段散列值的散列值(908)。
如果语音片段散列值与最接近的说话者模型之间的差异等于或大于阈值差异(910的“否”分支),则说话者标识器344、444或544可以基于语音片段散列值来创建新的说话者模型(916)。例如,说话者标识器344、444或544将为语音片段散列值确定新的说话者标识符(ID),并且将新的说话者ID和语音片段散列值作为新的说话者模型存储在说话者模型334、434或534中。说话者标识器344、444或544然后将返回新的说话者ID作为该语音片段的说话者(918)(例如,流程图800可以以新的说话者ID继续到图8中的806)。
如果语音片段的语音片段散列值与最接近的说话者模型的散列值之间的差异小于阈值差异(910的“是”分支),则说话者标识器344、444或544基于语音片段散列值来更新最接近的说话者模型(912)。例如,最接近的说话者模型的散列值可以包括与该说话者相关联的所有语音片段的平均散列值,并且说话者标识器344、444或544可以将该语音片段散列值合并到该平均值中。说话者标识器344、444或544然后将返回最接近的说话者模型的说话者ID作为该语音片段的说话者(914)(例如,流程图800可以以与最接近的说话者ID相关联的说话者ID继续到图8中的806)。
图10是图示了根据本公开的各方面的用于标识潜在说话者模型的方法的示例操作的流程图1000。流程图1000是由说话者标识器344、444或544在图9中的流程图900的元素904处执行的功能的一个示例。
说话者标识器344、444或544可以基于许多输入来标识潜在说话者模型(1010)。例如,说话者标识器344、444或544可以获取外部数据(1002)并且处理该外部数据以标识一个或多个潜在说话者模型(1010)。在一些示例中,外部数据可以包括一个或多个用户的位置信息(例如,GPS坐标)。例如,说话者标识器344、444或544可以确定HMD 112或计算设备120附近(例如,50英尺内)的一个或多个用户(或与一个或多个用户相关联的设备),并且使用该信息来获取与那些用户/设备相关联的说话者模型(例如,来自说话者模型334、434或534)。在一些示例中,外部信息可以包括日历信息,包括会议的受邀者信息、会议的位置信息以及每个受邀者是否计划参加会议的指示。在一些示例中,说话者标识器344、444或544将标识与日历信息中的所有受邀者相对应的说话者模型。在其他一些示例中,说话者标识器344、444或544将标识与日历信息中计划参加会议的所有受邀者相对应的说话者模型。
在一些示例中,说话者标识器344、444或544可以获取图像数据(1004)并且处理该图像数据以标识一个或多个潜在说话者模型(1010)。例如,说话者标识器344、444或544可以被配置为检测图像数据中的面部并且标识与检测到的面部相关联的说话者模型(例如,来自说话者模型334、434或534)。在其他一些示例中,说话者标识器344、444或544可以被配置为检测图像数据中与音频数据中所识别的语音片段相对应的具有移动的嘴唇的面部,并且标识与检测到的具有移动的嘴唇的面部相关联的说话者模型(例如,说话者模型334、434或534)。在一些示例中,说话者标识器344、444或544可以将被训练来标识图像中的面部和/或具有移动的嘴唇的面部的AI/ML模型应用于图像数据。在另一示例中,HMD 112的音频捕获系统209或计算系统120的音频捕获系统509分别可以包括麦克风阵列,该麦克风阵列可以分别捕获关于音频源相对于HMD 112或计算设备120的方向性的信息,并且说话者标识器344、444或544可以基于该方向性信息和图像数据中检测到的面部来标识说话者或潜在说话者。例如,基于关于语音片段704的方向性信息和该方向性与图1C中的人101A的面部的对应关系,说话者标识器344、444或544可以将说话者2标识为图7中的语音片段704C的说话者。在又一示例中,说话者标识器344、444或544将基于用户关注谁(例如,基于HMD 112的视场)来标识说话者。
在一些示例中,说话者标识器344、444或544可以接收用户输入(1006)并且处理该用户输入以标识一个或多个潜在说话者模型(1010)。例如,可以(例如,从说话者模型334、434或534)标识说话者或说话者模型。在其他一些示例中,用户可以确认基于外部数据或图像数据所标识的潜在说话者模型。
图11是图示了根据本公开的各方面的用于为分布式设备转录语音的方法的示例操作的流程图1100。在一些示例中,图11中所示的一个或多个操作可以由HMD 112、计算设备120和/或转录系统106执行。
HMD 112的音频捕获系统209和图像捕获系统208和/或计算设备120的音频捕获系统509和图像捕获系统508捕获音频和图像数据(1102)。例如,两个或更多个HMD 112和/或计算设备120可以捕获(例如,来自相同或不同的物理环境的)音频和/或图像数据。
语音处理引擎341、441或541使用用户说话者模型(例如,特定于设备的用户的说话者模型)使用针对每个设备的图像数据来转录音频数据(1104)。例如,在图1B中,HMD112A的语音处理引擎(例如,使用特定于用户110的说话者模型)转录对应于用户110的语音片段,HMD 112B的语音处理引擎(例如,使用特定于用户101A的说话者模型)转录对应于用户101A的语音片段,并且HMD 112C的语音处理引擎(例如,使用特定于用户102A的说话者模型)转录对应于用户102A的语音片段。在一些示例中,用户登录到HMD 112或计算设备120中或以其他方式将他或她自己标识为用户。在其他一些示例中,HMD 112或计算设备120(例如,使用上述话音和/或面部识别技术)自动标识用户。例如,语音处理引擎341、441或541转录语音片段中的每个语音片段以产生包括对与每个语音片段相关联的说话者的指示的转录。在一些示例中,图1C的HMD 112A、112B和/或112C中的任何HMD都可以捕获音频和图像数据并且将该音频和图像数据传输给转录系统106以供转录(例如,如上面参考图4所描述的)。例如,转录系统106可以从图1C的HMD 112A、112B和/或112C中的一个或多个HMD接收音频和图像数据并且为每个设备转录音频数据。
语音处理引擎341、441或541然后组合与由两个或更多个HMD 112和/或计算设备120捕获的音频数据中的语音片段相对应的转录中的所有转录,以产生包括与对每个被转录的语音片段相关联的说话者/用户的指示的一个完整转录(1106)。例如,HMD 112A、112B和112C中的每个HMD可以分别将从用户110、101A和102A所捕获的语音的个体转录传输给转录系统106,转录系统106将组合个体转录。在另一示例中,HMD 112B和112C可以分别将从用户101A和102A所捕获的语音的个体转录传输给HMD 112A,HMD 112A将组合个体转录。在一些示例中,话音助理应用348、448或548然后可选地分析个体转录和/或完整转录以产生从转录得出的附加数据(例如,如上文参考图6所述)。
本公开中描述的技术可以至少部分地以硬件、软件、固件或其任何组合来实现。例如,所描述技术的各个方面可以在一个或多个处理器内实现,该一个或多个处理器包括一个或多个微处理器、DSP、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或者任何其他等效的集成或分立逻辑电路以及这些组件的任何组合。术语“处理器”或“处理电路装置”通常可以单独或与其他逻辑电路装置或任何其他等效电路装置组合地指代任何前述逻辑电路装置。包括硬件的控制单元也可以执行本公开的技术中的一个或多个技术。
这样的硬件、软件和固件可以被实现在同一设备内或在分开的设备内以支持本公开中描述的各种操作和功能。此外,任何所描述的单元、模块或组件可以一起被实现或者被分开实现为分立但可互操作的逻辑设备。将不同特征描述为模块或单元旨在突出不同的功能方面,并不一定意味着这些模块或单元必须由分开的硬件或软件组件来实现。确切地说,与一个或多个模块或单元相关联的功能性可以由分开的硬件或软件组件来执行、或者被集成在公共或分开的硬件或软件组件内。
本公开中描述的技术还可以被体现或编码在包含指令的诸如计算机可读存储介质的计算机可读介质中。嵌入或编码在计算机可读存储介质中的指令可以使可编程处理器或其他处理器例如在指令被执行时执行方法。计算机可读存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、硬盘、CD-ROM、软盘、磁带、磁介质、光学介质或其他计算机可读介质。
如本文通过各种示例所描述的,本公开的技术可以包括人工现实系统或结合人工现实系统来实现。如所描述的,人工现实是一种在呈现给用户之前已经以某种方式被调整的现实形式,其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混合的(hybrid)现实或其某种组合和/或派生物。人工现实内容可以包括完全生成的内容、或者生成的内容与所捕获的内容(例如,真实世界的照片)组合。人工现实内容可以包括视频、音频、触觉反馈或它们的某种组合,并且可以在单个通道或多个通道中呈现其中的任何一个(诸如向观看者产生三维效果的立体视频)。此外,在一些实施例中,人工现实可以与例如被用来在人工现实中创建内容和/或在人工现实中被使用(例如,在其中执行活动)应用、产品、配件、服务或它们的某种组合相关联。提供人工现实内容的人工现实系统可以被实现在各种平台上,包括连接到主机计算机系统的头戴式设备(HMD)、独立的HMD、移动设备或计算系统、或者能够向一个或多个观看者提供人工现实内容的任何其他硬件平台。
在特定实施例中,计算系统的一个或多个对象(例如,内容或其他类型的对象)可以与一个或多个隐私设置相关联。一个或多个对象可以被存储在任何合适的计算系统或应用上或以其他方式与任何合适的计算系统或应用相关联,诸如例如社交联网系统、客户端系统、第三方系统、社交联网应用、消息收发应用、照片共享应用或任何其他合适的计算系统或应用。尽管本文讨论的示例是在在线社交网络的上下文中,但是这些隐私设置可以被应用于任何其他合适的计算系统。针对对象的隐私设置(或“访问设置”)可以以任何合适的方式被存储,诸如例如与对象相关联地、以授权服务器上的索引、以另一合适的方式、或者它们的任何合适的组合。针对对象的隐私设置可以指定对象(或与对象相关联的特定信息)可以如何在在线社交网络中被访问、被存储或以其他方式被使用(例如,被查看、被共享、被修改、被复制、被执行、被显现(surfaced)或被标识)。当对象的隐私设置允许特定用户或其他实体访问该对象时,该对象可以被描述为相对于该用户或其他实体是“可见的”。作为示例而非限制,在线社交网络的用户可以为用户简档页面指定隐私设置,该隐私设置标识可以访问用户简档页面上的工作经验信息的一组用户,从而排除其他用户访问该信息。
在特定实施例中,针对对象的隐私设置可以指定不应被允许访问与对象相关联的某些信息的用户或其他实体的“阻止列表”。在特定实施例中,阻止列表可以包括第三方实体。阻止列表可以指定对象对其不可见的一个或多个用户或实体。作为示例而非限制,用户可以指定不能访问与该用户相关联的相册的一组用户,从而将那些用户排除在访问相册之外(同时也可能允许不在指定用户组内的某些用户访问相册)。在特定实施例中,隐私设置可以与特定社交图元素相关联。社交图元素(诸如节点或边)的隐私设置可以指定可以如何使用在线社交网络访问社交图元素、与社交图元素相关联的信息、或者与社交图元素相关联的对象。作为示例而非限制,对应于特定照片的特定概念节点可以具有指定照片只能由照片中所标记的用户和照片中所标记的用户的朋友访问的隐私设置。在特定实施例中,隐私设置可以允许用户选择加入或选择退出让社交联网系统存储/记录他们的内容、信息或动作或与其他系统(例如,第三方系统)共享。尽管本公开描述了以特定方式使用特定隐私设置,但是本公开预期以任何合适的方式使用任何合适的隐私设置。
在特定实施例中,隐私设置可以基于社交图的一个或多个节点或边。可以针对社交图的一个或多个边或边类型、或者关于社交图的一个或多个节点或节点类型指定隐私设置。应用于连接两个节点的特定边的隐私设置可以控制对应于节点的两个实体之间的关系是否对在线社交网络的其他用户可见。类似地,应用于特定节点的隐私设置可以控制对应于该节点的用户或概念是否对在线社交网络的其他用户可见。作为示例而非限制,第一用户可以将对象共享给社交联网系统。该对象可以与通过边连接到第一用户的用户节点的概念节点相关联。第一用户可以指定应用于连接到对象的概念节点的特定边的隐私设置,或者可以指定应用于连接到概念节点的所有边的隐私设置。作为另一示例而非限制,第一用户可以共享特定对象类型的一组对象(例如,一组图像)。第一用户可以将关于与该特定对象类型的第一用户相关联的所有对象的隐私设置指定为具有特定隐私设置(例如,指定由第一用户发布的所有图像仅对第一用户的朋友和/或图像中所标记的用户可见)。
在特定实施例中,社交联网系统可以(例如,在网页、模块、一个或多个对话框或任何其他合适的界面内)向第一用户呈现“隐私向导(privacy wizard)”以帮助第一用户指定一个或多个隐私设置。隐私向导可以显示指令、合适的隐私相关信息、当前隐私设置、用于接受来自第一用户的指定隐私设置的改变或确认的一个或多个输入的一个或多个输入字段、或者其任何合适的组合。在特定实施例中,社交联网系统可以向第一用户提供“仪表板”功能性,该功能性可以向第一用户显示第一用户的当前隐私设置。仪表板功能性可以在任何适当的时间被显示给第一用户(例如,在来自第一用户调用仪表板功能性的输入之后,在特定事件或触发动作的发生之后)。仪表板功能性可以允许第一用户在任何时候以任何合适的方式修改第一用户的当前隐私设置中的一个或多个当前隐私设置(例如,将第一用户重定向到隐私向导)。
与对象相关联的隐私设置可以指定允许访问或拒绝访问的任何合适粒度。作为示例而非限制,可以针对特定用户(例如,只有我、我的室友、我的老板)、在特定分离度内的用户(例如,朋友、朋友的朋友)、用户群组(例如,游戏俱乐部、我的家庭)、用户网络(例如,特定雇主的雇员、特定大学的学生或校友)、所有用户(“公开”)、无用户(“私密”)、第三方系统的用户、特定应用(例如第三方应用、外部网站)、其他合适的实体、或者其任何合适的组合来指定访问或拒绝访问。尽管本公开描述了允许访问或拒绝访问的特定粒度,但是本公开设想了允许访问或拒绝访问的任何合适粒度。
在特定实施例中,一个或多个服务器可以是用于强制实施隐私设置的授权/隐私服务器。响应于来自用户(或其他实体)针对被存储在数据存储库中的特定对象的请求,社交联网系统可以向数据存储库发送针对该对象的请求。该请求可以标识与该请求相关联的用户,并且只有在授权服务器基于与该对象相关联的隐私设置而确定用户被授权访问该对象的情况下,该对象才可以被发送给该用户(或该用户的客户端系统)。如果请求用户未被授权访问该对象,则授权服务器可以阻止从数据存储库检索被请求的对象或者可以阻止将被请求的对象发送给用户。在搜索查询的上下文中,仅在查询用户被授权访问对象的情况下,例如如果对象的隐私设置允许它被显现给查询用户、被查询用户发现或者以其他方式对查询用户可见,对象才可以作为搜索结果被提供。在特定实施例中,对象可以表示通过用户的动态消息(newsfeed)对用户可见的内容。作为示例而非限制,一个或多个对象对于用户的“热门话题”页面可以是可见的。在特定实施例中,对象可以对应于特定用户。该对象可以是与特定用户相关联的内容,或者可以是被存储在社交联网系统或其他计算系统上的特定用户的账户或信息。作为示例而非限制,第一用户可以通过在线社交网络的“您可能认识的人”功能或通过查看第一用户的朋友列表来查看在线社交网络的一个或多个第二用户。作为示例而非限制,第一用户可以指定他们不希望在他们的动态消息或朋友列表中看到与特定第二用户相关联的对象。如果对象的隐私设置不允许它向用户显现、被用户发现或对用户可见,则该对象可以从搜索结果被排除。尽管本公开描述了以特定方式强制实施隐私设置,但是本公开设想了以任何合适的方式强制实施隐私设置。
在特定实施例中,与用户相关联的相同类型的不同对象可以具有不同的隐私设置。与用户相关联的不同类型的对象可以具有不同类型的隐私设置。作为示例而非限制,第一用户可以指定第一用户的状态更新是公开的,但是由第一用户共享的任何图像仅对第一用户在线社交网络上的朋友可见。作为另一示例而非限制,用户可以针对不同类型的实体(例如个人用户、朋友的朋友、关注者、用户群组或公司实体)指定不同的隐私设置。作为另一示例而非限制,第一用户可以指定可以查看由第一用户发布的视频的用户群组,同时防止视频对第一用户的雇主可见。在特定实施例中,可以针对不同的用户群组或用户人口提供不同的隐私设置。作为示例而非限制,第一用户可以指定与第一用户上同一所大学的其他用户可以查看第一用户的照片,但是作为第一用户的家庭成员的其他用户不可以查看那些相同的照片。
在特定实施例中,社交联网系统可以针对特定对象类型的每个对象提供一个或多个默认隐私设置。被设置为默认值的针对对象的隐私设置可以由与该对象相关联的用户来改变。作为示例而非限制,由第一用户发布的所有图像可以具有仅对第一用户的朋友可见的默认隐私设置,并且针对特定图像,第一用户可以将针对该图像的隐私设置改变为对朋友和朋友的朋友可见。
在特定实施例中,隐私设置可以允许第一用户指定(例如,通过选择退出、通过不选择加入)社交联网系统是否可以出于任何目的接收、收集、记录或存储与该用户相关联的特定对象或信息。在特定实施例中,隐私设置可以允许第一用户指定特定应用或进程是否可以访问、存储或使用与用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出使对象或信息被特定应用或进程访问、存储或使用。社交联网系统可以访问这样的信息以便向第一用户提供特定功能或服务,而社交联网系统不能出于任何其他目的访问该信息。在访问、存储或使用这样的对象或信息之前,社交联网系统可以在允许任何这样的动作之前提示用户提供隐私设置,该隐私设置指定哪些应用或进程(如果有的话)可以访问、存储或使用该对象或信息。作为示例而非限制,第一用户可以经由与在线社交网络相关的应用(例如,消息收发应用)向第二用户传输消息,并且可以指定这样的消息不应由社交联网系统存储的隐私设置。
在特定实施例中,用户可以指定与第一用户相关联的特定类型的对象或信息是否可以被社交联网系统访问、存储或使用。作为示例而非限制,第一用户可以指定由第一用户通过社交联网系统发送的图像不可以由社交联网系统存储。作为另一示例而非限制,第一用户可以指定从第一用户发送给特定第二用户的消息不可以由社交联网系统存储。作为又一示例而非限制,第一用户可以指定经由特定应用被发送的所有对象可以由社交联网系统保存。
在特定实施例中,隐私设置可以允许第一用户指定是否可以从特定客户端系统或第三方系统访问与第一用户相关联的特定对象或信息。隐私设置可以允许第一用户选择加入或选择退出使对象或信息从特定设备(例如,用户的智能电话上的电话簿)、从特定应用(例如,消息收发应用)、或者从特定系统(例如,电子邮件服务器)被访问。社交联网系统可以提供关于每个设备、系统或应用的默认隐私设置,和/或第一用户可以被提示针对每个上下文指定特定的隐私设置。作为示例而非作为限制,第一用户可以利用社交联网系统的位置服务特征来提供关于用户附近的餐馆或其他地方的推荐。第一用户的默认隐私设置可以指定社交联网系统可以使用从第一用户的客户端设备提供的位置信息来提供基于位置的服务,但是社交联网系统不可以存储第一用户的位置信息用户或者将其提供给任何第三方系统。然后,第一用户可以更新隐私设置以允许第三方图像共享应用使用位置信息,以便对照片进行地理标记。
Claims (15)
1.一种系统,包括:
音频捕获系统,所述音频捕获系统被配置为捕获与多个说话者相关联的音频数据;
图像捕获系统,所述图像捕获系统被配置为捕获所述多个说话者中的一个或多个说话者的图像;以及
语音处理引擎,所述语音处理引擎被配置为:
识别所述音频数据中的多个语音片段,
针对所述多个语音片段中的每个语音片段以及基于所述图像,标识与所述语音片段相关联的说话者,
转录所述多个语音片段中的每个语音片段以产生所述多个语音片段的转录,针对所述多个语音片段中的每个语音片段,所述转录包括对与所述语音片段相关联的所述说话者的指示,以及
分析所述转录以产生从所述转录得出的附加数据。
2.根据权利要求1所述的系统,其中为了识别所述多个语音片段,所述语音处理引擎还被配置为基于所述图像来识别所述多个语音片段;
优选地,其中为了针对所述多个语音片段中的每个语音片段标识所述说话者,所述语音处理引擎还被配置为检测所述图像中的一个或多个面部。
3.根据权利要求2所述的系统,其中所述语音处理引擎还被配置为基于与每个语音片段相关联的所述说话者的身份来选择一个或多个语音识别模型。
4.根据权利要求3所述的系统,其中为了针对所述多个语音片段中的每个语音片段标识所述说话者,所述语音处理引擎还被配置为检测所述图像中具有移动的嘴唇的一个或多个面部。
5.根据前述权利要求中任一项所述的系统,其中所述语音处理引擎还被配置为访问外部数据;并且其中为了针对所述多个语音片段中的每个语音片段标识所述说话者,所述语音处理引擎还被配置为:
基于所述外部数据来标识所述说话者;
优选地,其中所述外部数据包括日历信息和位置信息中的一项或多项。
6.根据权利要求3至5中任一项所述的系统,还包括能够由用户佩戴的头戴式显示器(HMD),并且其中所述一个或多个语音识别模型包括针对所述用户的话音识别模型;
优选地,其中所述HMD被配置为输出人工现实内容,并且其中所述人工现实内容包括虚拟会议应用,所述虚拟会议应用包括视频流和音频流。
7.根据权利要求3至5中任一项所述的系统,还包括能够由用户佩戴的头戴式显示器(HMD),其中所述语音处理引擎还被配置为基于所述多个语音片段的属性而将所述HMD的所述用户标识为所述多个语音片段的所述说话者。
8.根据前述权利要求中任一项所述的系统,其中所述音频捕获系统包括麦克风阵列;
优选地,其中所述附加数据包括音频流,所述音频流包括所述语音片段的与所述多个说话者中的至少一个说话者相关联的经修改版本。
9.根据前述权利要求中任一项所述的系统,其中所述附加数据包括以下一项或多项:针对所述转录中所描述的会议或事件的日历邀请、与所述转录中所标识的主题相关的信息、或者包括所述转录中所标识的任务的任务列表。
10.根据前述权利要求中任一项所述的系统,其中所述附加数据包括以下至少一项:关于所述转录的包括由所述说话者所说的词数的统计数据、所述说话者的语气、关于由所述说话者使用的填充词的信息、所述说话者说话的时间百分比、关于所使用的脏话的信息、关于所使用的词的长度的信息、所述转录的摘要、或者所述说话者的情绪。
11.一种方法,包括:
捕获与多个说话者相关联的音频数据;
捕获所述多个说话者中的一个或多个说话者的图像;
识别所述音频数据中的多个语音片段;
针对所述多个语音片段中的每个语音片段以及基于所述图像,标识与所述语音片段相关联的说话者;
转录所述多个语音片段中的每个语音片段以产生所述多个语音片段的转录,针对所述多个语音片段中的每个语音片段,所述转录包括对与所述语音片段相关联的所述说话者的指示;以及
分析所述转录以产生从所述转录得出的附加数据。
12.根据权利要求11所述的方法,还包括:
访问外部数据;以及
针对所述多个语音片段中的每个语音片段,基于所述外部数据来标识所述说话者;
优选地,其中所述外部数据包括日历信息和位置信息中的一项或多项。
13.根据权利要求11或12所述的方法,其中所述附加数据包括以下一项或多项:针对所述转录中所描述的会议或事件的日历邀请、与所述转录中所标识的主题相关的信息、或者包括所述转录中所标识的任务的任务列表。
14.根据权利要求11至13中任一项所述的方法,其中所述附加数据包括以下至少一项:关于所述转录的包括所述说话者所说的词数的统计数据、所述说话者的语气、关于由所述说话者使用的填充词的信息、所述说话者说话的时间百分比、关于所使用的脏话的信息、关于所使用的词的长度的信息、所述转录的摘要、或者所述说话者的情绪。
15.一种包括指令的计算机可读存储介质,所述指令在被执行时将计算系统的处理电路装置配置为:
捕获与多个说话者相关联的音频数据;
捕获所述多个说话者中的一个或多个说话者的图像;
识别所述音频数据中的多个语音片段;
针对所述多个语音片段中的每个语音片段以及基于所述图像,标识与所述语音片段相关联的说话者;
转录所述多个语音片段中的每个语音片段以产生所述多个语音片段的转录,针对所述多个语音片段中的每个语音片段,所述转录包括对与所述语音片段相关联的所述说话者的指示;以及
分析所述转录以产生从所述转录得出的附加数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/689,662 US11227602B2 (en) | 2019-11-20 | 2019-11-20 | Speech transcription using multiple data sources |
US16/689,662 | 2019-11-20 | ||
PCT/US2020/058432 WO2021101695A1 (en) | 2019-11-20 | 2020-10-31 | Speech transcription using multiple data sources |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114981886A true CN114981886A (zh) | 2022-08-30 |
Family
ID=73598958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080079550.0A Pending CN114981886A (zh) | 2019-11-20 | 2020-10-31 | 使用多个数据源的语音转录 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11227602B2 (zh) |
EP (1) | EP4062402A1 (zh) |
JP (1) | JP2023503219A (zh) |
KR (1) | KR20220104769A (zh) |
CN (1) | CN114981886A (zh) |
WO (1) | WO2021101695A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7392259B2 (ja) * | 2018-12-04 | 2023-12-06 | 日本電気株式会社 | 学習支援装置、学習支援方法およびプログラム |
CN111091824B (zh) * | 2019-11-30 | 2022-10-04 | 华为技术有限公司 | 一种语音匹配方法及相关设备 |
US11869535B1 (en) * | 2019-12-12 | 2024-01-09 | Amazon Technologies, Inc. | Character-level emotion detection |
US11551685B2 (en) * | 2020-03-18 | 2023-01-10 | Amazon Technologies, Inc. | Device-directed utterance detection |
JP7248615B2 (ja) * | 2020-03-19 | 2023-03-29 | ヤフー株式会社 | 出力装置、出力方法及び出力プログラム |
US11862168B1 (en) * | 2020-03-30 | 2024-01-02 | Amazon Technologies, Inc. | Speaker disambiguation and transcription from multiple audio feeds |
US11404051B2 (en) * | 2020-05-21 | 2022-08-02 | Bank Of America Corporation | Textual analysis system for automatic language proficiency assessment |
US11983825B2 (en) * | 2020-05-22 | 2024-05-14 | Ohio State Innovation Foundation | Method and system for generating data-enriching augmented reality applications from a domain-specific language |
US11995774B2 (en) * | 2020-06-29 | 2024-05-28 | Snap Inc. | Augmented reality experiences using speech and text captions |
US20220167052A1 (en) * | 2020-11-20 | 2022-05-26 | At&T Intellectual Property I, L.P. | Dynamic, user-specific content adaptation |
US20220374543A1 (en) * | 2021-05-24 | 2022-11-24 | Samsung Electronics Co., Ltd. | Method and apparatus for removing privacy sensitive objects in an augmented reality system |
US20230042310A1 (en) * | 2021-08-05 | 2023-02-09 | Orcam Technologies Ltd. | Wearable apparatus and methods for approving transcription and/or summary |
WO2024043925A1 (en) * | 2022-08-22 | 2024-02-29 | Google Llc | System, method, and devices for providing text interpretation to multiple co-watching devices |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6975991B2 (en) * | 2001-01-31 | 2005-12-13 | International Business Machines Corporation | Wearable display system with indicators of speakers |
US6973428B2 (en) * | 2001-05-24 | 2005-12-06 | International Business Machines Corporation | System and method for searching, analyzing and displaying text transcripts of speech after imperfect speech recognition |
US20070133437A1 (en) * | 2005-12-13 | 2007-06-14 | Wengrovitz Michael S | System and methods for enabling applications of who-is-speaking (WIS) signals |
US8700392B1 (en) | 2010-09-10 | 2014-04-15 | Amazon Technologies, Inc. | Speech-inclusive device interfaces |
US9324320B1 (en) | 2014-10-02 | 2016-04-26 | Microsoft Technology Licensing, Llc | Neural network-based speech processing |
US9704488B2 (en) * | 2015-03-20 | 2017-07-11 | Microsoft Technology Licensing, Llc | Communicating metadata that identifies a current speaker |
US9548048B1 (en) * | 2015-06-19 | 2017-01-17 | Amazon Technologies, Inc. | On-the-fly speech learning and computer model generation using audio-visual synchronization |
US10171908B1 (en) | 2015-07-27 | 2019-01-01 | Evernote Corporation | Recording meeting audio via multiple individual smartphones |
US20170243582A1 (en) * | 2016-02-19 | 2017-08-24 | Microsoft Technology Licensing, Llc | Hearing assistance with automated speech transcription |
CN117198277A (zh) * | 2016-08-12 | 2023-12-08 | 奇跃公司 | 单词流注释 |
US20180123813A1 (en) | 2016-10-31 | 2018-05-03 | Bragi GmbH | Augmented Reality Conferencing System and Method |
US10497382B2 (en) * | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
US10552546B2 (en) * | 2017-10-09 | 2020-02-04 | Ricoh Company, Ltd. | Speech-to-text conversion for interactive whiteboard appliances in multi-language electronic meetings |
US10867610B2 (en) | 2018-05-04 | 2020-12-15 | Microsoft Technology Licensing, Llc | Computerized intelligent assistant for conferences |
US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
-
2019
- 2019-11-20 US US16/689,662 patent/US11227602B2/en active Active
-
2020
- 2020-10-31 EP EP20815998.8A patent/EP4062402A1/en active Pending
- 2020-10-31 WO PCT/US2020/058432 patent/WO2021101695A1/en unknown
- 2020-10-31 JP JP2022521089A patent/JP2023503219A/ja active Pending
- 2020-10-31 CN CN202080079550.0A patent/CN114981886A/zh active Pending
- 2020-10-31 KR KR1020227020776A patent/KR20220104769A/ko unknown
-
2022
- 2022-01-14 US US17/648,067 patent/US11749285B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2021101695A1 (en) | 2021-05-27 |
EP4062402A1 (en) | 2022-09-28 |
KR20220104769A (ko) | 2022-07-26 |
US20220139400A1 (en) | 2022-05-05 |
US11227602B2 (en) | 2022-01-18 |
US11749285B2 (en) | 2023-09-05 |
JP2023503219A (ja) | 2023-01-27 |
US20210151058A1 (en) | 2021-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11749285B2 (en) | Speech transcription using multiple data sources | |
US12028302B2 (en) | Assistance during audio and video calls | |
CN112075075B (zh) | 用于促进远程会议的方法和计算机化智能助理 | |
US20220036013A1 (en) | In-Call Experience Enhancement for Assistant Systems | |
US20210400235A1 (en) | Proactive In-Call Content Recommendations for Assistant Systems | |
US11849256B2 (en) | Systems and methods for dynamically concealing sensitive information | |
US11743064B2 (en) | Private collaboration spaces for computing systems | |
US20100060713A1 (en) | System and Method for Enhancing Noverbal Aspects of Communication | |
JP7056055B2 (ja) | 情報処理装置、情報処理システム及びプログラム | |
US20240171418A1 (en) | Information processing device and information processing method | |
CN116888574A (zh) | 共存会话中的数字助理交互 | |
US20240054153A1 (en) | Multimedia Query System | |
US11627438B1 (en) | Mobile device location-based in person meeting system, software, and computer readable media | |
US12058217B2 (en) | Systems and methods for recommending interactive sessions based on social inclusivity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |