TW201543902A - 視訊會議靜音技術 - Google Patents
視訊會議靜音技術 Download PDFInfo
- Publication number
- TW201543902A TW201543902A TW104110273A TW104110273A TW201543902A TW 201543902 A TW201543902 A TW 201543902A TW 104110273 A TW104110273 A TW 104110273A TW 104110273 A TW104110273 A TW 104110273A TW 201543902 A TW201543902 A TW 201543902A
- Authority
- TW
- Taiwan
- Prior art keywords
- video
- camera
- participant
- computing device
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 6
- 230000001815 facial effect Effects 0.000 claims 3
- 238000013500 data storage Methods 0.000 description 21
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
- G11B27/007—Reproducing at a different information rate from the information rate of recording reproducing continuously a part of the information, i.e. repeating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/66—Remote control of cameras or camera parts, e.g. by remote control devices
- H04N23/661—Transmitting camera control signals through networks, e.g. control via the Internet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/152—Multipoint control units therefor
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
一種進行視訊會議之視訊會議系統,其包含了:包含有一處理器之一運算裝置,該處理器在接收來自該視訊會議之一第一參與者要使該視訊會議靜音的輸入時,產生一循環視訊,並將該循環視訊顯示給該視訊會議的數個參與者,且將該視訊會議之數個參與者經檢測到的話語轉換成文字,並將該文字顯示在該運算裝置之一監視器上。
Description
本發明係有關於視訊會議靜音技術。
視訊會議技術透過一視訊會議系統在任何數目的使用者間提供個人通訊。這些系統讓使用者可以聽到及看到那些其他參與會談的使用者。在一些情況下,那些參加會談的使用者彼此相距甚遠。
依據本發明之一實施例,係特地提出一種進行視訊會議的視訊會議系統,其包含:包含一處理器之一運算裝置,該處理器於接收來自該視訊會議之一第一參與者要使該視訊會議靜音的輸入時,進行下列動作:產生一循環視訊並將該循環視訊顯示給該視訊會議的數個參與者;以及將該視訊會議之數個參與者經檢測到的話語轉換成文字並將該文字顯示在該運算裝置之一監視器上。
100‧‧‧(視訊)系統
105、105-1、105-2、105-3‧‧‧運算裝置
110‧‧‧伺服器
115‧‧‧網路
120、206‧‧‧處理器
125‧‧‧網路配接器
130、204‧‧‧周邊裝置配接器
135‧‧‧資料儲存裝置/記憶體
140、210‧‧‧隨機存取記憶體/RAM
145、212‧‧‧唯讀記憶體/ROM
150、214‧‧‧硬式驅動機記憶體/HDD(記憶體)
202‧‧‧網路/網路配接器
208‧‧‧資料儲存裝置
216‧‧‧(視訊)照相機/深度感知照相機
218‧‧‧麥克風
220‧‧‧視訊循環模組
222‧‧‧視訊覆蓋模組
224‧‧‧臉部及身體辨識模組
226‧‧‧話語轉文字模組
228‧‧‧出席者模組
230‧‧‧文字模組
235‧‧‧監視器
240‧‧‧揚聲器
300‧‧‧方法
305~325‧‧‧步驟
附圖繪示了本文所述之原理的各種範例且為說明書之一部分。此等範例並不限制申請專利範圍之範疇。
圖1為根據本案所述原理之一範例構成之視訊會
議系統的一方塊圖。
圖2為根據本案所述原理之一範例構成之圖1系統的一運算裝置之一方塊圖。
圖3顯示於根據本案所述原理之一範例構成之運算裝置上使視訊會議靜音之方法的一流程圖。
在全部圖式中,相同元件標號標示相似但不一定相同的元件。
如同以上簡要所提,視訊會議系統提供多數使用者參與及聆聽與其他使用者或其他使用者之間的會談。這些系統提供從第一方接收的視訊及音訊饋給內容至位在一第二方之實體位置處之螢幕及揚聲器。任何人數的使用者可連接到使用者群組,其中各使用者配備組配來接收視訊及音訊饋給內容的一運算裝置。
在一視訊會議期間,任何人數的使用者可存取與呈現內容相關聯的視訊及音訊供給。這些使用者對討論之主體內容的興趣或參與那個主體內容之報告可有不同程度。事實上,一些使用者可能是那些負責主導討論的人,但相反的是其他人可能僅是因為須「參加」視訊會議的技術性要求而參與該視訊會議。據此,一些使用者可能發現他們在因不需專心而僅看著視訊會議的同時被其他工作或事件所分心。然而,在討論期間可能會有那些沒有投入會談的使用者被要求對各種主題提供輸入或回答對他們提出的問題之情形。在這些情況下,那些相對較不投入的使用
者在分心後,可能需要請求重覆問題或建議。這可能對一使用者造成困窘。
此外,一些使用者可能在他們的個人住處或專業場所參加視訊會議。在一些情況中,這些地點可能包含會對使用者造成困擾或潛在會讓其他人看見他們本來不應看到的主體內容之可見情景。例如,當一第一使用者在他或她的辦公室參加一視訊會議時,該辦公室可能包含例如一白板,而該第一使用者已在其上詳載或敘述其他人不應看到或不應傳播給其他人之敏感主體內容。另外,對於使用者而言在他或她的住處參與視訊會議可能令其困窘,因為參與視訊會議的其他人可能看到住宅房間非為進行視訊會議的專業處所。
因此,本發明敘述了進行視訊會議的一視訊會議系統,其包含有一處理器的一運算裝置,此處理器在收到來自視訊會議之一第一參與者使視訊會議靜音的輸入時,產生一循環視訊(looping video)並將此循環視訊顯示給視訊會議的數個參與者,且將視訊會議之數個參與者被檢測到的話語轉換成文字,並將此文字顯示在運算裝置的監視器上。
本發明更敘述了在一運算裝置上使一視訊會議靜音的方法,其包含利用運算裝置之一處理器來接收來自視訊會議之一第一參與者要使視訊會議靜音的輸入;呈現一循環視訊給視訊會議的參與者;辨識視訊會議之參與者的話語;將視訊會議之參與者的話語轉換成文字;以及將
文字顯示在運算裝置的監視器上。
此外,本發明更敘述了用以在一運算裝置上使一視訊會議靜音的電腦程式產品,此電腦程式產品包含一電腦可讀儲存媒體,其包含隨其具現的電腦可用程式碼,此電腦可用程式碼包含在由一處理器執行時會進行下列動作的電腦可用程式碼:接收來自視訊會議之一第一參與者要使視訊會議靜音的輸入;電腦可用程式碼在由一處理器執行時,呈現一循環視訊給視訊會議的參與者;電腦可用程式碼在由一處理器執行時,辨識視訊會議之參與者的話語;電腦可用程式碼在由一處理器執行時,將視訊會議之參與者的話語轉換成文字;以及電腦可用程式碼在由一處理器執行時,將文字顯示在運算裝置的監視器上。
於以下敘述中,為了解釋目的,數個特定細節係發佈來提供本案系統及方法的一徹底了解。然而,對於熟於此技者而言將會明顯的是,本案裝置、系統及方法可在沒有這些特定細部的情況下而實施。說明書中有關「一範例」或類似用語表示配合該範例敘述的一特定特徵、結構或特性係如所述地被包括,但不一定包括在其他範例中。
在本案說明書及後附申請專利範圍中,「視訊會議」一詞係要廣義理解成位於分開位置的二或更多使用者或運算裝置之間經由同時雙向視訊及音訊傳輸進行的通訊。因此,在視訊會議時,使用者參與他或她與運算系統之另一使用者之間的一視訊會議。
此外,在本案說明書及後附申請專利範圍中,「參
與者」一詞係要廣義理解成聆聽及/或觀看一視訊會議之運算裝置的使用者。
並且,在本案說明書及後附申請專利範圍中,「使用者」一詞係要廣義理解成配備數個與一視訊會議系統相關聯之裝置的人。
甚至更進一步,在本案說明書及後附申請專利範圍中所使用時,「數個」用語或類似語句係要廣義理解成任何包含1至無限大的正數;零不是一個數量,而是沒有數量。「多個」一詞係要廣義理解成任何包含2至無限大的正數。
圖1係為根據本案所述原理之一視訊會議系統(100)的一方塊圖。此系統(100)可包含數個運算裝置(105-1、105-2、105-3;通常為105)及一伺服器(110)。此等運算裝置(105)可經由一網路(115)而通訊式耦合至伺服器(110)。這將會在以下做更詳細的敘述。
網路(115)可為允許運算裝置(105)與伺服器通訊以及運算裝置彼此間通訊之任何類型的運算網路。網路(115)可為一網路間網路、一企業內部網路、網際網路(Internet)、或全球資訊網。
伺服器(110)可包含一處理器(120)、一網路配接器(125)、一周邊裝置配接器(130)、及一資料儲存裝置(135)。處理器(120)可從記憶體(135)接收電腦可用碼,並執行該碼以實行至少在本文中所述之系統(100)的功能性。特別是,處理器120可從一運算裝置(105)接收視訊及音訊饋給
內容,並將該音訊及視訊饋給內容傳送至其他與視訊會議相關聯之運算裝置。此處理器可進一步藉由允許或不允許使用者連接至伺服器(110)並接收該音訊/視訊饋給內容,而能協調視訊會議。
網路配接器(125)允許伺服器(110)通訊式連接至網路(115)。伺服器(110)中的周邊裝置配接器(130)及網路配接器(125)使處理器(120)能夠與伺服器(110)外部及內部的各種其他硬體元件介接。例如,周邊裝置配接器(130)可提供介接到諸如例如一列印機之輸入/輸出裝置的一介面。
周邊裝置配接器(130)亦可在處理器(120)與一列印機或其他媒體輸出裝置之間產生一介面。例如,伺服器110可進一步包含一監視器,資料會傳送至該螢幕以提供使用者一使用者介面。
資料儲存裝置(135)可包括各種類型的記憶體模組,包括依電性及非依電性記憶體。例如,此範例之資料儲存裝置(135)包括隨機存取記憶體(RAM)(140)、唯讀記憶體(ROM)(145)、及硬碟驅動機(HDD)記憶體(150)。許多其他類型的記憶體亦可被利用,且本案說明書期待在資料儲存裝置(135)中使用適於本文所述原理之特定應用的許多各種類型的記憶體。於某些範例中,資料儲存裝置(135)中不同類型的記憶體可用於不同的資料儲存需求。例如,於某些範例中,處理器(120)可從唯讀記憶體(ROM)(145)啟動,維持在硬碟驅動機(HDD)記憶體(150)中的非依電性儲存內容,且執行儲存在隨機存取記憶體(RAM)(140)中的程式碼。
大體上,資料儲存裝置(135)可包含一電腦可讀儲存媒體。例如,此資料儲存裝置(135)可為但不限於示現電子、磁性、光學、電磁、紅外線、或半導體機構或前述項目之任何合適組合的一設備、系統、或裝置。電腦可讀儲存媒體之更特定範例可包括例如以下者:具有數條線的電氣連接、可攜式電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可規劃唯讀記憶體(EPROM或快閃記憶體)、可攜式實密光碟唯讀記憶體(CD-ROM)、光學儲存裝置、磁性儲存裝置、或前述項目之任何合適組合。於本說明書之內文中,電腦可讀儲存媒體可為可含有或儲存供指令執行系統、設備或裝置使用或與其等配合使用之程式的任何有形媒體。在另一範例中,電腦可讀儲存媒體可為可含有或儲存供指令執行系統、設備或裝置使用或與其等配合使用之程式的任何非暫態性媒體。
雖然圖1顯示了一伺服器在此範例中示現成在數個運算裝置(105)之間的一中介裝置,系統(100)仍存在不包括一專屬伺服器(110)作為此種中介裝置的其他範例。於此範例中,運算裝置(105)可包含與配合圖1之伺服器(110)所述來完成本文所述之系統(100)的功能性者類似之裝置。運算裝置(105)現將更詳細論述。
圖2為根據本案所述原理之一範例構成之圖1系統(100)的一運算裝置(105)之一方塊圖。運算裝置(105)可包含以上配合圖1所述之一網路(202)及周邊裝置配接器
(204)。網路配接器(202)允許運算裝置(105)通訊式連接至網路(圖1,115)。運算裝置(105)之周邊裝置配接器(204)及網路配接器(202)使一處理器(206)能夠與運算裝置(105)之外部及內部的各種其他硬體元件介接。例如,周邊裝置配接器(204)可提供連接至諸如例如一列印機、一滑鼠、一監視器之其中一者之輸入/輸出裝置的一介面。
如以上所述,運算裝置(105)可進一步包含一處理器(206)。此處理器(206)可接收來自一資料儲存裝置(208)的電腦可讀碼,並執行該碼而實行至少在本文中所述之系統(100)及運算裝置(105)的功能性。特定言之,處理器(206)可接收來自一伺服器(圖1,110)或另一運算裝置(105)的視訊及音訊饋給內容,並將該視訊及音訊饋給內容傳送至與運算裝置(105)相關聯的一監視器。處理器(206)更可允許協調視訊會議,使得運算裝置(105)之使用者被授予管道可聽到及看到視訊會議的音訊/視覺內容。
資料儲存裝置(208)可包括與伺服器(圖1,110)那些者類似之多種類型的記憶體模組,包括依電性及非依電性記憶體。例如,此範例之資料儲存裝置(208)包括隨機存取記憶體(RAM)(210)、唯讀記憶體(ROM)(212)、及硬碟驅動機(HDD)記憶體(214)。許多其他類性的記憶體亦可被利用,且本案說明書期待在資料儲存裝置(208)中使用適於本文所述原理之特定應用的許多各種類型的記憶體。於某些範例中,資料儲存裝置(208)中不同類型的記憶體可用於不同的資料儲存需求。例如,於某些範例中,處理器(206)
可從唯讀記憶體(ROM)(212)啟動,維持在硬碟驅動機(HDD)記憶體(214)中的非依電性儲存內容,且執行儲存在隨機存取記憶體(RAM)(210)中的程式碼。
大體上,資料儲存裝置(208)可包含一電腦可讀儲存媒體。例如,此資料儲存裝置(208)可為但不限於示現電子、磁性、光學、電磁、紅外線、或半導體機構或前述項目之任何合適組合的一設備、系統、或裝置。電腦可讀儲存媒體之更特定範例可包括例如以下者:具有數條線的電氣連接、可攜式電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可規劃唯讀記憶體(EPROM或快閃記憶體)、可攜式實密光碟唯讀記憶體(CD-ROM)、光學儲存裝置、磁性儲存裝置、或前述項目之任何合適組合。於本說明書之內文中,電腦可讀儲存媒體可為可含有或儲存供指令執行系統、設備或裝置使用或與其等配合使用之程式的任何有形媒體。在另一範例中,電腦可讀儲存媒體可為可含有或儲存供指令執行系統、設備或裝置使用或與其等配合使用之程式的任何非暫態性媒體。
運算裝置(105)更可包含一視訊照相機(216)。此視訊照相機(216)可經由周邊裝置配接器(204)而通訊式耦合至處理器(206)。視訊照相機(216)可取得運算裝置(105)之使用者及他或她的環境的視訊片段。在一範例中,視訊照相機(216)為一深度感知視訊照相機,諸如一結構式光或飛行時間(time-of-flight)照相機。於另一範例中,視訊照相
機(216)可使用臉部辨識軟體以辨識個別使用者的臉部及/或身體特徵。
處理器(206)可接收串流化視訊且依據本文敘述將其進行擴增。在一範例中,處理器(206)可接收視訊串流,以及配合從深度感知照相機(216)接收的資料辨識一使用者何時在或不在運算裝置(105)之照相機/螢幕前。在此範例中,當使用者不在運算裝置(105)之照相機/螢幕前時,一靜音功能可被啟動,使得源自照相機(216)之麥克風(218)的經檢測音訊不會傳送至視訊會議系統(圖1,100)的其餘使用者。於另一範例中,處理器(206)可接收視訊串流,且配合從深度感知照相機(216)接收的資料,以另一背景覆蓋出現在運算裝置(105)之使用者背後的任何背景。此背景可為使用者選擇的任何影像或足以隱藏使用者的特定位置或出現在使用者背後之主體內容之空白影像。
為完成這些工作及其他者,運算裝置(105)更可包含一視訊循環模組(220)、一視訊覆蓋模組(222)、一臉部及身體辨識模組(224)、一話語轉文字模組(226)、及一出席者模組(228)、及一文字模組(230)。運算裝置(105)內的各種模組包含可分開執行的可執行程式碼。於此範例中,各種模組可儲存成分開的電腦程式產品。於另一範例中,運算裝置(105)內的各種模組可組合在數個電腦程式產品內;各電腦程式產品包含數個模組。各模組由處理器(206)執行。這些現將個別更詳細敘述。
視訊循環模組(220)通訊式耦合至視訊照相機
(216)及處理器(206)。處理器(206)在接收到來自視訊照相機(216)之視訊串流的同時,可透過視訊循環模組(220)將視訊串流的一部分切割出來,並利用該部分形成視訊之一循環部分。當一使用者致動一靜音選項或者一視訊循環選項時,視訊循環模組(220)可用視訊的循環部分來取代由視訊照相機(216)所獲得之當時視訊串流,並使用該視訊之循環部分作為視訊輸出傳送至正在參與視訊會議的運算裝置(105)其他使用者。這允許運算裝置(105)的該一使用者移離視訊照相機(216)且可以從事和視訊會議分開的活動。
於一範例中,視訊循環模組(220)可形成循環視訊,使得看到此視訊的其他人將不會注意在視訊饋給內容中的一跳格狀況。例如,視訊循環模組(220)可在由一使用者致動時,請求使用者把他或她的臉擺在視訊照相機(216)前。利用臉部及身體辨識模組(224),視訊循環模組(220)可接收使用者是在視訊照相機(216)前方的確認結果。一旦這被視訊循環模組(220)檢測到,視訊循環模組(220)可接著從視訊照相機(216)接收視訊串流,且開始編集成一循環視訊串流。經過一預定時間後,視訊循環模組(220)可使用那個循環視訊串流作為對系統(100)的視訊輸出。然而,使用者在視訊照相機(216)之視野內的位置,從循環視訊串流的一開始及該串流的最後可能有改變。據此,透過使用臉部及身體辨識模組(224),視訊循環模組(220)可能不會停止錄製循環視訊串流,直到臉部及身體辨識模組(224)已檢測到使用者將他或她的臉部及身體擺在與視訊循環模組(220)第一
次開始產生循環視訊串流之際大致上相同的位置時為止。此提供了一循環視訊可供向系統(圖1,100)之其他使用者呈現,該循環視訊在其畫面間不會顯示出運算裝置(105)之使用者有一可見跳位現象。因此,系統(圖1,100)之其他使用者將不會知道運算裝置(105)之使用者已弄出一段循環視訊串流持續上傳播出,且該使用者在當時可能沒有專注於視訊會議上。
運算裝置(105)更可包含一視訊覆蓋模組(222),其在由運算裝置(105)之使用者致動時,提供待覆蓋在透過視訊照相機(216)所獲得之視訊串流的背景上的一景象。如上簡述,視訊照相機(216)可為一深度感知視訊照相機,諸如一結構式光或飛行時間照相機。因此,視訊照相機(216)可藉由臉部及身體辨識模組(224)的協助,檢測到使用者的臉部及身體,與在該臉部及身體後方的所有物件。在檢測到背景景象時,視訊覆蓋模組(222)可將一影像置設在視訊串流之背景上。此影像可為運算裝置(105)之使用者上傳的一單一色彩或某些替代影像。置設影像在視訊串流之背景上允許使用者隱藏他或她的實際位置,並隱藏可識別的潛在個人資訊。於一範例中,視訊覆蓋模組(222)可把一影像覆蓋在諸如一白板的影像中之預定位置處。在此範例中,使用者可基於視訊照相機(216)之靜態位置,界定影像中的一特定位置,以利用上述的視訊覆蓋模組(222)把一景象覆蓋上去。
運算裝置(105)更可包含一出席者模組(228)。此
出席者模組(228)可通知全部那些參與視訊會議之運算裝置(105)的使用者。此使系統(圖1,100)的各使用者能知曉誰參加或離開視訊會議。運算裝置(105)可向使用者警示有誰參加或離開視訊會議,不管使用者是否已啟動上述的循環視訊串流或靜音功能。這可由處理器(206)啟動文字模組(230)而完成。文字模組(230)可提供要在通訊式耦合至運算裝置(105)之一監視器(235)上顯示的文字。
運算裝置(105)更包含一話語轉文字模組(226)。如上述,在運算裝置(105)操作期間且使用者參與視訊會議同時,使用者可能在他或她的運算裝置(105)使視訊會議靜音,以防止其他參與者聽到麥克風(218)捕捉的聲音,並在聽見音訊時進行多工的處理。雖然使用者可聽到視訊會議之音訊,他或她可能從事其他活動而進行多工(多項工作)。為讓使用者能快速跟上正在討論之主體內容的談話,話語轉文字模組(226)可從音訊串流辨識出話語並將該話語轉換成文字。利用文字模組(230),話語轉文字模組(226)可使轉換來的文字顯示在使用者之運算裝置(105)之監視器(235)上。
於一範例中,一使用者可在運算裝置(圖2,105)上指出他或她的姓名為何,並使那些資訊儲存在運算裝置(105)之資料儲存裝置(208)上。當話語轉文字模組(226)將話語轉成文字且有文字與使用者姓名相符時,運算裝置(105)可經由音訊或視覺信號對該使用者警示此一情形。此音訊或視覺警示不會被系統(圖1,100)之其他使用者聽到或看
到。在一範例中,該音訊警示可為一嗶聲雜音或由與運算裝置(105)相關聯之一揚聲器(240)所產生的其他音訊信號。於一範例中,視覺警示可為出現在監視器(235)或與運算裝置(105)相關聯之任何其他監視器上的一跳出通知。各種注意通知可被使用,包括閃爍通知及通知內的對比色彩。
運算裝置(105)之使用者將把他或她的注意力放回監視器(235),觀看顯示在監視器(235)上的最近文字,並在有必要時藉使視訊會議解除靜音來回應會談內容。透過使視訊會議解除靜音,循環視訊會停止,而其他參與者能看到運算裝置(圖2,105)之使用者的一現場視訊饋給內容。於一範例中,一旦使用者使視訊會議解除靜音,顯示在監視器(235)上之會談的文字可能消失,而讓使用者在沒有文字的情況下觀看視訊會議。在另一範例中,文字可能保留,以讓使用者在檢視論談內容的同時,就正在討論之主題回應任何問題或意見。於更一範例中,使用者可藉由對麥克風(218)說話來使運算裝置(105)解除靜音。這樣做可讓使用者說話時運算裝置(105)不會處於靜音狀態,且讓使用者不必了解運算裝置(105)是否仍在靜音狀態,且不必重複已講過的話。
若使用者聽到警示告表示他或她的姓名已被提到,這可能表示使用者應看最新顯示的文字並回應視訊會議中最新提出的問題或建議。其他範例存在,其中一使用者可能指出任何特定字詞或語句,運算裝置(105)將在那些字詞被提及時警示使用者,並將使用者的注意力拉回至監
視器(235)。使用者即可再次參與視訊會議。
於一範例中,呈現在監視器(235)上的文字內容可儲存在資料儲存裝置(208)中。這讓運算裝置(105)之使用者在視訊會議結束後重新檢視會談內容。
如以上所述,臉部及身體辨識模組(224)可持續檢測運算裝置(105)之使用者的臉部。於一範例中,臉部及身體辨識模組(224)可向處理器(206)指出使用者的臉不在視訊照相機(216)前方。當這種情況發生時,處理器(206)可鎖定運算裝置(105),使得沒有人能夠存取,直到使用者提供一使用者名稱、密碼或其組合。這讓使用者可離開運算裝置(105),而不會任令它可在未受監視時被存取而危及運算裝置(105)之安全性。
圖3為顯示根據本案所述原理之一範例構成之運算裝置(圖2,105)上使視訊會議靜音之方法(300)的一流程圖。此方法(300)可始於運算裝置(圖2,105)之處理器(圖2,206)從視訊會議的第一參與者接收要使視訊會議靜音的輸入(步驟305)。此輸入可從一第一參與者致動通訊式耦合至運算裝置(圖2,105)之一輸入裝置而於運算裝置(圖2,105)接收。
接收要使視訊會議靜音的輸入(步驟305)會讓處理器(圖2,206)向視訊會議之參與者呈現一循環視訊(步驟310)。如上簡述,此循環視訊可在接收要使視訊會議靜音的輸入(步驟305)前獲得。於另一範例中,該循環視訊可在接收要使視訊會議靜音的輸入(步驟305)後藉由視訊循環模
組(圖2,220)而獲得。這可透過要求運算裝置(圖2,105)之使用者如上述將他或她的臉擺在視訊照相機(圖2,216)前方,且獲得如上述之一循環視訊而完成。
此方法(300)接著可辨識視訊會議之參與者的話語(步驟315)。處理器(圖2,206)可使用話語轉文字模組(圖2,226)以辨識在視訊會議期間發生的會談。一旦話語被辨識出來(步驟315),該方法可接著利用由處理器(圖2,206)使用的話語轉文字模組(圖2,226)將視訊會議之參與者的話語轉換成文字(步驟320)。這些文字稍後會顯示在運算裝置之監視器(圖2,235)上(步驟325)。
雖然配合圖3所述之方法描述在辨識視訊會議之參與者的話語(步驟315)前向視訊會議的參與者呈現一循環視訊(步驟310),但本案說明書也期待有其他範例性方法。例如,話語可在一循環視訊呈現給視訊會議之參與者(步驟310)前被辨識(步驟315)。本案說明書可期待的是配合圖3之方法所述之其他程序可在不脫離本文所述原理之範疇的情況下重新編排。
圖3之方法可進一步由電腦可讀程式碼示現。此電腦可讀程式碼可被提供給由通用電腦、特定目的電腦、或其他可規劃資料處理裝置的一處理器,以產生一機器,使得在經由例如運算裝置(圖2,105)之處理器(圖2,206)或其他可規劃資料處理裝置執行時,電腦可讀程式碼會實現流程圖及/或方塊圖之(多個)方塊中指定的功能或動作。於一範例中,電腦可用程式碼可具現於如上述之一電腦可讀
儲存媒體內,而該電腦可讀儲存媒體為電腦程式產品之一部分。
說明書及圖式敘述了在一運算裝置上使視訊會議靜音的一視訊會議系統及方法。此系統提供運算系統的一使用者在第一參與者使視訊會議靜音時,對視訊會議中的其他參與者在視覺及聽覺上隱藏第一參與者的行動。這允許第一參與者從事多工,同時在視訊會議期間若及當預定字詞被說出時仍能被運算裝置通知。
以上敘述已被用來說明及描述所述原理之範例。本案說明書並不欲視為窮舉,或將這些原理限制在所揭露的任何特定形式。藉助於上述教示內容,仍可作出多種修改及變化。
105‧‧‧運算裝置
202‧‧‧網路/網路配接器
204‧‧‧周邊裝置配接器
206‧‧‧處理器
208‧‧‧資料儲存裝置
210‧‧‧隨機存取記憶體/RAM
212‧‧‧唯讀記憶體/ROM
214‧‧‧硬式驅動機記憶體/HDD(記憶體)
216‧‧‧(視訊)照相機/深度感知照相機
218‧‧‧麥克風
220‧‧‧視訊循環模組
222‧‧‧視訊覆蓋模組
224‧‧‧臉部及身體辨識模組
226‧‧‧話語轉文字模組
228‧‧‧出席者模組
230‧‧‧文字模組
235‧‧‧監視器
240‧‧‧揚聲器
Claims (15)
- 一種進行視訊會議的視訊會議系統,其包含:包含一處理器之一運算裝置,該處理器於接收來自該視訊會議之一第一參與者要使該視訊會議靜音的輸入時,進行下列動作:產生一循環視訊並將該循環視訊顯示給該視訊會議的數個參與者;以及將該視訊會議之數個參與者經檢測到的話語轉換成文字並將該文字顯示在該運算裝置之一監視器上。
- 如請求項1之視訊會議系統,其中產生該循環視訊包含接收來自通訊式耦合至該運算裝置之一視訊照相機之一視訊串流達一預定時間週期。
- 如請求項2之視訊會議系統,其中該視訊照相機使用臉部及身體辨識技術以判定該第一參與者是否在該照相機前方,且當該第一參與者在該照相機前方時,該照相機開始記錄該視訊串流以產生該循環視訊。
- 如請求項3之視訊會議系統,其中該視訊照相機僅在判定該第一參與者位在該視訊照相機前與視訊照相機開始錄製該循環視訊之際相同的位置時,停止錄製該循環視訊。
- 如請求項1之視訊會議系統,其中該處理器在該第一參與者的聲音被通訊式耦合至該運算裝置之一麥克風檢 測到時,使該視訊會議系統解除靜音。
- 如請求項1之視訊會議系統,其中該處理器在從該話語轉換來的文字中的一字詞被檢測到時致使產生一警示;其中該警示為一音訊警示、一視覺警示、或其等之組合。
- 一種在運算裝置上使視訊會議靜音的方法,其包含:利用該運算裝置之一處理器,接收來自一視訊會議之一第一參與者要使該視訊會議靜音之輸入;向該視訊會議之參與者們呈現一循環視訊;辨識該視訊會議之參與者們的話語;將該視訊會議之參與者的話語轉換成文字;以及將文字顯示在該運算裝置之一監視器上。
- 如請求項7之方法,其更包含藉由接收來自通訊式耦合至該運算裝置之一視訊照相機的一視訊串流達一預定時間週期來產生該循環視訊。
- 如請求項8之方法,其中該視訊照相機使用臉部及身體辨識技術以判定該第一參與者是否在該照相機前方,且當該第一參與者在該照相機前方時,該照相機開始記錄該視訊串流以產生該循環視訊。
- 如請求項9之方法,其中該視訊照相機僅在判定該第一參與者位在該視訊照相機前與視訊照相機開始錄製該循環視訊之際相同的位置時,停止錄製該循環視訊。
- 如請求項7之方法,其中該處理器在該第一參與者的聲音被通訊式耦合至該運算裝置之一麥克風檢測到時,使 該視訊會議系統解除靜音。
- 如請求項7之方法,其更包含在從話語轉換來的文字中的一字詞被檢測到時產生一警示;其中該警示為一音訊警示、一視覺警示、或其等之組合。
- 一種用以在運算裝置上使視訊會議靜音之電腦程式產品,該電腦程式產品包含:一電腦可讀儲存媒體,其包含以其所具現的電腦可用程式碼,該電腦可用程式碼包含由一處理器執行時進行下列動作的電腦可用程式碼:接收來自一視訊會議之一第一參與者要使該視訊會議靜音的輸入;辨識該第一參與者的身體影像,錄製該第一參與者的一循環視訊,及向該視訊會議之參與者們呈現該循環視訊;辨識該視訊會議之參與者們的話語;將該視訊會議之參與者的話語轉換成文字;以及將文字顯示在該運算裝置之一監視器上,且當由該第一參與者預先界定之文字顯示在該監視器上時,警示該第一參與者。
- 如請求項13之電腦程式產品,其中該循環視訊的產生係由接收來自通訊式耦合至該運算裝置之一視訊照相機的一視訊串流達一預定時間週期而完成。
- 如請求項14之電腦程式產品,其中: 該視訊照相機使用臉部及身體辨識技術以判定該第一參與者是否在該照相機前方,且當該第一參與者在該照相機前方時,該照相機開始記錄該視訊串流以產生該循環視訊;該視訊照相機僅在判定該第一參與者位在該視訊照相機前與視訊照相機開始錄製該循環視訊之際相同的位置時,停止錄製該循環視訊;以及只有當判定該第一參與者位在該視訊照相機前與視訊照相機開始錄製該循環視訊之際相同的位置時,該視訊照相機才停止錄製該循環視訊。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2014/035752 WO2015167441A1 (en) | 2014-04-28 | 2014-04-28 | Muting a videoconference |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201543902A true TW201543902A (zh) | 2015-11-16 |
TWI563852B TWI563852B (en) | 2016-12-21 |
Family
ID=54359000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW104110273A TWI563852B (en) | 2014-04-28 | 2015-03-30 | Muting a videoconference |
Country Status (3)
Country | Link |
---|---|
US (1) | US9749584B2 (zh) |
TW (1) | TWI563852B (zh) |
WO (1) | WO2015167441A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9979759B2 (en) | 2015-09-28 | 2018-05-22 | Tata Communications (America) Inc. | System and method for managing multi-media conferences using group segmentation |
US10951950B2 (en) | 2017-07-31 | 2021-03-16 | Nokia Technologies Oy | Method and apparatus for presenting a video loop during a storyline |
JP7173049B2 (ja) * | 2018-01-10 | 2022-11-16 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
CN108965706B (zh) * | 2018-07-19 | 2020-07-07 | 北京微播视界科技有限公司 | 视频拍摄方法、装置、终端设备和存储介质 |
US11134217B1 (en) * | 2021-01-11 | 2021-09-28 | Surendra Goel | System that provides video conferencing with accent modification and multiple video overlaying |
CN113301291B (zh) * | 2021-05-13 | 2022-12-02 | 中国联合网络通信集团有限公司 | 网络视频会议中防干扰方法、系统、设备及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6020916A (en) * | 1997-12-31 | 2000-02-01 | At&T Corp | Videophone multimedia interactive on-hold information menus |
US20070153091A1 (en) * | 2005-12-29 | 2007-07-05 | John Watlington | Methods and apparatus for providing privacy in a communication system |
US8120638B2 (en) * | 2006-01-24 | 2012-02-21 | Lifesize Communications, Inc. | Speech to text conversion in a videoconference |
US8044989B2 (en) | 2006-12-12 | 2011-10-25 | General Instrument Corporation | Mute function for video applications |
US8310521B2 (en) | 2007-04-30 | 2012-11-13 | Microsoft Corp. | Insertion of virtual video into live video |
CN101783920B (zh) | 2009-12-25 | 2012-05-30 | 华为终端有限公司 | 视频会议的状态恢复方法和装置 |
US8885013B2 (en) * | 2010-05-12 | 2014-11-11 | Blue Jeans Network, Inc. | Systems and methods for novel interactions with participants in videoconference meetings |
US9204094B2 (en) * | 2011-06-28 | 2015-12-01 | Lifesize Communications, Inc. | Adjusting volume of a videoconference using touch-based gestures |
US9014358B2 (en) * | 2011-09-01 | 2015-04-21 | Blackberry Limited | Conferenced voice to text transcription |
JP2013057572A (ja) | 2011-09-07 | 2013-03-28 | Seiko Epson Corp | ハンドラー及び部品検査装置 |
US9230546B2 (en) * | 2011-11-03 | 2016-01-05 | International Business Machines Corporation | Voice content transcription during collaboration sessions |
US8957915B1 (en) * | 2012-06-14 | 2015-02-17 | Cinemagram Inc. | Method, apparatus and system for dynamic images |
US8681203B1 (en) * | 2012-08-20 | 2014-03-25 | Google Inc. | Automatic mute control for video conferencing |
US9960929B2 (en) * | 2012-09-21 | 2018-05-01 | Google Llc | Environmental sensing with a doorbell at a smart-home |
US8970662B2 (en) * | 2013-03-12 | 2015-03-03 | Qualcomm Incorporated | Output management for electronic communications |
WO2015021469A2 (en) * | 2013-08-09 | 2015-02-12 | Icontrol Networks Canada Ulc | System, method and apparatus for remote monitoring |
WO2015145219A1 (en) * | 2014-03-28 | 2015-10-01 | Navaratnam Ratnakumar | Systems for remote service of customers using virtual and physical mannequins |
US9473643B2 (en) * | 2014-12-18 | 2016-10-18 | Intel Corporation | Mute detector |
-
2014
- 2014-04-28 US US15/306,666 patent/US9749584B2/en active Active
- 2014-04-28 WO PCT/US2014/035752 patent/WO2015167441A1/en active Application Filing
-
2015
- 2015-03-30 TW TW104110273A patent/TWI563852B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US9749584B2 (en) | 2017-08-29 |
TWI563852B (en) | 2016-12-21 |
WO2015167441A1 (en) | 2015-11-05 |
US20170048490A1 (en) | 2017-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10104337B2 (en) | Displaying a presenter during a video conference | |
KR101569863B1 (ko) | 통신 세션에서의 참가자들의 묵음화 | |
US9641585B2 (en) | Automated video editing based on activity in video conference | |
US9560316B1 (en) | Indicating sound quality during a conference | |
TW201543902A (zh) | 視訊會議靜音技術 | |
US10257240B2 (en) | Online meeting computer with improved noise management logic | |
US20100253689A1 (en) | Providing descriptions of non-verbal communications to video telephony participants who are not video-enabled | |
US9607630B2 (en) | Prevention of unintended distribution of audio information | |
JP2010074494A (ja) | 会議支援装置 | |
US20160142462A1 (en) | Displaying Identities of Online Conference Participants at a Multi-Participant Location | |
US11595278B2 (en) | Systems and methods to automatically perform actions based on media content | |
US11606465B2 (en) | Systems and methods to automatically perform actions based on media content | |
CN118715562A (zh) | 用于改进群组通信会话的系统和方法 | |
WO2017134300A1 (fr) | Procédé d'aide au suivi d'une conversation pour personne malentendante | |
US10469800B2 (en) | Always-on telepresence device | |
JP6456163B2 (ja) | 情報処理装置、音声出力方法及びコンピュータプログラム | |
KR101778548B1 (ko) | 청각장애인을 위한 음성인식 및 보청지원이 가능한 회의 관리 방법 및 시스템 | |
EP3506563A1 (en) | Method, system, and server for reducing noise in a workspace | |
US20230230416A1 (en) | Establishing private communication channels | |
JP7292343B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
US9070409B1 (en) | System and method for visually representing a recorded audio meeting | |
TW202341703A (zh) | 用於改進的群通訊通信期的系統和方法 | |
JP2024044920A (ja) | 情報処理装置、情報処理システム、プログラム、及び情報処理方法 | |
Mapes | Online Public Speaking | |
JP2022082570A (ja) | 情報処理装置、プログラム、及び情報処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |