Nothing Special   »   [go: up one dir, main page]

WO2014207874A1 - 電子機器、出力方法およびプログラム - Google Patents

電子機器、出力方法およびプログラム Download PDF

Info

Publication number
WO2014207874A1
WO2014207874A1 PCT/JP2013/067716 JP2013067716W WO2014207874A1 WO 2014207874 A1 WO2014207874 A1 WO 2014207874A1 JP 2013067716 W JP2013067716 W JP 2013067716W WO 2014207874 A1 WO2014207874 A1 WO 2014207874A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
sound
sound information
audio
audio information
Prior art date
Application number
PCT/JP2013/067716
Other languages
English (en)
French (fr)
Inventor
谷内 謙一
Original Assignee
株式会社東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝 filed Critical 株式会社東芝
Priority to PCT/JP2013/067716 priority Critical patent/WO2014207874A1/ja
Publication of WO2014207874A1 publication Critical patent/WO2014207874A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/10Arrangements for replacing or switching information during the broadcast or the distribution
    • H04H20/106Receiver-side switching

Definitions

  • Embodiments described herein relate generally to an electronic device, an output method, and a program.
  • the electronic device of the embodiment includes a separation unit, a conversion unit, and an output unit.
  • the separation unit separates the background sound information and the first sound information from the sound information.
  • the conversion unit converts the first sound information into second sound information corresponding to the first sound information.
  • the output unit mixes and outputs the background sound information and the second sound information.
  • FIG. 1 is a block diagram showing a main signal processing system of a digital television as an example of the electronic apparatus according to the first embodiment.
  • FIG. 2 is a block diagram illustrating a configuration of a signal processing unit included in the digital television according to the first embodiment.
  • FIG. 3 is a flowchart illustrating a flow of output processing of sound information and image information by a signal processing unit included in the digital television according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a setting screen for various information in the digital television according to the first embodiment.
  • FIG. 5 is a diagram illustrating a configuration of an information processing system having a notebook PC as an example of an electronic apparatus according to the second embodiment.
  • FIG. 6 is a sequence diagram illustrating a flow of output processing of sound information in the information processing system according to the second embodiment.
  • FIG. 7 is a diagram illustrating a hardware configuration of a PC that is an example of an electronic apparatus according to the third embodiment.
  • FIG. 8 is a block diagram illustrating a functional configuration of a PC according to the third embodiment.
  • FIG. 1 is a block diagram showing a main signal processing system of a digital television as an example of the electronic apparatus according to the first embodiment.
  • the satellite digital television broadcast signal received by the BS / CS digital broadcast receiving antenna 121 is supplied to the satellite digital broadcast tuner 202 a provided in the broadcast input unit 202 via the input terminal 201.
  • the tuner 202a selects a broadcast signal of a desired channel based on a control signal from the control unit 205, and outputs the selected broadcast signal to a PSK (Phase Shift Keying) demodulator 202b.
  • PSK Phase Shift Keying
  • the PSK demodulator 202b included in the broadcast input unit 202 demodulates the broadcast signal selected by the tuner 202a based on a control signal from the control unit 205, and obtains a transport stream (TS) including a desired program. The result is output to the TS decoder 202c.
  • TS transport stream
  • a TS decoder 202c included in the broadcast input unit 202 performs TS decoding processing on a signal in which a transport stream (TS) is multiplexed by a control signal from the control unit 205, and digital video signals and sound signals of a desired program.
  • PES Packetized Elementary Stream
  • the TS decoder 202c outputs section information transmitted by digital broadcasting to a section processing unit (not shown) in the signal processing unit 206.
  • the terrestrial digital television broadcast signal received by the terrestrial broadcast receiving antenna 122 is supplied to the terrestrial digital broadcast tuner 204 a provided in the broadcast input unit 202 via the input terminal 203.
  • the tuner 204a can select a broadcast signal of a desired channel by a control signal from the control unit 205.
  • the tuner 204a outputs the broadcast signal to an OFDM (Orthogonal Frequency Division Multiplexing) demodulator 204b.
  • OFDM Orthogonal Frequency Division Multiplexing
  • the OFDM demodulator 204b included in the broadcast input unit 202 demodulates the broadcast signal selected by the tuner 204a based on a control signal from the control unit 205, obtains a transport stream including a desired program, and a TS decoder To 204c.
  • a TS decoder 204c included in the broadcast input unit 202 performs TS decoding processing on a signal in which a transport stream (TS) is multiplexed by a control signal from the control unit 205, and performs digital video signal and sound signal of a desired program. Is output to the STD buffer in the signal processing unit 206.
  • the TS decoder 204c outputs section information transmitted by digital broadcasting to a section processing unit (not shown) in the signal processing unit 206.
  • the signal processing unit 206 selectively performs predetermined digital signal processing on the digital video signal and sound signal respectively supplied from the TS decoder 202c and the TS decoder 204c when viewing the television, and the graphic processing unit 207 And output to the audio output unit 208. Further, the signal processing unit 206 selectively outputs a signal obtained by performing predetermined digital signal processing on the digital video signal and sound signal respectively supplied from the TS decoder 202c and the TS decoder 204c at the time of program recording. The recording is performed in the whole recording storage device (for example, HDD: Hard Disk Drive) 271 and the external storage device 226 via the control unit 205.
  • HDD Hard Disk Drive
  • the round recording according to the present embodiment is different from the reserved recording in which the recording is performed in units of program content selected by the user, in order to prevent the user from overlooking the broadcast channel for a predetermined time period (including all day). ) Is a method for recording all program content broadcasted on the Internet.
  • the recording time zone may be different for each broadcast channel.
  • the signal processing unit 206 also plays back recorded program data (video signal and sound signal) read from the recording / recording storage device 271 or the external storage device 226 via the control unit 205 during playback of the recorded program. Then, predetermined digital signal processing is performed and output to the graphic processing unit 207 and the audio output unit 208.
  • recorded program data video signal and sound signal
  • a section processing unit (not shown) included in the signal processing unit 206 includes various data, electronic program guide (EPG) information, and program attributes for acquiring a program from the section information input from the TS decoders 202c and 204c.
  • Information program genre, etc.
  • subtitle information, etc. service information, SI, PSI
  • the tuner 202a, the PSK demodulator 202b, the TS decoder 202c, the tuner 204a, the OFDM demodulator 204b, and the TS decoder 204c shown in FIG. 1 have more than the number of systems necessary for the round recording function.
  • the digital television 100 is an apparatus capable of recording all the terrestrial key stations in Tokyo, the digital television 100 includes seven or more tuners 204a, OFDM demodulators 204b, and TS decoders 204c.
  • the control unit 205 receives various data (such as key information for B-CAS descrambling), electronic program guide (EPG) information, program attribute information (program genre, etc.) for acquiring a program from the signal processing unit 206. Subtitle information and the like (service information, SI and PSI) are input. The control unit 205 generates screen information for displaying EPG information, caption information, and the like from the input information, and outputs the generated screen information to the graphic processing unit 207.
  • EPG electronic program guide
  • program attribute information program genre, etc.
  • Subtitle information and the like service information, SI and PSI
  • the control unit 205 generates screen information for displaying EPG information, caption information, and the like from the input information, and outputs the generated screen information to the graphic processing unit 207.
  • control unit 205 has a function of controlling program recording and program reservation recording.
  • the control unit 205 When the program reservation is accepted, the control unit 205 generates screen information for displaying the EPG information on the display unit 214, and performs graphic processing on the generated screen information.
  • reservation contents are set in a predetermined storage unit by a user input via the operation unit 220 or the remote controller 221. Then, the control unit 205 controls the tuners 202a and 204a, the PSK demodulator 202b, the OFDM demodulator 204b, the TS decoders 202c and 204c, and the signal processing unit 206 so as to record the reserved program at the set time.
  • the digital television 100 when the digital television 100 automatically records programs of all channels that can be recorded by the round recording function, the digital television 100 performs recording by controlling each device during a time period set separately from the reservation.
  • the OSD (On Screen Display) signal generation unit 209 generates setting screen information (OSD signal) for displaying a setting screen for setting various information, and outputs the generated setting screen information to the graphic processing unit 207. To do.
  • the graphic processing unit 207 outputs the digital video signal output from the signal processing unit 206, the setting screen information generated by the OSD signal generation unit 209 and the screen information generated by the control unit 205 to the video processing unit 210.
  • the digital video signal output from the graphic processing unit 207 is supplied to the video processing unit 210.
  • the video processing unit 210 converts the input digital video signal into an analog video signal in a format that can be displayed on an external device connected via the display unit 214 or the output terminal 211, and then outputs the analog video signal to the output terminal 211 or the display unit.
  • the video is output to 214 and displayed.
  • the audio output unit 208 converts the input digital sound signal into an analog sound signal in a format that can be played back by the speaker 213, and then outputs the analog sound signal to an external device or speaker 213 connected via the output terminal 212. Let it play.
  • control unit 205 incorporates a CPU (Central Processing Unit) and the like, receives operation information from the operation unit 220, or receives operation information sent from the remote controller 221 via the light receiving unit 222. Each unit is controlled so that the operation content is reflected.
  • CPU Central Processing Unit
  • the control unit 205 stores a ROM (Read Only Memory) 205a that stores a control program executed by the CPU, a RAM (Random Access Memory) 205b that provides a work area for the CPU, and various setting information and control information.
  • the non-volatile memory 205c is used.
  • the control unit 205 is connected to a card holder 225 in which a memory card 224 can be mounted via a card I / F (Interface) 223. As a result, the control unit 205 can transmit information to the memory card 224 attached to the card holder 225 via the card I / F 223.
  • control unit 205 is connected to the first LAN terminal 230 via the communication I / F 229. As a result, the control unit 205 can transmit information to and from the LAN compatible device connected to the first LAN terminal 230 via the communication I / F 229.
  • the control unit 205 is connected to the second LAN terminal 232 via the communication I / F 231. Accordingly, the control unit 205 can transmit information to and from various LAN-compatible devices connected to the second LAN terminal 232 via the communication I / F 231.
  • control unit 205 is connected to the USB terminal 234 via the USB I / F 233. Accordingly, the control unit 205 can transmit information to various devices (for example, the external storage device 226) connected to the USB terminal 234 via the USB I / F 233.
  • FIG. 2 is a block diagram illustrating a configuration of a signal processing unit included in the digital television according to the first embodiment.
  • the signal processing unit 206 decodes a video signal (image information reproduced in synchronization with a sound signal) input from the broadcast input unit 202 or the control unit 205 into a data format that can be processed by the video processing unit 210.
  • An audio decoder 242 that decodes the sound signal input from the broadcast input unit 202 or the control unit 205 into a data format that can be processed by the audio output unit 208; and an output destination of the sound signal decoded by the audio decoder 242 as a separator
  • a switch unit 248 that switches to 243 or the synchronization processing unit 247, a separator 243 that separates background sound information and first sound information from a sound signal (sound information) decoded by the sound decoder 242, and a first sound information Performing voice recognition processing to analyze and acquire the content of the first voice information as text data;
  • the translator 244 that translates the text data into a translated language (second language) that is a language different from the original language (first language) that is the language of the first speech information, and the text data translated into the translated language
  • a synthesizer 245 for synthesizing the second sound information
  • a mixing unit 246 for mixing and outputting the background sound information and the second sound information, and a sound obtained by
  • the translator 244 and the synthesizer 245 function as a conversion unit that converts the first speech information into second speech information in a translation language different from the original language of the first speech information.
  • the translator 244 and the synthesizer 245 convert the first speech information into second speech information in a translation language different from the original language of the first speech information will be described. What is necessary is just to convert information into the 2nd audio
  • the first voice information in the standard language may be converted into the second voice information in the dialect, or the first voice information in the voice may be converted into the second voice information in the pseudo sound.
  • the signal processing unit 206 includes a switch unit 248.
  • the switch unit 248 When the conversion to the second audio information is instructed by the control signal from the control unit 205, the switch unit 248 outputs the sound information decoded by the audio decoder 242 to the separator 243, and the separators 243, 243 The sound information is output to the synchronization processing unit 247 via the translator 244, the synthesizer 245 and the mixing unit 246.
  • the switch unit 248 does not go through the separator 243, the translator 244, the synthesizer 245, and the mixing unit 246.
  • the input sound information is output to the synchronization processing unit 247.
  • FIG. 3 is a flowchart illustrating a flow of output processing of sound information and image information by a signal processing unit included in the digital television according to the first embodiment.
  • FIG. 4 is a diagram illustrating an example of a setting screen for various information in the digital television according to the first embodiment.
  • the OSD signal generation unit 209 (an example of a display control unit) performs sound information and image information output processing by the signal processing unit 206 when the control unit 205 instructs conversion to second audio information.
  • the control unit 205 instructs conversion to second audio information.
  • the setting screen information of the setting screen that can set the setting (synchronization setting) is generated and output to the graphic processing unit 207.
  • the OSD signal generation unit 209 causes the display unit 214 to display a setting screen.
  • the OSD signal generation unit 209 can input the volume of each of the first sound information (original sound), the second sound information (translated sound), and the background sound information (background sound).
  • a slider 401 that is an example of an image for use, a select box 402 that can input a translation language that is the language of the second audio information, and whether to adjust the reproduction time of the second audio information or the reproduction time of the image information can be set
  • a setting screen 400 including a radio button 403 and the like is displayed on the display unit 214.
  • the OSD signal generation unit 209 displays on the display unit 214 the slider 401 that can input the volume of each of the background sound information, the first sound information, and the second sound information. However, at least the first sound information is displayed. It is only necessary to display a volume input image capable of inputting the volume of each of the second audio information.
  • the audio decoder 242 first determines whether or not conversion to second audio information is instructed by the control signal from the control unit 205 (step S301). When conversion to the second audio information is instructed (step S301: Yes), the audio decoder 242 decodes the input audio information into a data format that can be processed by the audio output unit 208. Further, the separator 243 separates the first sound information and the background sound information from the sound information decoded by the sound decoder 242 (step S302).
  • the separator 243 first performs frequency analysis of the sound information and acquires a feature amount of the sound information.
  • the separator 243 may acquire a feature amount obtained by frequency analysis in an external device.
  • the separator 243 calculates a background sound base matrix representing the background sound using the feature amount acquired at a certain time.
  • the separator 243 estimates a first background sound component having non-stationaryness among the background sound components of the feature amount using the acquired feature amount and the calculated background sound base matrix.
  • the separator 243 estimates a representative component of the first background sound component within a predetermined time from the first background sound component estimated from one or more feature amounts acquired at a predetermined time including the past.
  • the separator 243 estimates the first speech component that is the speech component of the feature amount using the acquired feature amount. Further, the separator 243 creates a filter that extracts the spectrum of the sound or the spectrum of the background sound from the estimated first sound component and the representative component of the first background sound component. Next, the separator 243 separates the sound information into the first sound information and the background sound information using the created filter and the spectrum of the sound information.
  • the translator 244 acquires text data from the first voice information separated from the sound information by the separator 243 by voice recognition processing (step S303). Further, the translator 244 acquires a translation language set in advance on the setting screen 400 shown in FIG. 4 (step S304). Then, the translator 244 translates the text data acquired from the first speech information into text data of a preset translation language by natural language processing (step S305).
  • the synthesizer 245 synthesizes speech information (second speech information in the translation language) from the text data translated by the translator 244 (text data in a preset translation language) (step S306).
  • the mixing unit 246 performs synchronization setting (in this embodiment, synchronization setting input on the setting screen 400 shown in FIG. 4) indicating whether to adjust the reproduction time of the second audio information or the reproduction time of the image information. Obtain (step S307). Next, the mixing unit 246 determines whether or not the reproduction time of the synthesized second audio information is different from the reproduction time of the first audio information (step S308). If the reproduction time of the second audio information is different from the reproduction time of the first audio information (step S308: Yes), the mixing unit 246 adjusts the reproduction time of the second audio information based on the acquired synchronization setting. It is determined whether or not (step S309).
  • synchronization setting in this embodiment, synchronization setting input on the setting screen 400 shown in FIG. 4
  • the mixing unit 246 determines whether or not the reproduction time of the second audio information is different from the reproduction time of the first audio information, but the reproduction time of the second audio information and the first audio information When the difference from the reproduction time is longer than the predetermined allowable time, the reproduction time of the second audio information or the reproduction time of the image information may be adjusted. Thus, when the difference between the reproduction time of the second audio information and the reproduction time of the first audio information is short, the image information is viewed without adjusting the reproduction time of the second audio information or the reproduction time of the image information. be able to.
  • the mixing unit 246 synchronizes the reproduction time of the second audio information with the second audio information.
  • the reproduction time of the image information to be reproduced (in other words, the image information corresponding to the second audio information) is the same as the reproduction time (in other words, the reproduction time of the second audio information is the same as the reproduction time of the first audio information).
  • the reproduction time of the second audio information is adjusted (step S310). As a result, the second audio information and the image information can be reproduced in synchronization.
  • the mixing unit 246 compares the time stamp added to the second audio information with the time stamp added to the image information, so that the second image information is selected from the input image information. Image information to be reproduced in synchronization with audio information is determined. Further, in the present embodiment, the mixing unit 246 has the second audio information ((2) so that the reproduction time of the second audio information is the same as the reproduction time of the image information reproduced in synchronization with the second audio information.
  • the reproduction time of the image information is adjusted, but the difference between the reproduction time of the second audio information and the reproduction time of the image information reproduced in synchronization with the second audio information is equal to or less than a predetermined allowable time.
  • it may be anything that adjusts the reproduction time of the second audio information (or image information).
  • the translator 244 translates the text data acquired from the first audio information into a plurality of text data in a preset translation language.
  • the synthesizer 245 synthesizes a plurality of second speech information candidates from each of a plurality of text data in a preset translation language. That is, the translator 244 and the synthesizer 245 convert the first speech information into a plurality of second speech information candidates.
  • the mixing unit 246 selects a second audio information candidate that can be reproduced at the same reproduction time as the reproduction time of the image information that is reproduced in synchronization with the second audio information, from among the plurality of second audio information candidates. The reproduction time of the second audio information is adjusted by selecting and selecting the selected second audio information candidate as the second audio information.
  • the synthesizer 245 synthesizes a plurality of candidates for the second speech information from all the plurality of text data in a preset translation language.
  • the present invention is not limited to this, and is preset.
  • the reproduction is performed with the same reproduction time as the reproduction time of the image information reproduced in synchronization with the second audio information. It is also possible to select text data that can be second possible voice information, and use the voice information synthesized from the selected text data as the second voice information.
  • the mixing unit 246 selects a second audio information candidate that can be reproduced with the same reproduction time as the reproduction time of the image information from a plurality of second audio information candidates as the second audio information.
  • the present invention is not limited to this.
  • the second audio information is controlled by controlling the audio output unit 208 to change the reproduction speed for reproducing the second audio information. You may adjust the playback time.
  • the synchronization processing unit 247 reproduces the reproduction time of the image information that is reproduced in synchronization with the second audio information.
  • the reproduction time of the image information is adjusted so as to be the same as the reproduction time of the second audio information (step S311).
  • the synchronization processing unit 247 controls the video processing unit 210 to adjust the reproduction time of the image information by changing the reproduction speed for reproducing the image information reproduced in synchronization with the second audio information. To do. Thereby, it becomes possible to reproduce
  • the synchronization processing unit 247 adjusts the reproduction time of the image information by changing the reproduction speed at which the image information is reproduced.
  • the image information is the moving image information.
  • the reproduction time of the image information may be adjusted by thinning out some of the plurality of frames constituting the moving image information or adding frames.
  • the playback time of the second audio information or the playback time of the image information that is played back in synchronization with the second audio information is adjusted. At least one of the reproduction time of the second audio information and the reproduction time of the image information reproduced in synchronization with the second audio information so that the reproduction time of the image information reproduced in synchronization with the audio information becomes the same.
  • the present invention is not limited to this as long as one is adjusted.
  • the reproduction time of the second audio information is a time that is twice or more the reproduction time of the image information reproduced in synchronization with the second audio information, or when the reproduction time of the second audio information is The playback time of the second audio information and the playback time of the image information played back in synchronization with the second audio information, such as when the playback time is half or less of the playback time of the image information played back in synchronization with the 2 audio information Is greater than a preset allowable value
  • the second audio information is adjusted by adjusting either the reproduction time of the second audio information or the reproduction time of the image information reproduced in synchronization with the second audio information.
  • the reproduction time of the second audio information and the reproduction time of the image information reproduced in synchronization with the second audio information is made the same.
  • the reproduction time of the second audio information is short, the reproduction time of the second audio information is lengthened and the reproduction time of the image information reproduced in synchronization with the second audio information is shortened.
  • the reproduction time of the second audio information is long, the reproduction time of the second audio information is shortened and the reproduction time of the image information reproduced in synchronization with the second audio information is lengthened.
  • the reproduction time of the second audio information and the reproduction time of the image information reproduced in synchronization with the second audio information is determined based on the synchronization setting.
  • the present invention is not limited to this. Specifically, based on at least one of the type of the image reproduced from the image information and the difference between the reproduction time of the second audio information and the reproduction time of the image information, the reproduction time of the second audio information and the It may be determined which of the reproduction times of the image information reproduced in synchronization with the second audio information is adjusted.
  • the difference between the reproduction time of the second audio information and the reproduction time of the image information reproduced in synchronization with the second audio information is less than a preset allowable value. If there is a low possibility that the user will feel uncomfortable with the image reproduced from the image information even if the reproduction time of the image information is adjusted in some cases, it may be decided to adjust the reproduction time of the image information. .
  • the image information is moving image information, or when the difference between the reproduction time of the second audio information and the reproduction time of the image information reproduced in synchronization with the second audio information is greater than a preset allowable value May be determined to adjust the reproduction time of the second audio information.
  • the mixing unit 246 Adjusts the frequency of the second audio information based on the original language of the first audio information and the translated language of the second audio information (step S312). For example, when the original language of the first audio information is English and the translation language of the second audio information is Japanese, the mixing unit 246 lowers the frequency of the second audio information.
  • the mixing unit 246 is configured to input the volume previously input for each of the first sound information, the second sound information, and the background sound information (in the present embodiment, on the setting screen 400 shown in FIG. 4, the first sound information, the second sound information).
  • the volume input for each of the information and the background sound information) is acquired (step S313).
  • the mixing unit 246 adjusts the volume of each of the first sound information, the second sound information, and the background sound information in accordance with the volume input in advance (step S314).
  • the mixing unit 246 adjusts the volume of each of the first sound information, the second sound information, and the background sound information according to the volume input in advance, but the present invention is not limited to this.
  • the mixing unit 246 may adjust the volume of the second audio information according to the volume of the first audio information.
  • the mixing unit 246 can prevent the second voice information from becoming difficult to hear by making the volume of the first voice information smaller than the volume of the second voice information.
  • the mixing unit 246 mixes (in other words, adds) the first audio information, the second audio information, and the background sound information (step S315).
  • the mixing unit 246 mixes the first sound information, the second sound information, and the background sound information. However, at least the second sound information and the background sound information are mixed and output. It ’s fine.
  • the mixing unit 246 mixes and outputs the background sound information and the second sound information reproduced in synchronization with the background sound information. In other words, the mixing unit 246 adjusts the timing of outputting the background sound information and the second sound information reproduced in synchronization with the background sound information, and outputs the background sound information and the second sound information in synchronization. To do.
  • the mixing unit 246 compares the time stamp added to the second sound information with the time stamp added to the background sound information, and thereby compares the second background information with the second background sound information.
  • the background sound information to be reproduced in synchronization with the sound information is determined.
  • the mixing unit 246 may adjust the volume of the second audio information based on the original language of the first audio information and the translated language of the second audio information. For example, when the original language of the first audio information is English and the translated language of the second audio information is Japanese, the volume of the second audio information is set higher than the volume of the first audio information.
  • the synchronization processing unit 247 outputs the image information and the first information by delaying the image information output from the image decoder 241 to the video processing unit 210 after delaying the conversion time required for the conversion from the first audio information to the second audio information. Synchronization processing for reproducing the two audio information in synchronization is executed (step S316).
  • the sound output unit 208 outputs sound information obtained by mixing the first sound information, the second sound information, and the background sound information in the mixing unit 246 to the speaker 213 via the synchronization processing unit 247 (step S317).
  • the video processing unit 210 outputs the image information output from the image decoder 241 to the display unit 214 via the synchronization processing unit 247 (step S317).
  • the background sound information and the first sound information are separated from the input sound information, and the first sound information is converted into the first sound information.
  • the second voice information is converted into the second voice information in a translation language different from the original language, and the first voice information is replaced with the second voice information by mixing and outputting the background sound information and the second voice information. Therefore, when outputting the 2nd audio
  • the background sound information and the first sound information are separated from the input sound information, and the first sound information to the second sound information. It is an example which performs conversion to audio
  • FIG. 5 is a diagram illustrating a configuration of an information processing system having a notebook PC as an example of an electronic apparatus according to the second embodiment.
  • a notebook PC Personal Computer
  • a notebook PC 500 includes a content server 510 that stores content to be reproduced (content including at least sound information) via a network such as the Internet, and a notebook.
  • a Web server 520 that exchanges various types of information with the notebook PC 500 via a browser executed on the PC 500, separation of background sound information and first sound information from the input sound information, and text data from the first sound information
  • a speech processing server 530 that performs acquisition and the like is connected to a translation server 540 that translates text data acquired from the first speech information into a translation language.
  • FIG. 6 is a sequence diagram showing a flow of sound information output processing in the information processing system according to the second embodiment.
  • the notebook PC 500 connects to the Web server 520 through a browser, and requests the Web server 520 to display the setting screen 400 (see FIG. 4) (step S601).
  • the Web server 520 transmits the screen information of the setting screen 400 to the notebook PC 500, and displays the setting screen 400 on a display unit (not shown) of the notebook PC 500 (step S602).
  • the notebook PC 500 transmits various settings set on the setting screen 400 (volumes of the first voice information, second voice information and background sound information, translation language settings, synchronization settings, etc.) to the web server 520 (step S603). ). Furthermore, the notebook PC 500 selects content to be output from the content stored in the content server 510 via the browser (step S604).
  • the Web server 520 requests the content server 510 to acquire the content selected on the notebook PC 500 (step S605), and acquires the content from the content server 510 (step S606).
  • the Web server 520 transmits the sound information included in the acquired content to the sound processing server 530, and requests the separation of the first sound information and the background sound information from the sound information (step S607).
  • the speech processing server 530 separates the background sound information and the first speech information from the sound information and the text from the first speech information in the same manner as the separator 243 (see FIG. 2) and the translator 244 (see FIG. 2). Acquire data. Then, the web server 520 acquires the first sound information, background sound information, and text data from the sound processing server 530 (step S608).
  • the Web server 520 transmits the text data acquired from the speech processing server 530 and the translation language set on the setting screen 400 (see FIG. 4) to the translation server 540 and requests translation of the text data into the translation language (Ste S609).
  • the translation server 540 translates the text data into the translation language in the same manner as the translator 244 (see FIG. 2). Then, the web server 520 acquires text data (translation result) translated into the translation language from the translation server 540 (step S610).
  • the Web server 520 includes text data translated into a translation language, background sound information, first sound information, and various settings (background sound information, first sound information, and second sound) set on the setting screen 400 (see FIG. 4).
  • the volume of each information, the synchronization setting, etc.) is transmitted to the audio processing server 530, and the second audio information is synthesized, various adjustments (for example, adjustment of the reproduction time of the second audio information, the first audio information, the second audio information) And mixing of the second sound information and the background sound information is requested (step S611).
  • the sound processing server 530 Similar to the synthesizer 245 (see FIG. 2) and the mixing unit 246 (see FIG. 2), the sound processing server 530 performs synthesis of the second sound information, various adjustments, and mixing of the second sound information and the background sound information. Do. Then, the web server 520 acquires sound information obtained by mixing the second sound information and the background sound information (step S612).
  • the Web server 520 transmits the content obtained by replacing the sound information included in the content acquired in step S606 with the sound information acquired from the audio processing server 530 to the notebook PC 500 (step S613).
  • the background sound information and the first sound information are separated from the input sound information, and the first sound information is used. Since it is not necessary to perform conversion to the second sound information and mixing of the background sound information and the second sound information, the processing load on the notebook PC 500 can be reduced.
  • FIG. 7 is a diagram illustrating a hardware configuration of a PC that is an example of an electronic apparatus according to the third embodiment.
  • the PC 700 includes a CPU 701, a ROM 702, a RAM 703, a display unit 704, an input unit 705, a storage control unit 706, a communication unit 707, a speaker 708, and a storage device 709. I have.
  • the CPU 701 performs various processes in cooperation with various control programs stored in the ROM 702 or the like using the RAM 703 as a work area, and comprehensively controls the operation of each unit constituting the PC 700.
  • the ROM 702 stores a program for controlling the PC 700, various setting information, and the like in a non-rewritable manner.
  • the RAM 703 is a volatile storage medium and functions as a work area for the CPU 701.
  • the display unit 704 has a display screen configured by an LCD (Liquid Crystal Display), an organic EL (Electro Luminescence) display, and the like, and displays a process progress, a result, and the like according to control of the CPU 701.
  • the speaker 708 outputs sound information according to the control of the CPU 701.
  • the input unit 705 has an input device such as a keyboard and a mouse, and notifies the CPU 701 of commands and information input from the user via the input device.
  • the storage control unit 706 controls the operation of the storage device 709, and executes processing corresponding to a request such as data writing or data reading input from the CPU 701, in the storage device 709.
  • the storage device 709 is a storage device having a recording medium such as a magnetic disk, a semiconductor memory, or an optical disk.
  • the communication unit 707 is a wireless communication interface, establishes communication with an external device (not shown), and transmits and receives data (for example, content including sound information and image information).
  • FIG. 8 is a block diagram showing a functional configuration of the PC according to the third embodiment.
  • the PC 700 executes an image decoder 710, an audio decoder 711, a separator 243, a translator 244, a synthesizer 245, and a mixing unit 246 by executing a program stored in the ROM 702 by the CPU 701.
  • the image decoder 710 decodes image information included in the content received by the communication unit 707 (image information reproduced in synchronization with sound information included in the content) into a data format that can be processed by the video processing unit 712.
  • the audio decoder 711 decodes sound information included in the content received by the communication unit 707 into a data format that can be processed by the audio output unit 713.
  • the switch unit 248 switches the output destination of the sound signal decoded by the audio decoder 242 to the separator 243 or the synchronization processing unit 247.
  • the separator 243 separates the background sound information and the first sound information from the sound information decoded by the sound decoder 711.
  • the translator 244 performs a speech recognition process of analyzing the first speech information and acquiring the content of the first speech information as text data, and using the original language (the first language as the language of the first speech information) for the text data.
  • the language is translated into a translated language (second language) which is a different language.
  • the synthesizer 245 synthesizes the second speech information based on the text data translated into the translation language.
  • the mixing unit 246 mixes and outputs the background sound information and the second sound information.
  • the synchronization processing unit 247 synchronizes and outputs the sound information obtained by mixing the background sound information and the second sound information by the mixing unit 246 and the image information reproduced in synchronization with the sound information
  • the video processing unit 712 converts the image information output from the synchronization processing unit 247 into an analog video signal in a format that can be displayed on the display unit 704, and then outputs the analog video signal to the display unit 704 for video display.
  • the audio output unit 713 converts the digital sound information output from the synchronization processing unit 247 into an analog sound signal in a format that can be reproduced by the speaker 708, and then outputs the analog sound signal to the speaker 708 for audio reproduction.
  • the second sound information As described above, according to the first to third embodiments, it is possible to prevent the second sound information from becoming difficult to hear when outputting the second sound information converted from the first sound information. It is also possible to prevent the background sound from being heard.
  • the program executed by the electronic device of the present embodiment is provided by being incorporated in advance in a ROM or the like.
  • the program executed in the electronic device of the present embodiment is a file in an installable format or an executable format, and is a computer such as a CD-ROM, flexible disk (FD), CD-R, DVD (Digital Versatile Disk). It may be configured to be recorded on a readable recording medium.
  • the program executed by the electronic device of the present embodiment may be provided by being stored on a computer connected to a network such as the Internet and downloaded via the network. Further, the program executed by the electronic device of the present embodiment may be provided or distributed via a network such as the Internet.
  • the program executed by the electronic device of the present embodiment has a module configuration including the above-described units (separator 243, translator 244, synthesizer 245, mixing unit 246, and synchronization processing unit 247).
  • a CPU processor

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 実施形態の電子機器は、分離部と、変換部と、出力部と、を備える。分離部は、音情報から、背景音情報と第1音声情報とを分離する。変換部は、第1音声情報を、当該第1音声情報に対応する第2音声情報に変換する。出力部は、背景音情報と第2音声情報とをミキシングして出力する。

Description

電子機器、出力方法およびプログラム
 本発明の実施形態は、電子機器、出力方法およびプログラムに関する。
 動画像等のコンテンツの音情報に含まれる音声をテキスト情報に変換し、当該テキスト情報を別の言語に翻訳し、翻訳したテキスト情報から音声を合成し、合成した音声をコンテンツと共に出力する技術が開示されている。
特開2000-322077号公報 特開2000-92460号公報
 しかしながら、従来技術においては、合成した音声をコンテンツと共に出力した場合、当該コンテンツの音情報に元々含まれる音声と、合成した音声とが同時に聞こえることとなるので、合成した音声が聞き取り難い、という課題がある。また、コンテンツの音情報の音量を下げることにより、合成した音声を聞き易くする方法もあるが、当該方法によるとコンテンツの音情報が含む背景音の音量も小さくなり、背景音が聞こえなくなる、という課題がある。
 実施形態の電子機器は、分離部と、変換部と、出力部と、を備える。分離部は、音情報から、背景音情報と第1音声情報とを分離する。変換部は、第1音声情報を、当該第1音声情報に対応する第2音声情報に変換する。出力部は、背景音情報と第2音声情報とをミキシングして出力する。
図1は、第1の実施形態にかかる電子機器の一例としてのデジタルテレビジョンの主要な信号処理系を示すブロック図である。 図2は、第1の実施形態にかかるデジタルテレビジョンが備える信号処理部の構成を示すブロック図である。 図3は、第1の実施形態にかかるデジタルテレビジョンが備える信号処理部による音情報および画像情報の出力処理の流れを示すフローチャートである。 図4は、第1の実施形態にかかるデジタルテレビジョンにおける各種情報の設定画面の一例を示す図である。 図5は、第2の実施形態にかかる電子機器の一例としてのノートPCを有する情報処理システムの構成を示す図である。 図6は、第2の実施形態にかかる情報処理システムにおける音情報の出力処理の流れを示すシーケンス図である。 図7は、第3の実施形態にかかる電子機器の一例であるPCのハードウェア構成を示す図である。 図8は、第3の実施形態にかかるPCの機能構成を示すブロック図である。
 以下、添付の図面を参照して、本実施形態にかかる電子機器、出力方法およびプログラムについて説明する。
(第1の実施形態)
 図1は、第1の実施形態にかかる電子機器の一例としてのデジタルテレビジョンの主要な信号処理系を示すブロック図である。BS/CSデジタル放送受信用のアンテナ121で受信した衛星デジタルテレビジョン放送信号は、入力端子201を介して、放送入力部202が備える衛星デジタル放送用のチューナ202aに供給される。
 チューナ202aは、制御部205からの制御信号により所望のチャンネルの放送信号を選局し、この選局された放送信号をPSK(Phase Shift Keying)復調器202bに出力する。
 放送入力部202が備えるPSK復調器202bは、制御部205からの制御信号により、チューナ202aで選局された放送信号を復調し、所望の番組を含んだトランスポートストリーム(TS)を得て、TS復号器202cに出力する。
 放送入力部202が備えるTS復号器202cは、制御部205からの制御信号によりトランスポートストリーム(TS)が多重化された信号のTS復号処理を行い、所望の番組のデジタルの映像信号および音信号をデパケットすることにより得たPES(Packetized Elementary Stream)を信号処理部206内のSTDバッファ(図示しない)へ出力する。また、TS復号器202cは、デジタル放送により送られているセクション情報を信号処理部206内のセクション処理部(図示しない)へ出力する。
 地上波放送受信用のアンテナ122で受信した地上デジタルテレビジョン放送信号は、入力端子203を介して、放送入力部202が備える地上デジタル放送用のチューナ204aに供給される。
 チューナ204aは、制御部205からの制御信号により所望のチャンネルの放送信号を選局可能とする。チューナ204aは、放送信号をOFDM(Orthogonal Frequency Division Multiplexing)復調器204bに出力する。
 放送入力部202が備えるOFDM復調器204bは、制御部205からの制御信号により、チューナ204aで選局された放送信号を復調し、所望の番組を含んだトランスポートストリームを得て、TS復号器204cに出力する。
 放送入力部202が備えるTS復号器204cは、制御部205からの制御信号によりトランスポートストリーム(TS)が多重化された信号のTS復号処理を行い、所望の番組のデジタルの映像信号および音信号をデパケットすることにより得たPESを信号処理部206内のSTDバッファへ出力する。また、TS復号器204cは、デジタル放送により送られているセクション情報を信号処理部206内のセクション処理部(図示しない)へ出力する。
 信号処理部206は、テレビ視聴時には、TS復号器202cおよびTS復号器204cからそれぞれ供給されたデジタルの映像信号および音信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部207および音声出力部208に出力する。また、信号処理部206は、番組録画時には、TS復号器202cおよびTS復号器204cからそれぞれ供給されたデジタルの映像信号および音信号に対して、選択的に所定のデジタル信号処理を施した信号を、制御部205を介して丸録り録画用記憶装置(例えば、HDD:Hard Disk Drive)271および外部記憶装置226に記録している。
 なお、本実施形態にかかる丸録りとは、ユーザにより選択された番組コンテンツ単位で録画する予約録画と異なり、ユーザの見逃しを防止するために、各放送チャンネルについて、所定時間帯(一日中を含む)に放送された番組コンテンツ全てを録画する手法とする。なお、録画する時間帯は、放送チャンネル毎に異ならせても良い。
 また、信号処理部206は、録画番組再生時には、制御部205を介して丸録り録画用記憶装置271または外部記憶装置226から読み出された録画番組のデータ(映像信号および音信号)に対して、所定のデジタル信号処理を施し、グラフィック処理部207および音声出力部208に出力する。
 信号処理部206が備えるセクション処理部(図示しない)は、TS復号器202c,204cから入力されたセクション情報の中から、番組を取得するための各種データや電子番組ガイド(EPG)情報、番組属性情報(番組ジャンル等)、字幕情報等(サービス情報、SIやPSI)を制御部205へ出力する。
 図1に示す、チューナ202a、PSK復調器202b、TS復号器202c、チューナ204a、OFDM復調器204b、TS復号器204cは、丸録り機能に必要な数以上の系統を備えている。例えば、デジタルテレビジョン100が、在京地上波キー局を全て記録できる装置の場合、チューナ204a、OFDM復調器204b、TS復号器204cを7系統以上備えている。
 制御部205には、信号処理部206から、番組を取得するための各種データ(B-CASデスクランブル用の鍵情報等)や電子番組ガイド(EPG)情報、番組属性情報(番組ジャンル等)、字幕情報等(サービス情報、SIやPSI)が入力されている。制御部205は、これら入力された情報からEPG情報や字幕情報等を表示するため画面情報を生成し、生成した画面情報をグラフィック処理部207へ出力する。
 また、制御部205は、番組録画および番組予約録画を制御する機能を有し、番組予約受付時には、表示部214にEPG情報を表示するための画面情報を生成し、生成した画面情報をグラフィック処理部207へ出力するとともに、操作部220またはリモートコントローラ221を介したユーザ入力により予約内容を所定の記憶手段に設定する。そして、制御部205は、設定された時刻に予約番組を録画するようチューナ202a,204a、PSK復調器202b、OFDM復調器204b、TS復号器202c,204cおよび信号処理部206を制御する。
 また、デジタルテレビジョン100は、丸録り録画機能で録画可能な全チャンネルの番組を自動録画する場合、予約とは別に設定された時間帯に各デバイスを制御し録画を行う。
 OSD(On Screen Display)信号生成部209は、各種情報を設定するための設定画面を表示するための設定画面情報(OSD信号)を生成して、生成した設定画面情報をグラフィック処理部207に出力する。
 グラフィック処理部207は、信号処理部206から出力されたデジタルの映像信号、OSD信号生成部209で生成される設定画面情報および制御部205により生成された画面情報を映像処理部210に出力する。
 グラフィック処理部207から出力されたデジタルの映像信号は、映像処理部210に供給される。映像処理部210は、入力されたデジタルの映像信号を、表示部214または出力端子211を介して接続された外部機器で表示可能なフォーマットのアナログ映像信号に変換した後、出力端子211または表示部214に出力して映像表示させる。
 音声出力部208は、入力されたデジタルの音信号を、スピーカ213で再生可能なフォーマットのアナログ音信号に変換した後、出力端子212を介して接続された外部機器またはスピーカ213に出力して音声再生させる。
 本実施形態にかかるデジタルテレビジョン100は、上記した各種の動作が制御部205によって統括的に制御されている。制御部205は、CPU(Central Processing Unit)等を内蔵しており、操作部220からの操作情報を受け、またはリモートコントローラ221から送出された操作情報を、受光部222を介して受信し、その操作内容が反映されるように各部をそれぞれ制御している。
 制御部205は、CPUが実行する制御プログラムを格納したROM(Read Only Memory)205aと、当該CPUに作業エリアを提供するRAM(Random Access Memory)205bと、各種の設定情報および制御情報等が格納される不揮発性メモリ205cとを利用している。
 また、制御部205は、カードI/F(Interface)223を介して、メモリカード224が装着可能なカードホルダ225に接続されている。これによって、制御部205は、カードホルダ225に装着されたメモリカード224と、カードI/F223を介して情報伝送することができる。
 また、制御部205は、通信I/F229を介して第1のLAN端子230に接続されている。これにより、制御部205は、第1のLAN端子230に接続されたLAN対応の機器と、通信I/F229を介して情報伝送することができる。
 また、制御部205は、通信I/F231を介して第2のLAN端子232に接続されている。これにより、制御部205は、第2のLAN端子232に接続されたLAN対応の各種機器と、通信I/F231を介して情報伝送することができる。
 また、制御部205は、USB I/F233を介してUSB端子234に接続されている。これにより、制御部205は、USB端子234に接続された各種機器(例えば、外部記憶装置226)と、USB I/F233を介して情報伝送することができる。
 図2は、第1の実施形態にかかるデジタルテレビジョンが備える信号処理部の構成を示すブロック図である。信号処理部206は、放送入力部202または制御部205から入力される映像信号(音信号と同期して再生される画像情報)を映像処理部210において処理可能なデータ形式にデコードする画像デコーダ241と、放送入力部202または制御部205から入力された音信号を音声出力部208において処理可能なデータ形式にデコードする音声デコーダ242と、音声デコーダ242によりデコードされた音信号の出力先を分離器243または同期処理部247に切り替えるスイッチ部248と、音声デコーダ242によりデコードされた音信号(音情報)から、背景音情報と第1音声情報とを分離する分離器243と、第1音声情報を解析して当該第1音声情報の内容をテキストデータとして取得する音声認識処理を行うとともに、当該テキストデータを第1音声情報の言語である元言語(第1言語)とは異なる言語である翻訳言語(第2言語)に翻訳する翻訳器244と、翻訳言語に翻訳されたテキストデータに基づいて第2音声情報を合成する合成器245と、背景音情報と第2音声情報とをミキシングして出力するミキシング部246と、ミキシング部246により背景音情報と第2音声情報とをミキシングした音情報と当該音情報と同期して再生する画像情報を同期させて出力する同期処理部247と、を備える。
 本実施形態では、翻訳器244および合成器245が、第1音声情報を、当該第1音声情報の元言語とは異なる翻訳言語の第2音声情報に変換する変換部として機能する。本実施形態では、翻訳器244および合成器245が、第1音声情報を、当該第1音声情報の元言語とは異なる翻訳言語の第2音声情報に変換する例について説明するが、第1音声情報を、当該第1音声情報と対応する第2音声情報(言い換えると、当該第1音声情報の代わりに出力する第2音声情報)に変換するものであれば良い。例えば、標準語の第1音声情報を方言の第2音声情報に変換したり、声の第1音声情報を擬音の第2音声情報に変換んしたりしても良い。また、本実施形態では、信号処理部206は、スイッチ部248を備える。スイッチ部248は、制御部205からの制御信号によって第2音声情報への変換が指示された場合には、音声デコーダ242によりデコードされた音情報を分離器243に出力して、分離器243,翻訳器244,合成器245およびミキシング部246を介して、音情報を同期処理部247に出力する。一方、スイッチ部248は、制御部205からの制御信号によって第2音声情報への変換が指示されなかった場合には、分離器243,翻訳器244,合成器245およびミキシング部246を介さずに、入力された音情報を同期処理部247に出力する。
 次に、図2~4を用いて、音情報および画像情報を出力する処理について説明する。図3は、第1の実施形態にかかるデジタルテレビジョンが備える信号処理部による音情報および画像情報の出力処理の流れを示すフローチャートである。図4は、第1の実施形態にかかるデジタルテレビジョンにおける各種情報の設定画面の一例を示す図である。
 本実施形態では、OSD信号生成部209(表示制御部の一例)は、制御部205によって第2音声情報への変換が指示されると、信号処理部206による音情報および画像情報の出力処理に先立って、背景音情報,第1音声情報および第2音声情報それぞれの音量、第2音声情報の言語である翻訳言語、第2音声情報の再生時間および画像情報の再生時間のいずれを調整するかの設定(同期設定)等を設定可能な設定画面の設定画面情報を生成してグラフィック処理部207に出力する。これにより、OSD信号生成部209は、設定画面を表示部214に表示させる。
 例えば、OSD信号生成部209は、図4に示すように、第1音声情報(元音声)、第2音声情報(翻訳音声)および背景音情報(背景音)それぞれの音量を入力可能な音量入力用画像の一例であるスライダ401、第2音声情報の言語である翻訳言語を入力可能なセレクトボックス402、第2音声情報の再生時間および画像情報の再生時間のいずれかを調整するかを設定可能なラジオボタン403等を含む設定画面400を表示部214に表示させる。
 本実施形態では、OSD信号生成部209は、背景音情報,第1音声情報および第2音声情報それぞれの音量を入力可能なスライダ401を表示部214に表示させているが、少なくとも第1音声情報および第2音声情報それぞれの音量を入力可能な音量入力用画像を表示すれば良い。
 図3に戻り、音声デコーダ242は、まず、制御部205から制御信号によって第2音声情報への変換が指示されたか否かを判断する(ステップS301)。第2音声情報への変換が指示された場合(ステップS301:Yes)、音声デコーダ242は、入力される音情報を音声出力部208において処理可能なデータ形式にデコードする。さらに、分離器243は、音声デコーダ242によりデコードされた音情報から、第1音声情報と背景音情報とを分離する(ステップS302)。
 具体的には、分離器243は、まず、音情報を周波数解析し、音情報の特徴量を取得する。分離器243は、外部機器における周波数解析により求められた特徴量を取得しても良い。次いで、分離器243は、一定時間に取得される特徴量を用いて、背景音を表す背景音基底行列を算出する。さらに、分離器243は、取得した特徴量および算出した背景音基底行列を用いて、特徴量の背景音成分のうち非定常性を持つ第1背景音成分を推定する。そして、分離器243は、過去を含む一定時間に取得された1以上の特徴量により推定された第1背景音成分から、一定時間内の第1背景音成分の代表成分を推定する。次に、分離器243は、取得した特徴量を用いて、特徴量の音声成分である第1音声成分を推定する。さらに、分離器243は、推定した第1音声成分と第1背景音成分の代表成分とから、音声のスペクトルまたは背景音のスペクトルを抽出するフィルタを作成する。次いで、分離器243は、作成したフィルタと音情報のスペクトルとを用いて、音情報を、第1音声情報と背景音情報とに分離する。
 次に、翻訳器244は、音声認識処理によって、分離器243により音情報から分離された第1音声情報からテキストデータを取得する(ステップS303)。さらに、翻訳器244は、図4に示す設定画面400において予め設定された翻訳言語を取得する(ステップS304)。そして、翻訳器244は、自然言語処理によって、第1音声情報から取得したテキストデータを、予め設定された翻訳言語のテキストデータに翻訳する(ステップS305)。
 合成器245は、翻訳器244により翻訳されたテキストデータ(予め設定された翻訳言語のテキストデータ)から、音声情報(翻訳言語の第2音声情報)を合成する(ステップS306)。
 ミキシング部246は、第2音声情報の再生時間および画像情報の再生時間のいずれかを調整するかを示す同期設定(本実施形態では、図4に示す設定画面400において入力された同期設定)を取得する(ステップS307)。次いで、ミキシング部246は、合成された第2音声情報の再生時間と第1音声情報の再生時間とが異なるか否かを判断する(ステップS308)。第2音声情報の再生時間と第1音声情報の再生時間とが異なる場合(ステップS308:Yes)、ミキシング部246は、取得した同期設定に基づいて、第2音声情報の再生時間を調整するか否かを判断する(ステップS309)。本実施形態では、ミキシング部246は、第2音声情報の再生時間と第1音声情報の再生時間とが異なるか否かを判断しているが、第2音声情報の再生時間と第1音声情報の再生時間との差分が所定許容時間より長い場合に、第2音声情報の再生時間または画像情報の再生時間の調整を行なっても良い。これにより、第2音声情報の再生時間と第1音声情報の再生時間の差分が短い場合には、第2音声情報の再生時間または画像情報の再生時間を調整することなく、画像情報を視聴することができる。
 同期設定により第2音声情報の再生時間を調整することが設定されていた場合(ステップS309:Yes)、ミキシング部246は、第2音声情報の再生時間が、当該第2音声情報と同期して再生する画像情報(言い換えると、第2音声情報に対応する画像情報)の再生時間と同じになるように(言い換えると、第2音声情報の再生時間が第1音声情報の再生時間と同じになるように)、第2音声情報の再生時間を調整する(ステップS310)。これにより、第2音声情報と画像情報とを同期して再生することが可能となる。また、画像情報の再生時間は調整されないので、当該画像情報が動画像情報である場合、当該動画像情報から再生した動画像にユーザが違和感を覚えることを防止できる。本実施形態では、ミキシング部246は、第2音声情報に付加されているタイムスタンプと、画像情報に付加されているタイムスタンプとを比較することにより、入力された画像情報の中から、第2音声情報と同期して再生する画像情報を判別する。また、本実施形態では、ミキシング部246は、第2音声情報の再生時間と当該第2音声情報と同期して再生される画像情報の再生時間とが同じになるように、第2音声情報(または画像情報)の再生時間を調整しているが、第2音声情報の再生時間と当該第2音声情報と同期して再生される画像情報の再生時間との差分が所定許容時間以下となるように、第2音声情報(または画像情報)の再生時間を調整するものであれば良い。
 本実施形態では、翻訳器244が、第1音声情報から取得したテキストデータを、予め設定された翻訳言語の複数のテキストデータに翻訳する。次に、合成器245が、予め設定された翻訳言語の複数のテキストデータそれぞれから、複数の第2音声情報の候補を合成する。すなわち、翻訳器244および合成器245は、第1音声情報を、複数の第2音声情報の候補に変換する。そして、ミキシング部246は、複数の第2音声情報の候補のうち、当該第2音声情報と同期して再生される画像情報の再生時間と同じ再生時間で再生可能な第2音声情報の候補を選択し、選択した第2音声情報の候補を第2音声情報とすることにより、第2音声情報の再生時間を調整する。本実施形態では、合成器245は、予め設定された翻訳言語の複数のテキストデータ全てから、複数の第2音声情報の候補を合成しているが、これに限定するものではなく、予め設定された翻訳言語の複数のテキストデータに基づいて(例えば、当該複数のテキストデータそれぞれの文字数などに基づいて)、第2音声情報と同期して再生される画像情報の再生時間と同じ再生時間で再生可能な第2音声情報となり得るテキストデータを選択し、当該選択したテキストデータから合成した音声情報を第2音声情報としても良い。
 本実施形態では、ミキシング部246は、複数の第2音声情報の候補から画像情報の再生時間と同じ再生時間で再生可能な第2音声情報の候補を第2音声情報として選択することにより、第2音声情報の再生時間を調整しているが、これに限定するものではなく、例えば、音声出力部208を制御して、第2音声情報を再生する再生速度を変えることにより、第2音声情報の再生時間を調整しても良い。
 一方、同期設定により画像情報の再生時間を調整することが設定されていた場合(ステップS309:No)、同期処理部247は、第2音声情報と同期して再生される画像情報の再生時間が当該第2音声情報の再生時間と同じになるように、当該画像情報の再生時間を調整する(ステップS311)。本実施形態では、同期処理部247は、映像処理部210を制御して、第2音声情報と同期して再生される画像情報を再生する再生速度を変えることにより、画像情報の再生時間を調整する。これにより、画像情報と第2音声情報とを同期して再生することが可能となる。
 本実施形態では、同期処理部247は、画像情報を再生する再生速度を変えることにより画像情報の再生時間を調整しているが、これに限定するものではなく、例えば、画像情報が動画像情報である場合には、当該動画像情報を構成する複数のフレームのうち、一部のフレームを間引いたり、フレームを追加したりして、画像情報の再生時間を調整しても良い。
 また、本実施形態では、第2音声情報の再生時間または当該第2音声情報と同期して再生される画像情報の再生時間を調整しているが、第2音声情報の再生時間と当該第2音声情報と同期して再生される画像情報の再生時間とが同じになるように、第2音声情報の再生時間および当該第2音声情報と同期して再生される画像情報の再生時間の少なくともいずれか一方を調整するものであれば、これに限定するものではない。具体的には、第2音声情報の再生時間が当該第2音声情報と同期して再生される画像情報の再生時間の2倍以上の時間である場合や第2音声情報の再生時間が当該第2音声情報と同期して再生される画像情報の再生時間の半分以下の時間である場合等、第2音声情報の再生時間と当該第2音声情報と同期して再生される画像情報の再生時間との差分が予め設定された許容値より大きい場合、第2音声情報の再生時間および当該第2音声情報と同期して再生される画像情報の再生時間のいずれかを調整すると、第2音声情報から再生された音声または画像情報から再生された画像に視聴者が違和感を覚える可能性が高い。
 よって、この場合には、第2音声情報の再生時間および当該第2音声情報と同期して再生される画像情報の再生時間の両方を調整して、第2音声情報の再生時間と当該第2音声情報と同期して再生される画像情報の再生時間とを同じにする。例えば、第2音声情報の再生時間が短い場合には、第2音声情報の再生時間を長くするとともに、当該第2音声情報と同期して再生される画像情報の再生時間を短くする。一方、第2音声情報の再生時間が長い場合には、第2音声情報の再生時間を短くするとともに、当該第2音声情報と同期して再生される画像情報の再生時間を長くする。これにより、第2音声情報の再生時間および画像情報の再生時間を最小限に抑えることができるので、第2音声情報から再生された音声または画像情報から再生された画像に視聴者が違和感を覚える可能性を低くすることができる。
 さらに、本実施形態では、同期設定に基づいて、第2音声情報の再生時間および当該第2音声情報と同期して再生される画像情報の再生時間のうちいずれを調整するかを決定しているが、これに限定するものではない。具体的には、画像情報から再生される画像の種類、および第2音声情報の再生時間と画像情報の再生時間との差分の少なくともいずれか一方に基づいて、第2音声情報の再生時間および当該第2音声情報と同期して再生される画像情報の再生時間のうちいずれを調整するかを決定しても良い。
 例えば、画像情報が静止画の信号である場合や第2音声情報の再生時間と当該第2音声情報と同期して再生される画像情報の再生時間との差分が予め設定された許容値以下である場合など、画像情報の再生時間を調整しても当該画像情報から再生した画像にユーザが違和感を覚える可能性が低い場合には、画像情報の再生時間を調整することを決定しても良い。一方、画像情報が動画像情報である場合や第2音声情報の再生時間と当該第2音声情報と同期して再生される画像情報の再生時間との差分が予め設定された許容値より大きい場合には、第2音声情報の再生時間を調整すると決定しても良い。
 画像情報の再生時間または第2音声情報の再生時間が調整された場合若しくは第2音声情報の再生時間と第1音声情報の再生時間とが同じである場合(ステップS308:No)、ミキシング部246は、第1音声情報の元言語および第2音声情報の翻訳言語に基づいて、第2音声情報の周波数を調整する(ステップS312)。例えば、ミキシング部246は、第1音声情報の元言語が英語でありかつ第2音声情報の翻訳言語が日本語である場合、第2音声情報の周波数を低くする。
 次いで、ミキシング部246は、第1音声情報、第2音声情報および背景音情報それぞれについて予め入力された音量(本実施形態では、図4に示す設定画面400において、第1音声情報、第2音声情報および背景音情報それぞれについて入力された音量)を取得する(ステップS313)。さらに、ミキシング部246は、予め入力された音量に従って、第1音声情報、第2音声情報および背景音情報それぞれの音量を調整する(ステップS314)。
 本実施形態では、ミキシング部246は、予め入力された音量に従って、第1音声情報、第2音声情報および背景音情報それぞれの音量を調整しているが、これに限定するものではない。例えば、ミキシング部246は、第1音声情報の音量に応じて、第2音声情報の音量を調整しても良い。または、ミキシング部246は、第1音声情報の音量を第2音声情報の音量より小さくすることにより、第2音声情報が聞き取り難くなることを防止できる。
 そして、ミキシング部246は、第1音声情報と第2音声情報と背景音情報とをミキシングして(言い換えると、足し合わせて)出力する(ステップS315)。本実施形態では、ミキシング部246は、第1音声情報と第2音声情報と背景音情報とをミキシングしているが、少なくとも第2音声情報と背景音情報とをミキシングして出力するものであれば良い。その際、ミキシング部246は、背景音情報と当該背景音情報と同期して再生される第2音声情報とをミキシングして出力する。言い換えると、ミキシング部246は、背景音情報および当該背景音情報と同期して再生される第2音声情報を出力するタイミングを調整して、当該背景音情報および第2音声情報を同期して出力する。その際、ミキシング部246は、第2音声情報に付加されているタイムスタンプと、背景音情報に付加されているタイムスタンプとを比較することにより、入力された背景音情報の中から、第2音声情報と同期して再生する背景音情報を判別する。さらに、ミキシング部246は、第1音声情報の元言語および第2音声情報の翻訳言語に基づいて、第2音声情報の音量を調整しても良い。例えば、第1音声情報の元言語が英語で第2音声情報の翻訳言語が日本語である場合、第2音声情報の音量を、第1音声情報の音量より大きくする。
 同期処理部247は、画像デコーダ241から出力された画像情報を、第1音声情報から第2音声情報への変換に要する変換時間遅延させて映像処理部210に出力することにより、画像情報と第2音声情報とを同期して再生させる同期処理を実行する(ステップS316)。
 音声出力部208は、同期処理部247を介して、ミキシング部246において第1音声情報と第2音声情報と背景音情報とをミキシングした音情報をスピーカ213に出力する(ステップS317)。また、映像処理部210は、同期処理部247を介して、画像デコーダ241から出力された画像情報を表示部214に出力する(ステップS317)。
 このように、第1の実施形態にかかるデジタルテレビジョン100によれば、入力された音情報から、背景音情報と第1音声情報とを分離し、第1音声情報を、当該第1音声情報の元言語とは異なる翻訳言語の第2音声情報に変換し、背景音情報と第2音声情報とをミキシングして出力することにより、第1音声情報を第2音声情報に差し替えて出力することができるので、第1音声情報から変換した第2音声情報を出力する場合に、第2音声情報が聞き取り難くなることを防止できる。また、第2音声情報を聞き取りやすくするために背景音情報の音量を小さくする必要がなくなるので、背景音が聞こえなくなることを防止できる。
(第2の実施形態)
 本実施形態は、音情報の出力を行う電子機器とネットワークを介して接続された外部機器において、入力された音情報からの背景音情報および第1音声情報の分離、第1音声情報から第2音声情報への変換および背景音情報と第2音声情報とのミキシングを実行する例である。以下の説明では、第1の実施形態と同様の箇所については説明を省略する。
 図5は、第2の実施形態にかかる電子機器の一例としてのノートPCを有する情報処理システムの構成を示す図である。本実施形態では、ノートPC(Personal Computer)500は、図5に示すように、インターネット等のネットワークを介して、再生対象のコンテンツ(少なくとも音情報を含むコンテンツ)を記憶するコンテンツサーバ510と、ノートPC500において実行されるブラウザを介して当該ノートPC500と各種情報をやり取りするWebサーバ520と、入力された音情報からの背景音情報および第1音声情報の分離および第1音声情報からのテキストデータの取得等を行う音声処理サーバ530と、第1音声情報から取得したテキストデータの翻訳言語への翻訳を行う翻訳サーバ540と接続されている。
 図6は、第2の実施形態にかかる情報処理システムにおける音情報の出力処理の流れを示すシーケンス図である。まず、ノートPC500は、ブラウザを介してWebサーバ520に接続して、設定画面400(図4参照)の表示をWebサーバ520に対して要求する(ステップS601)。
 Webサーバ520は、設定画面400の画面情報をノートPC500に送信して、設定画面400をノートPC500の表示部(図示しない)に表示させる(ステップS602)。
 ノートPC500は、設定画面400において設定された各種設定(第1音声情報、第2音声情報および背景音情報それぞれの音量、翻訳言語の設定、同期設定など)をWebサーバ520に送信する(ステップS603)。さらに、ノートPC500は、ブラウザを介して、コンテンツサーバ510に記憶されているコンテンツのうち出力対象のコンテンツを選択する(ステップS604)。
 Webサーバ520は、ノートPC500において選択されたコンテンツの取得をコンテンツサーバ510に対して要求するとともに(ステップS605)、当該コンテンツをコンテンツサーバ510から取得する(ステップS606)。
 Webサーバ520は、取得したコンテンツに含まれる音情報を音声処理サーバ530に送信して、当該音情報からの第1音声情報および背景音情報の分離を要求する(ステップS607)。音声処理サーバ530は、分離器243(図2参照)および翻訳器244(図2参照)と同様にして、音情報からの背景音情報および第1音声情報の分離、第1音声情報からのテキストデータの取得を行う。そして、Webサーバ520は、音声処理サーバ530から、第1音声情報、背景音情報およびテキストデータを取得する(ステップS608)。
 Webサーバ520は、音声処理サーバ530から取得したテキストデータおよび設定画面400(図4参照)において設定された翻訳言語を翻訳サーバ540に送信して、テキストデータの翻訳言語への翻訳を要求する(ステップS609)。翻訳サーバ540は、翻訳器244(図2参照)と同様にして、テキストデータを翻訳言語に翻訳する。そして、Webサーバ520は、翻訳サーバ540から、翻訳言語に翻訳されたテキストデータ(翻訳結果)を取得する(ステップS610)。
 Webサーバ520は、翻訳言語に翻訳されたテキストデータ、背景音情報、第1音声情報、設定画面400(図4参照)において設定された各種設定(背景音情報,第1音声情報および第2音声情報それぞれの音量、同期設定など)を音声処理サーバ530に送信して、第2音声情報の合成、各種調整(例えば、第2音声情報の再生時間の調整、第1音声情報,第2音声情報および背景音情報それぞれの音量および周波数の調整など)、第2音声情報と背景音情報とのミキシングを要求する(ステップS611)。音声処理サーバ530は、合成器245(図2参照)およびミキシング部246(図2参照)と同様にして、第2音声情報の合成、各種調整、第2音声情報と背景音情報とのミキシングを行う。そして、Webサーバ520は、第2音声情報と背景音情報とをミキシングした音情報を取得する(ステップS612)。
 そして、Webサーバ520は、ステップS606において取得したコンテンツに含まれる音情報を、音声処理サーバ530から取得した音情報に差し替えたコンテンツをノートPC500に送信する(ステップS613)。
 このように、第2の実施形態にかかる情報処理システムによれば、音情報を出力するノートPC500において、入力された音情報からの背景音情報および第1音声情報の分離、第1音声情報から第2音声情報への変換および背景音情報と第2音声情報とのミキシングを実行する必要がないので、ノートPC500の処理負荷を軽減することができる。
(第3の実施形態)
 本実施形態は、電子機器の一例であるPCにおいて、入力された音情報からの背景音情報および第1音声情報の分離、第1音声情報から第2音声情報への変換および背景音情報と第2音声情報とをミキシングした音情報の出力を行う例である。以下の説明では、第1の実施形態と同様の箇所については説明を省略する。
 図7は、第3の実施形態にかかる電子機器の一例であるPCのハードウェア構成を示す図である。図7に示すように、PC700は、CPU701と、ROM702と、RAM703と、表示部704と、入力部705と、記憶制御部706と、通信部707と、スピーカ708と、記憶装置709と、を備えている。
 CPU701は、RAM703を作業領域として、ROM702等に記憶された各種制御プログラムとの協働により各種処理を実行し、PC700を構成する各部の動作を統括的に制御する。
 ROM702は、PC700の制御にかかるプログラムや各種設定情報等を書き換え不可能に記憶する。RAM703は、揮発性の記憶媒体であって、CPU701の作業エリアとして機能する。
 表示部704は、LCD(Liquid Crystal Display)や有機EL(Electro Luminescence)ディスプレイ等で構成される表示画面を有し、CPU701の制御に従い、処理経過や結果等を表示する。スピーカ708は、CPU701の制御に従い、音情報を出力する。
 入力部705は、キーボードやマウス等の入力デバイスを有し、この入力デバイスを介して入力されたユーザからの命令や情報をCPU701に通知する。
 記憶制御部706は、記憶装置709の動作を制御し、CPU701から入力されるデータの書き込みや、データの読み出し等の要求に応じた処理を記憶装置709に実行する。ここで、記憶装置709は、磁気ディスク、半導体メモリ、光学ディスク等の記録媒体を有した記憶装置である。
 通信部707は、無線の通信インタフェースであって、図示しない外部装置との間で通信を確立し、データ(例えば、音情報および画像情報を含むコンテンツなど)の送受信を実行する。
 図8は、第3の実施形態にかかるPCの機能構成を示すブロック図である。本実施形態では、PC700は、CPU701がROM702に記憶されたプログラムが実行することにより、画像デコーダ710と、音声デコーダ711と、分離器243と、翻訳器244と、合成器245と、ミキシング部246と、同期処理部247と、スイッチ部248と、映像処理部712と、音声出力部713と、を実現する。
 画像デコーダ710は、通信部707で受信したコンテンツに含まれる画像情報(当該コンテンツに含まれる音情報と同期して再生される画像情報)を映像処理部712において処理可能なデータ形式にデコードする。音声デコーダ711は、通信部707で受信したコンテンツに含まれる音情報を音声出力部713において処理可能なデータ形式にデコードする。
 スイッチ部248は、音声デコーダ242によりデコードされた音信号の出力先を分離器243または同期処理部247に切り替える。分離器243は、音声デコーダ711によりデコードされた音情報から、背景音情報と第1音声情報とを分離する。翻訳器244は、第1音声情報を解析して当該第1音声情報の内容をテキストデータとして取得する音声認識処理を行うとともに、当該テキストデータを第1音声情報の言語である元言語(第1言語)とは異なる言語である翻訳言語(第2言語)に翻訳する。合成器245は、翻訳言語に翻訳されたテキストデータに基づいて第2音声情報を合成する。ミキシング部246は、背景音情報と第2音声情報とをミキシングして出力する。同期処理部247は、ミキシング部246により背景音情報と第2音声情報とをミキシングした音情報と当該音情報と同期して再生する画像情報を同期させて出力する。
 映像処理部712は、同期処理部247から出力された画像情報を表示部704で表示可能なフォーマットのアナログ映像信号に変換した後、表示部704に出力して映像表示させる。音声出力部713は、同期処理部247から出力されたデジタルの音情報をスピーカ708で再生可能なフォーマットのアナログ音信号に変換した後、スピーカ708に出力して音声再生させる。
 このように、第3の実施形態にかかるPC700によれば、第1の実施形態と同様の作用効果を得ることができる。
 以上説明したとおり、第1~3の実施形態によれば、第1音声情報から変換した第2音声情報を出力する場合に、第2音声情報が聞き取り難くなることを防止できる。また、背景音が聞こえなくなることを防止できる。
 本実施形態の電子機器で実行されるプログラムは、ROM等に予め組み込まれて提供される。また、本実施形態の電子機器で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成しても良い。
 さらに、本実施形態の電子機器で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の電子機器で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
 本実施形態の電子機器で実行されるプログラムは、上述した各部(分離器243、翻訳器244、合成器245、ミキシング部246、同期処理部247)を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記ROMからプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ分離器243、翻訳器244、合成器245、ミキシング部246、同期処理部247が主記憶装置上に生成されるようにしても良い。
 本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
 100 デジタルテレビジョン
 206 信号処理部
 243 分離器
 244 翻訳器
 245 合成器
 246 ミキシング部
 247 同期処理部
 500 ノートPC
 510 コンテンツサーバ
 520 Webサーバ
 530 音声処理サーバ
 540 翻訳サーバ
 700 PC

Claims (14)

  1.  音情報から、背景音情報と第1音声情報とを分離する分離部と、
     前記第1音声情報を、当該第1音声情報と対応する第2音声情報に変換する変換部と、
     前記背景音情報と前記第2音声情報とをミキシングして出力する出力部と、
     を備えた電子機器。
  2.  前記出力部は、前記背景音情報と当該背景音情報と同期して再生される前記第2音声情報とをミキシングして出力する請求項1に記載の電子機器。
  3.  前記出力部は、前記音情報と同期して再生される画像情報が入力され、前記第1音声情報から前記第2音声情報への変換に要する変換時間遅延させて、前記画像情報を出力する請求項1に記載の電子機器。
  4.  前記出力部は、前記第2音声情報の再生時間と前記第1音声情報の再生時間との差分が所定許容時間より長い場合、前記第2音声情報の再生時間と当該第2音声情報と同期して再生される前記画像情報の再生時間との差分が前記所定許容時間以下となるように、前記第2音声情報の再生時間および当該第2音声情報と同期して再生される前記画像情報の再生時間の少なくともいずれか一方を調整する請求項3に記載の電子機器。
  5.  前記変換部は、前記第1音声情報を、複数の前記第2音声情報の候補に変換し、
     前記出力部は、複数の前記第2音声情報の候補から、前記画像情報の再生時間と同じ再生時間で再生される前記第2音声情報の候補を選択し、当該選択した第2音声情報の候補を前記第2音声情報として前記背景音情報とミキシングして出力することにより、前記第2音声情報の長さを調整する請求項4に記載の電子機器。
  6.  前記出力部は、前記第1音声情報の音量に応じて前記第2音声情報の音量を調整する請求項1に記載の電子機器。
  7.  前記出力部は、前記背景音情報と、前記第2音声情報と、前記第1音声情報とをミキシングして出力する請求項1に記載の電子機器。
  8.  前記出力部は、前記第1音声情報の音量を前記第2音声情報の音量より小さくする請求項7に記載の電子機器。
  9.  前記背景音情報、前記第1音声情報および前記第2音声情報それぞれの音量を入力可能な音量入力用画像を表示部に表示させる表示制御部を備え、
     前記出力部は、前記音量入力用画像により入力された音量に従って、前記背景音情報、前記第1音声情報および前記第2音声情報それぞれの音量を調整する請求項7に記載の電子機器。
  10.  前記変換部は、前記第1音声情報を、当該第1音声情報の第1言語とは異なる第2言語の前記第2音声情報に変換する請求項1に記載の電子機器。
  11.  前記表示制御部は、前記第2言語を入力可能な言語入力用画像を前記表示部に表示させ、
     前記変換部は、前記第1音声情報を、前記言語入力用画像により入力された前記第2言語の前記第2音声情報に変換する請求項10に記載の電子機器。
  12.  前記出力部は、前記第1言語および前記第2言語に基づいて、前記第2音声情報の音量を調整する請求項10に記載の電子機器。
  13.  電子機器で実行される出力方法であって、
     分離部が、音情報から、背景音情報と第1音声情報とを分離する過程と、
     変換部が、前記第1音声情報を、当該第1音声情報に対応する第2音声情報に変換する過程と、
     出力部が、前記背景音情報と前記第2音声情報とをミキシングして出力する過程と、
     を含む出力方法。
  14.  コンピュータを、
     音情報から、背景音情報と第1音声情報とを分離する分離部と、
     前記第1音声情報を、当該第1音声情報に対応する第2音声情報に変換する変換部と、
     前記背景音情報と前記第2音声情報とをミキシングして出力する出力部と、
     として機能させるためのプログラム。
PCT/JP2013/067716 2013-06-27 2013-06-27 電子機器、出力方法およびプログラム WO2014207874A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/067716 WO2014207874A1 (ja) 2013-06-27 2013-06-27 電子機器、出力方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/067716 WO2014207874A1 (ja) 2013-06-27 2013-06-27 電子機器、出力方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2014207874A1 true WO2014207874A1 (ja) 2014-12-31

Family

ID=52141274

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/067716 WO2014207874A1 (ja) 2013-06-27 2013-06-27 電子機器、出力方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2014207874A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827843A (zh) * 2018-08-14 2020-02-21 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
WO2024137454A1 (en) * 2022-12-21 2024-06-27 Meta Platforms, Inc. Globalization of videos using automated voice dubbing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2001238299A (ja) * 2000-02-22 2001-08-31 Victor Co Of Japan Ltd 放送受信装置
JP2009152782A (ja) * 2007-12-19 2009-07-09 Toshiba Corp コンテンツ再生装置及びコンテンツ再生方法
JP2010074574A (ja) * 2008-09-19 2010-04-02 Toshiba Corp 電子機器及び音声調整方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000322077A (ja) * 1999-05-12 2000-11-24 Sony Corp テレビジョン装置
JP2001238299A (ja) * 2000-02-22 2001-08-31 Victor Co Of Japan Ltd 放送受信装置
JP2009152782A (ja) * 2007-12-19 2009-07-09 Toshiba Corp コンテンツ再生装置及びコンテンツ再生方法
JP2010074574A (ja) * 2008-09-19 2010-04-02 Toshiba Corp 電子機器及び音声調整方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110827843A (zh) * 2018-08-14 2020-02-21 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
CN110827843B (zh) * 2018-08-14 2023-06-20 Oppo广东移动通信有限公司 音频处理方法、装置、存储介质及电子设备
WO2024137454A1 (en) * 2022-12-21 2024-06-27 Meta Platforms, Inc. Globalization of videos using automated voice dubbing

Similar Documents

Publication Publication Date Title
JP5201692B2 (ja) クローズド・キャプションをつけるシステムおよび方法
US8112783B2 (en) Method of controlling ouput time and output priority of caption information and apparatus thereof
JP5423425B2 (ja) 画像処理装置
US8301457B2 (en) Method for selecting program and apparatus thereof
TW200522731A (en) Translation of text encoded in video signals
JP6399726B1 (ja) テキストコンテンツ生成装置、送信装置、受信装置、およびプログラム
US20090149128A1 (en) Subtitle information transmission apparatus, subtitle information processing apparatus, and method of causing these apparatuses to cooperate with each other
JP4989271B2 (ja) 放送受信機及び表示方法
JP2006211488A (ja) 映像再生装置
WO2014207874A1 (ja) 電子機器、出力方法およびプログラム
JP5110978B2 (ja) 送信装置、受信装置及び再生装置
US20140119542A1 (en) Information processing device, information processing method, and information processing program product
JP2010016521A (ja) 映像処理装置および映像処理方法
JP6385236B2 (ja) 映像再生装置および映像再生方法
US8059941B2 (en) Multiplex DVD player
JP7001639B2 (ja) システム
JP2009260685A (ja) 放送受信装置
KR20150081706A (ko) 영상표시장치, 영상처리방법 및 컴퓨터 판독가능 기록매체
JP2006148839A (ja) 放送装置、受信装置、及びこれらを備えるデジタル放送システム
KR20060127630A (ko) 방송 프로그램을 저장하고 재생하는 장치 및 방법
KR100781284B1 (ko) 고음질 오디오 파일의 부가정보를 생성하는 방송 수신기 및그 제어방법
JP2006050507A (ja) ディジタル放送内容表示装置およびその表示方法
JP4968946B2 (ja) 情報処理装置、映像表示装置、及びプログラム
JP2009159270A (ja) 録画装置
KR20060130800A (ko) 방송 스트림의 캡션 데이터를 이용한 학습자료 제작 방법및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13887811

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13887811

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP