Nothing Special   »   [go: up one dir, main page]

WO2009122779A1 - テキストデータ処理装置、方法、プログラムが格納された記録媒体 - Google Patents

テキストデータ処理装置、方法、プログラムが格納された記録媒体 Download PDF

Info

Publication number
WO2009122779A1
WO2009122779A1 PCT/JP2009/052378 JP2009052378W WO2009122779A1 WO 2009122779 A1 WO2009122779 A1 WO 2009122779A1 JP 2009052378 W JP2009052378 W JP 2009052378W WO 2009122779 A1 WO2009122779 A1 WO 2009122779A1
Authority
WO
WIPO (PCT)
Prior art keywords
symbol
editing
likelihood
data processing
text data
Prior art date
Application number
PCT/JP2009/052378
Other languages
English (en)
French (fr)
Inventor
祐 北出
孝文 越仲
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US12/922,046 priority Critical patent/US8892435B2/en
Priority to JP2010505435A priority patent/JPWO2009122779A1/ja
Publication of WO2009122779A1 publication Critical patent/WO2009122779A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Definitions

  • the present invention relates to a speech recognition device, a text data processing device, a text data processing method, and a text data processing program, and more particularly, a speech recognition device, a text data processing device, and a text data processing that edit symbols for text data.
  • the present invention relates to a method and a text data processing program.
  • the speech language processing unit converter includes a speech recognition device 450, a buffer memory 406, a processing unit converter 407, a statistical model memory 421, an empirical rule memory 422, and a Japanese-English translation. Part 408.
  • the conventional speech language processing unit converter having such a configuration operates as follows.
  • the voice recognition device 450 performs voice recognition. Then, the voice recognition device 450 writes the voice recognition result in the buffer memory 406. In the statistical model memory 421, a score representing the likelihood of a boundary corresponding to a phrase is learned.
  • the processing unit conversion unit 407 uses the statistical model memory 421 to calculate a score representing the likelihood of a node boundary. Then, when the score exceeds the threshold value, the processing unit conversion unit 407 sets the position as a punctuation mark insertion candidate. Further, the processing unit conversion unit 407 finally determines the insertion of the punctuation according to the empirical rule extracted from the prosodic information of the punctuation insertion location in the empirical rule memory 422.
  • the caption program production system shown in FIG. 8 includes a synchronization detection device 515, an integration device 517 including unit caption extraction 533, automatic caption generation 535, and timing information addition 537, a morpheme analysis 519, and a division rule 521. Has been.
  • the conventional symbol insertion apparatus having such a configuration operates as follows.
  • the integration device 517 obtains candidates for line breaks and page breaks to fit on one screen or one line.
  • the synchronization detection device 515 evaluates the validity of the result, returns the result to the integration device 517 again, and finally performs line feed / page break and automatically divides.
  • the integration device 517 passes the input sentence to the morpheme analysis 519 and analyzes the morpheme when there are more input sentences than the specified number of characters. Further, the integration device 517 presents a delimitable candidate according to the division rule 521 in consideration of the number of characters.
  • the present invention has been made in view of such problems, and is a text data processing device, a text data processing method, a text data processing program, and a text data processing device capable of creating text with symbols attached at appropriate positions, It is another object of the present invention to provide a voice recognition device.
  • a text data processing apparatus is a text data processing apparatus that edits a symbol with respect to input text, and is based on the symbol insertion frequency in a block composed of a plurality of divided texts.
  • Symbol editing determination means for determining whether editing is necessary, and when the symbol editing determination means determines that symbol editing is necessary, the symbol editing likelihood is calculated based on the symbol insertion likelihood of the word and the inter-symbol distance.
  • Symbol editing position calculating means for calculating and calculating a symbol editing position in the block from the symbol editing likelihood.
  • a text data processing apparatus is a text data processing apparatus for editing a symbol with respect to input text, wherein a symbol is based on a symbol insertion frequency in a block composed of a plurality of divided texts. Based on the symbol insertion likelihood of the word and the symbol insertion history of the text that has already been inserted when the symbol editing determination unit determines that the symbol editing is necessary.
  • Symbol editing position calculating means for calculating a symbol editing likelihood and calculating a symbol editing position in the block from the symbol editing likelihood.
  • a text data processing method is a text data processing method for editing a symbol with respect to input text, wherein the symbol is based on a symbol insertion frequency in a block composed of a plurality of divided texts.
  • a text data processing method is a text data processing method for editing a symbol with respect to input text, wherein the symbol is based on the frequency of symbol insertion in a block composed of a plurality of divided texts.
  • a determination step for determining whether editing is necessary, and a symbol editing likelihood based on the symbol insertion likelihood of the word and the symbol insertion history of the text with the symbol inserted when it is determined that the symbol editing is necessary in the determination step And calculating a symbol editing position in the block from the symbol editing likelihood.
  • a recording medium storing a text data processing program is a text data processing apparatus that edits a symbol for input text, from a plurality of divided texts to a computer. Determining whether or not symbol editing is necessary based on the frequency of symbol insertion in the block, and if the symbol editing determination means determines that symbol editing is necessary, the symbol insertion likelihood of the word and the distance between symbols Calculating a symbol edit likelihood based on the symbol edit likelihood and calculating a symbol edit position in the block from the symbol edit likelihood.
  • a text data processing program is a text data processing program for editing a symbol with respect to input text, and inserting a symbol into a block composed of a plurality of divided texts to a computer.
  • a determination step for determining whether or not symbol editing is necessary based on the frequency, and when it is determined that symbol editing is necessary in the determination step, the symbol insertion likelihood of the word and the symbol insertion history of the text with the symbol inserted Calculating a symbol editing likelihood based on the symbol editing likelihood, and calculating a symbol editing position in the block from the symbol editing likelihood.
  • An object of the present invention is to provide a text data processing device, a text data processing method, a text data processing program, and a speech recognition device that can create text with symbols attached at appropriate positions.
  • FIG. 1 is a block diagram showing a configuration of a text data processing apparatus according to a first embodiment
  • 3 is a flowchart showing a text data processing method according to the first exemplary embodiment
  • It is a block diagram which shows the structure of the text data processing apparatus concerning Embodiment 2.
  • FIG. 10 is a flowchart showing a text data processing method according to the second embodiment;
  • It is a block diagram which shows the structure of the text data processing apparatus concerning Embodiment 3.
  • 1 is a diagram illustrating a configuration of an apparatus described in Patent Document 1.
  • FIG. It is a figure which shows the structure of the apparatus of patent document 2.
  • Block division means 52 Symbol edit determination means 53 Symbol edit position calculation means 54 Symbol insertion model storage means 55 Symbol position determination means 56 Speech recognition means 60 Text data processing device 61 Symbol edit determination means 62 Symbol edit position calculation means 101 Temporary symbol insertion Position calculation means 102 Symbol insertion model storage means 103 Provisional symbol insertion result storage means 104 Block division means 105 Symbol edit determination means 106 Symbol edit position calculation means 107 Symbol position determination means 300 Input device 310 Data processing device 311 Provisional symbol insertion position calculation means 312 Block division means 313 Symbol edit determination means 314 Symbol edit position calculation means 315 Symbol position determination means 320 Data storage device 321 Symbol insertion model storage section 322 Provisional symbol insertion result storage section 323 Symbol insertion result storage section 406 Buffer memory 407 Processing unit conversion unit 408 Japanese-English translation unit 421 Statistical model memory 422 Empirical rule memory 450 Speech recognition device 515 Synchronization detection device 517 Integration device 519 Morphological analysis 521 Division rule 533 Unit
  • the text data processing apparatus edits symbols for the input text.
  • the text data processing apparatus may use symbols such as a punctuation mark “.”, A punctuation mark “,”, a question mark “?”, An exclamation mark “!”, A period “.”, A comma “,”, a line feed code, etc. Insert in position. Alternatively, remove the improperly positioned symbol from the input text.
  • FIG. 1 is a block diagram showing the configuration of the text data processing apparatus.
  • the text data processing device 60 determines whether or not symbol editing is necessary based on the frequency of symbol insertion in a block composed of a plurality of divided texts, and the symbol editing determination unit 61 determines that symbol editing is necessary.
  • the symbol editing likelihood for the word included in the block is calculated based on the symbol insertion likelihood and the inter-symbol distance, and the symbol editing position in the block is calculated from the symbol editing likelihood for the word included in the block.
  • Symbol editing position calculation means 62 is
  • the symbol edit determining means 61 calculates the number of symbol insertions to be inserted into one block.
  • the symbol editing position calculation means 62 calculates the symbol insertion likelihood for each word based on the symbol insertion model. Then, the symbol edit likelihood is calculated based on the symbol insertion likelihood and the inter-symbol distance. In the block, a position where the symbol editing likelihood is high is set as a symbol editing position, and a symbol is inserted at that position. The symbol editing likelihood calculated for each word in the block is compared, and the symbol editing position is determined based on the comparison result.
  • symbol editing is necessary until the number of symbols in the block reaches the number of symbol insertions calculated by the symbol editing determination means 61. Therefore, symbols are inserted until the number of symbols in the block reaches the number of inserted symbols. Thereby, a symbol can be attached to an appropriate position.
  • the symbol edit likelihood may be calculated using a symbol insertion history instead of the symbol distance. That is, it is also possible to calculate the symbol edit likelihood for the word included in the block based on the symbol insertion likelihood and the symbol insertion history corresponding to the insertion frequency of the text with the symbol inserted.
  • FIG. 2 is a block diagram showing the configuration of the text data processing apparatus.
  • the text data processing apparatus has block dividing means 51, symbol edit determining means 52, symbol edit position calculating means 53, symbol insertion model storage means 54, and symbol position determining means 55. Further, the text data processing apparatus includes voice recognition means 56.
  • the text data processing device is an arithmetic processing device such as a personal computer capable of inputting and outputting data.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • a storage disk a storage disk, or the like serves as the symbol insertion model storage unit 54.
  • a processor such as a CPU is a block dividing unit 51, a symbol editing determination unit 52, a symbol editing position calculation unit 53, a symbol insertion model storage unit 54, and a symbol position determination unit 55.
  • these means perform each process by executing a computer program stored in advance. Therefore, these means may be composed of physically the same processor or the like. For example, when a calculation program stored in a storage disk or the like is executed by the CPU, various settings are performed by reading input settings and the like into a RAM or the like. Then, the data of the calculation process and the data of the calculation result are written into a RAM, a storage disk or the like. In this way, the following arithmetic processing is executed in accordance with the text data processing program recorded in advance in the arithmetic processing device.
  • the voice recognition means 56 has a microphone or the like for receiving a human speech.
  • the voice recognition unit 56 performs voice recognition processing and creates a text sentence based on the voice data acquired by the microphone.
  • the text created by the speech recognition means 56 becomes the input text.
  • the speech recognition means 56 may perform morphological analysis and divide the input sentence into words.
  • the speaker may be identified based on the feature amount of the voice detected by the voice recognition unit 56.
  • text may be input regardless of voice recognition.
  • the input text may be created by voice transcription.
  • the voice recognition means 56 can be divided and output in units of words.
  • the morphological analysis may be performed by other than the voice recognition unit 56.
  • the symbol editing determination means 52 described later performs morphological analysis on the morphological analysis input text. May be.
  • the text recognized by the voice recognition means 56 is input to the block dividing means 51.
  • the block dividing means 51 divides the input text into a plurality of blocks according to a predetermined standard. That is, the input text is divided into two or more blocks.
  • a method of dividing the input text a topic, a speaker unit, x seconds (x> 0), n utterances (n> 0), or the like can be considered.
  • pseudo symbols are inserted and divided into utterance units.
  • a certain threshold that is, when a pose greater than the threshold is inserted, a symbol “pose” is inserted at that position.
  • a pause symbol which is a pseudo symbol, is inserted into the block.
  • the block dividing means 51 divides the input text into a plurality of blocks.
  • One block is usually composed of a plurality of divided texts.
  • the divided text refers to one lump when a character string in one block is divided by a certain symbol.
  • the symbol is a punctuation mark
  • the divided text corresponds to one sentence.
  • one block is composed of a plurality of sentences.
  • One block may be composed of one sentence.
  • the symbol edit determination means 52 calculates the appropriate number of symbols to be inserted into each block. As a result, the number of inserted symbols is calculated for each of the I blocks. In calculating the number of inserted symbols, the following formula 1 is used as a conditional expression.
  • ⁇ (C k ) min and ⁇ (C k ) max are threshold values for performing edit determination of the symbol C k .
  • the threshold value may be determined empirically or may be determined experimentally.
  • threshold values ⁇ (C k ) min and ⁇ (C k ) max are stored in advance.
  • S i and Ck represent the symbol insertion frequency of the symbol C k of the i-th block. That is, the number of symbols to be inserted into each block is determined so that the symbol insertion frequency S i , Ck is between a preset upper limit value and lower limit value.
  • the symbol insertion frequencies S i and Ck are calculated using the following Equation 2 or Equation 3.
  • the symbol insertion frequencies S i and Ck are determined according to the appearance frequency of the symbol C k included in the i-th block.
  • the value of the Si, Ck numerator satisfying Equation 1 is the number of symbols to be automatically inserted.
  • S i, Ck is a symbol insertion frequency considering the number of words or characters for a block composed of one or more divided texts. Therefore, if the number of characters or the number of words is different, the number of inserted symbols is also different.
  • Symbol insertion frequencies S i and Ck are calculated according to the number of characters or the number of words included in one block. By doing in this way, the number of symbol insertions inserted in a block can be calculated appropriately. That is, even when the length of text included in one block changes, the number of symbol insertions can be determined appropriately.
  • the symbol editing determination means 52 may perform morphological analysis. However, processing is not performed on text that is already divided into word units, such as speech recognition results, and the information is used. That is, when the text is input together with information obtained by dividing the text into words, the information is used.
  • the symbol editing position calculation means 53 calculates the symbol editing likelihood for each word and inserts the symbol at the optimal position within one block.
  • the symbol editing position calculation unit 53 inserts symbols into the block by the number of symbol insertions obtained by the symbol editing determination unit 52.
  • the symbol editing position calculation means 53 performs the following three processes.
  • the first process is a process for obtaining the symbol insertion likelihood in units of words.
  • the second process is a process for obtaining the symbol edit likelihood based on the symbol insertion likelihood.
  • the third process is a process for obtaining the symbol insertion position in accordance with the symbol edit likelihood.
  • the symbol insertion likelihood is calculated for each word.
  • the symbol insertion model storage means 54 stores a symbol insertion model that models a symbol insertion likelihood that a symbol is inserted into a character string.
  • a symbol insertion model that models a symbol insertion likelihood that a symbol is inserted into a character string.
  • the symbol insertion model corresponding to these methods is stored in the symbol insertion model storage means 54.
  • the symbol editing position calculation unit 53 uses the symbol insertion model stored in the symbol insertion model storage unit 54 to calculate a symbol insertion likelihood that is a likelihood that a symbol immediately after the focused word is inserted. In this way, the symbol insertion likelihood for all the words included in the block is calculated.
  • the symbol insertion likelihood of a word may be calculated by a method other than Document 1 and Document 2.
  • Such symbol insertion likelihood differs depending on the word. That is, the symbol insertion likelihood, which is the likelihood of being inserted immediately after the word, is determined by the word.
  • the symbol edit likelihood is calculated based on the symbol insertion likelihood.
  • the j-th word included in the block i is considered (i and j are natural numbers). If the symbol insertion likelihood of the symbol C k is p (i, j, C k ), the symbol edit likelihood Pr (i, j, C k ) of the symbol C k can be calculated by the following equation 4. .
  • Equation 4 ⁇ , ⁇ , and ⁇ are predetermined values, and function as correction coefficients for symbol edit likelihood including L (i, j, C k ). Therefore, the values of the constants ⁇ , ⁇ , ⁇ are stored in advance in a memory or the like.
  • L (i, j, C k ) can be expressed by the following equation 5 using a function f k (y) based on the intersymbol distance.
  • the variable y is a distance from the j-th word included in the block i to any of the nearest symbols. That is, the number of words or characters up to the nearest symbol can be the distance y. Specifically, it is the distance to any symbol that has already been inserted, or a pseudo symbol, such as a “pause”. Thus, the distance from the word position to the previous or subsequent symbol is the inter-symbol distance. Therefore, the variable y can be expressed by the following formula 6 or 7.
  • length (j, j ′) represents the number of characters between the j-th word and the j′-th word.
  • L (i, j, C k ) since the term L (i, j, C k ) is included, the value of the symbol edit likelihood Pr (i, j, C k ) changes according to the inter-symbol distance. That is, as the distance between adjacent symbols increases, the value of symbol edit likelihood Pr (i, j, C k ) increases. Therefore, it becomes easier to insert a symbol in a section where the distance between symbols is long.
  • the distance between symbols is the number of words or characters from the symbol editing position to the nearest symbol already inserted.
  • equation 8 As another symbol edit likelihood calculation method, the following equation 8 can be used. Similarly, constants ⁇ , ⁇ , and ⁇ are used.
  • Equation 8 is preset constants as in Equation 4.
  • w j + n ′ j ⁇ n + 1 represents a word string from the immediately preceding n word to the immediately following n ′ word.
  • N (w j + n ′ j ⁇ n + 1 , C k ) represents the frequency at which the symbol C k is inserted immediately after the i-th word w j in the word string w j + n ′ j ⁇ n + 1.
  • N (w j + n ′ j ⁇ n + 1 , C k ) Calculate from insertion history.
  • the symbol insertion history a symbol insertion result in a block whose symbol insertion has already been confirmed can be used. That is, the insertion result of the symbol inserted in the past can be used as the insertion history. Or you may use the symbol insertion determination result in the temporary symbol insertion position calculation means of Embodiment 2 mentioned later.
  • the symbol edit likelihood reflecting the symbol insertion tendency of the evaluation target speaker is obtained.
  • the symbol edit likelihood is calculated based on the symbol insertion history of text that has already been inserted. For example, it is calculated based on a symbol insertion history corresponding to the frequency of insertion of the symbol in other text already having a symbol.
  • the symbol insertion history may be set according to the insertion frequency of the symbol in another text by the same speaker.
  • the symbol insertion position is determined using the symbol editing likelihood. That is, for all words in one block, a word having the maximum symbol editing likelihood is obtained. That is, a word having the maximum symbol editing likelihood across one or more divided texts is obtained. Then, a symbol is inserted immediately after the word. This calculation formula is shown in Equation 9 below.
  • Equation 9 means that the position with the highest symbol editing likelihood for the symbol C k is output. Repeat until the condition of Equation 1 is satisfied, and calculate the position where C k is inserted.
  • the likelihood of symbol editing for all words in one block is compared.
  • symbols are inserted in order from the word having the highest symbol editing likelihood.
  • the number of symbols inserted according to Equation 1 is inserted into one block. That is, the symbol editing determination means 52 determines that symbol editing is necessary until the number of symbols inserted in the block reaches the number of symbol insertions.
  • the symbol edit likelihood for each symbol is obtained as in the following Equation 10, and the symbol C ⁇ having the highest likelihood excluding NULL is inserted.
  • a restriction such that a symbol with a lower priority is not inserted at a place where a symbol with a higher priority is inserted.
  • the insertion target symbol is a punctuation mark and a punctuation mark
  • the punctuation mark has a higher priority than the punctuation mark
  • no punctuation mark is selected at the place where the punctuation mark is inserted.
  • the symbol position determination means 55 inserts a symbol into the input text based on the symbol insertion position information of the symbol editing position calculation means 53, and outputs the result. As a result, text data in which symbols are inserted at appropriate positions is output.
  • symbols may be inserted by the above processing. For example, it is possible to calculate a symbol edit likelihood for a punctuation mark and insert a punctuation mark, and then calculate a symbol edit likelihood for a punctuation mark and insert a punctuation mark.
  • FIG. 3 shows an example in which text is input without performing voice recognition.
  • the input text is divided into blocks (step S501 in FIG. 3).
  • the input text is divided into two or more blocks.
  • the entire input text may be made into one block.
  • step S502 an appropriate number of inserted symbols for each symbol is calculated for each divided block (step S502). That is, an appropriate number of symbol insertions is set according to the number of characters included in the block.
  • step S503 the text in the block is divided into words (step S503). Thereby, the text in a block is divided
  • the symbol edit likelihood is obtained using a value based on the symbol insertion likelihood and the inter-symbol distance, and the symbol edit position is calculated (step S504). That is, the symbol editing position calculation means 53 reads the symbol insertion model and calculates the symbol insertion likelihood for each word. Then, the symbol editing likelihood is calculated based on the symbol insertion likelihood and the inter-symbol distance.
  • the symbol edit likelihood may be calculated by referring to the symbol insertion history instead of the inter-symbol distance. Further, the symbol edit likelihood may be calculated using both the inter-symbol distance and the symbol insertion history.
  • step S505 the result of the previous step is reflected in the text (step S505), and this is executed for all blocks (step S506).
  • step S506 it is determined that symbol editing is necessary until the number of symbols inserted in the block reaches the number of symbol insertions set in step S501. Then, symbols are inserted in order from a word position having a high symbol editing likelihood until the number of symbols inserted is reached. A series of processing may be executed for all symbols.
  • the above text data processing device may be applied to a speech recognition device.
  • the speech recognition processing result is used as the input text. That is, the voice recognition device is provided with a voice recognition unit and a text data processing device.
  • the voice recognition unit inputs text resulting from the voice recognition process to the text data processing apparatus.
  • the speech recognition unit may detect a pause position, and the symbol edit likelihood may be calculated based on the distance from the symbol edit position to the nearest pause position.
  • an appropriate number of symbol insertions is calculated for each block including a plurality of divided texts. For this reason, whether or not to insert a symbol can be determined globally in units of blocks. That is, it is possible to insert an optimum amount at the optimum position in units of blocks, not locally the optimum position and amount in a short section such as several words or one sentence. Therefore, it is possible to prevent occurrence of a portion where symbols are excessively inserted in one block, and it is possible to add symbols at appropriate positions.
  • the block may be composed of only one sentence. That is, the optimum symbol insertion position can be determined for each block including one or more divided texts.
  • the symbol insertion position is specified in consideration of the distance between symbols in addition to the conventional symbol insertion likelihood. For this reason, it becomes possible to insert a symbol at a position where the number of symbols is small, in a portion of a word string in which symbols are easily inserted in terms of language. In addition, it is possible to insert a symbol at a position where there is no problem in terms of meaning or at an appropriate position without causing the sentence to become extremely long or being inserted into unnecessary portions and becoming shredded. In addition, since the inter-symbol distance is taken into account, the symbol insertion likelihood is low in the conventional symbol insertion method, so the symbol is not assigned, or a symbol is inserted at a place where another symbol is assigned. You can also. Therefore, a symbol can be inserted at an appropriate position.
  • the symbol editing likelihood reflecting the symbol insertion tendency of the evaluation target speaker can be obtained. Therefore, it is possible to insert a symbol at a grammatically appropriate position according to the speaker's way of speaking.
  • FIG. A second embodiment of the present invention will be described in detail with reference to the drawings.
  • provisional symbol insertion position calculation means 101 As shown in FIG. 4, in the text data processing apparatus according to the second embodiment, provisional symbol insertion position calculation means 101, symbol insertion model storage means 102, provisional symbol insertion result storage means 103, block division means 104, , Symbol edit determining means 105, symbol edit position calculating means 106, and symbol position determining means 107. Note that the same contents as those in the first embodiment are omitted as appropriate.
  • Text is input to the provisional symbol insertion position calculation means 101.
  • speech transcription is used as input.
  • the speech recognition result may be input text as in the first embodiment.
  • the provisional symbol insertion position calculation unit 101 performs morphological analysis to segment the input text into units of words. Further, the likelihood that a symbol is inserted immediately after each word (symbol insertion likelihood) is calculated. Furthermore, symbol insertion determination is performed based on the symbol insertion likelihood. A temporary symbol is inserted into the input text based on the symbol insertion likelihood.
  • the symbol insertion model storage unit 102 is the same as the symbol insertion model storage unit 54 in the first embodiment. Therefore, the symbol insertion model storage unit 102 stores a symbol insertion model.
  • the temporary symbol insertion result storage means 103 stores the result of the temporary symbol insertion position calculation means 101. Specifically, in addition to the input sentence, the symbol insertion determination result and the symbol insertion likelihood of each symbol are stored.
  • the block dividing unit 104 acquires a character string from the provisional symbol insertion result storage unit 103, and divides the text into blocks according to a predetermined standard. It is also possible to divide the text into blocks before inserting the provisional symbols.
  • the division criteria are the same as those in the first embodiment. However, when n utterances are selected, it is calculated from the symbol of the provisional symbol insertion result.
  • the symbol edit determination unit 105 determines whether the symbol insertion information of the block should be edited for each of the I blocks divided by the block division unit 104.
  • the symbol edit determination means 105 obtains information on the words included in the block, information on the presence / absence of symbol insertion (symbol insertion information), and information on the likelihood of symbol insertion from the provisional symbol insertion result storage means 103, and uses these to make a determination. To do. Specifically, the symbol edit determination unit 105 determines whether to insert or delete a symbol. Equations 1 and 2 are used as the determination formula. Of course, equation 3 may be used instead of equation 2.
  • the symbol editing position calculation means 106 specifies the symbol editing position for the block that is determined to be edited by the symbol editing determination means 105. Specifically, the symbol edit likelihood is obtained based on the symbol insertion likelihood information acquired from the provisional symbol insertion result storage unit 103. The symbol editing position is specified based on the symbol editing likelihood. Then, the symbol insertion position information is updated, and the information is passed to the symbol position determination means 107.
  • Equation 4 The symbol edit likelihood Pr (i, j, C k ) uses Equation 4 or Equation 8.
  • y in equation (5) used in equation (4) can be obtained by the following equation (11) or equation (12) in addition to equations (6) and (7).
  • the variable y may be calculated using Equation 11 or Equation 12. That is, the variable y may be a distance from the j-th word of the block i to the nearest symbol C k , or may be a distance to any symbol regardless of the type of the symbol. That is, since the symbol is inserted by the provisional symbol insertion position calculation unit 101, the inter-symbol distance of the same symbol Ck can be used. Specifically, the distance is the number of words or characters between symbols.
  • Equation 9 the position where the symbol edit likelihood of the symbol C k is the highest among all word boundaries where the symbol C k of the block i is not inserted is obtained.
  • a restriction such that a symbol with a lower priority is not inserted at a place where a symbol with a higher priority is inserted.
  • the insertion target symbol is a punctuation mark and a punctuation mark
  • the punctuation mark has a higher priority than the punctuation mark
  • no punctuation mark is selected at the place where the punctuation mark is inserted.
  • S i, Ck > ⁇ (C k ) max indicates that the number of insertions of symbol C k in block i is too large. Therefore, the symbol C k is deleted from the portion where the symbol C k of the block i is inserted until S i, Ck ⁇ ⁇ (C k ) max is satisfied .
  • the deletion location, i.e., ci , m.noteq.Ck is obtained by the following equation (13).
  • the above equation means that the position where the symbol edit likelihood is the lowest among the places where the symbol C k is inserted is output. Further, as a method for calculating another symbol deletion place, the following Expression 14 can be considered.
  • the symbol position determination unit 107 inserts a symbol into the input text based on the symbol insertion position information output by the symbol editing determination unit 105 and the symbol editing position calculation unit 106, and outputs the result.
  • the input text is divided into words (step S201 in FIG. 5).
  • the information is used to divide into words.
  • morphological analysis is performed to divide the input text into words.
  • the symbol insertion likelihood is determined in units of words delimited in step S201, the symbol to be inserted immediately is determined, and the symbol insertion determination result (symbol insertion information) and information on the symbol insertion likelihood are added (Ste S202). This is performed for all input words (step S203).
  • step S204 This makes symbol insertion determination for all words and inserts temporary symbols. Further, the input text is divided according to the above-mentioned predetermined criteria and divided into one or more blocks (step S204). Note that morphological analysis may be performed after the input text is divided into blocks. Note that step S204 may be performed before step S201 or before step S202.
  • the symbol insertion frequency is calculated for each block (step S205), and it is determined whether or not symbol editing is necessary for the block based on the result (step S206).
  • the editing position is calculated (step S207), and the symbol insertion information is updated (step S208). That is, the symbol is deleted when the number of inserted symbols exceeds the upper limit value, and the symbol is added when the lower limit value is smaller. Then, the symbol insertion position is determined based on the symbol insertion information, and the symbol is inserted into the input sentence (step S209). This series of processing is performed for all blocks (step S210).
  • the intersymbol distance is calculated using the provisional symbol insertion result. Then, the symbol editing likelihood is obtained based on the inter-symbol distance, and the symbol editing is performed. Therefore, the function value based on the inter-symbol distance and the symbol edit likelihood can be obtained by using the symbol information having higher reliability than the pseudo inserted symbol. For this reason, it is possible to insert symbols with higher accuracy. In addition, since the number of symbols is determined based on the provisional symbol insertion result, it is possible to delete excessive symbols when symbols are excessively inserted. Furthermore, a symbol once inserted can be replaced with another more appropriate symbol in consideration of the distance between symbols and the symbol insertion history. Therefore, a symbol can be attached to an appropriate position.
  • FIG. Embodiment 3 will be described in detail with reference to the drawings.
  • FIG. 6 is a block diagram showing the configuration of the text data processing apparatus according to this embodiment.
  • description is abbreviate
  • the text data processing apparatus is a configuration diagram of a computer operated by the program when the first embodiment is configured by a program.
  • the text data processing apparatus is an input device 300, a data processing device 310, and a data storage device 320. And an output device 330.
  • the data processing device 310 includes provisional symbol insertion position calculation means 311, block division means 312, symbol edit determination means 313, symbol edit position calculation means 314, and symbol position determination means 315.
  • the data storage device 320 includes a symbol insertion model storage unit 321, a provisional symbol insertion result storage unit 322, and a symbol insertion result storage unit 323. Each of these devices may be physically composed of a single device. That is, each device may be configured by one computer.
  • the input device 300 inputs morpheme-analyzed text that does not include symbols, speech recognition results, and the like.
  • the input device 300 may perform voice recognition processing.
  • the input device 300 has a microphone or the like for acquiring audio data.
  • the data processing device 310 includes a provisional symbol insertion position calculation unit 311, a block division unit 312, a symbol edit determination unit 313, a symbol edit position calculation unit 314, and a symbol position determination unit 315, and receives an input from the input device 300. Necessary word information and symbol insertion information are obtained from the data storage device 320, the symbol insertion position is calculated, the input character string is edited, and the result is sent to the output device 330.
  • the data storage device 320 includes a symbol insertion model storage unit 321, a provisional symbol insertion result storage unit 322, and a symbol insertion result storage unit 323, and mainly includes word information, symbol insertion information, and symbol insertion likelihood information of an input character string.
  • a symbol insertion model storage unit 321 a provisional symbol insertion result storage unit 322, and a symbol insertion result storage unit 323, and mainly includes word information, symbol insertion information, and symbol insertion likelihood information of an input character string.
  • the symbol insertion model storage unit 321 stores a symbol insertion model.
  • the temporary symbol insertion result storage unit 322 stores the calculation result of the temporary symbol insertion position calculating unit 311 and sends necessary information to the block dividing unit 312.
  • the symbol insertion result storage unit 323 stores the results of the symbol editing determination unit 313 and the symbol editing position calculation unit 314, and sends the results to the symbol position determination unit 315.
  • the present invention can be applied to applications such as a voice recognition device that converts a voice signal into text and a program for realizing the voice recognition device on a computer.
  • the text data processing program according to the present embodiment is installed in the speech recognition apparatus.
  • applications such as content playback devices and content search devices that display, play back, and search content in units divided by dividing audio and video content into appropriate units, and transcription support devices for recorded audio data Is also applicable.
  • Symbols can be inserted at appropriate positions for character strings obtained by converting speech into text.
  • a symbol is inserted into a sentence in which spoken speech is converted into a text, one sentence is often long or the sentence is shredded, so that it can be appropriately edited.
  • an appropriate insertion position is determined for each block including a plurality of sentences. Therefore, an appropriate amount of symbols can be inserted at an appropriate position.
  • the present invention relates to a speech recognition device, a text data processing device, a text data processing method, and a text data processing program, and more particularly, a speech recognition device, a text data processing device, and a text data processing that edit symbols for text data.
  • the present invention can be applied to a method and a text data processing program.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 適切な位置に記号を付することができるテキストデータ処理装置、方法、及びプログラムを提供する。本実施形態に係る装置は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段52と、記号編集判定手段において記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、ブロックに含まれる単語に対する記号編集尤度からブロック中の記号編集位置を算出する記号編集位置算出手段53と、を備えるものである。

Description

[規則37.2に基づきISAが決定した発明の名称] テキストデータ処理装置、方法、プログラムが格納された記録媒体
 本発明は、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに関し、特に詳しくはテキストデータに対して記号を編集する、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに関する。
 音声言語処理単位変換装置の一例が、特許文献1に記載されている。図7に示すように、この音声言語処理単位変換装置は、音声認識装置450と、バッファメモリ406と、処理単位変換部407と、統計モデルメモリ421と、経験的規則メモリ422と、日英翻訳部408とから構成されている。
 このような構成を有する従来の音声言語処理単位変換装置は次のように動作する。
 音声認識装置450は、音声認識を行う。そして、音声認識装置450は、音声認識結果をバッファメモリ406に書き込む。統計モデルメモリ421には、句点に対応する境界らしさを表すスコアが学習されている。処理単位変換部407は、統計モデルメモリ421を用いて、節境界らしさを表すスコアを算出する。そして、処理単位変換部407は、スコアがしきい値を越えた時、その位置を句読点挿入候補とする。さらに、処理単位変換部407は、経験的規則メモリ422の句点挿入箇所の韻律情報から抽出された経験的規則により最終的に句点挿入を確定する。
 また、特許文献2に別の装置が記載されている。図8に示す字幕番組制作システムは、同期検出装置515と、単位字幕抽出533、自動字幕生成535、およびタイミング情報付与537を含む統合化装置517と、形態素解析519と、分割ルール521とから構成されている。
 そして、字幕番組制作システムは、入力文を字幕画面に収まり読み易い字幕文となるように改行・改頁点を挿入する。このような構成を有する従来の記号挿入装置は次のように動作する。
 字幕テキスト文を入力として、統合化装置517では1画面もしくは1行に収まるように改行・改頁点の候補を求める。同期検出装置515にて、その結果の妥当性を評価し、再び統合化装置517にその結果を返して、最終的に改行・改頁を施して自動分割する。統合化装置517は、入力文が指定文字数より多いときに形態素解析519に入力文を渡して形態素解析する。さらに、統合化装置517は、文字数も考慮した上で分割ルール521にしたがって区切り可能箇所候補を提示する。
特開平11-126091号公報 特開2002-342311号公報
 特許文献1に記載の装置では、前後の記号挿入の分布を考慮せず、数単語の履歴のみから記号挿入判定を行っている。このため、局所的に過度に記号を挿入してしまう場合がある。また、特許文献2のように記号間距離の上限を固定値で与えると、長い文書を意味的に不自然な位置で分割してしまう。これは、状況により適切な記号挿入位置、単語間距離が変わるためである。よって、記号が適切な位置に付されたテキストを作成することができないという問題点がある。
 本発明は、このような問題点を鑑みてなされてものであって、記号が適切な位置に付されたテキストを作成することができるテキストデータ処理装置、テキストデータ処理方法、テキストデータ処理プログラム、及び音声認識装置を提供することを目的とする。
 本発明の第1の態様に係るテキストデータ処理装置は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるものである。
 本発明の第2の態様に係るテキストデータ処理装置は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴に基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるものである。
 本発明の第3の態様に係るテキストデータ処理方法は、入力されたテキストに対して記号を編集するテキストデータ処理方法であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定するステップと、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるものである。
 本発明の第4の態様に係るテキストデータ処理方法は、入力されたテキストに対して記号を編集するテキストデータ処理方法であって、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する判定ステップと、前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴に基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるものである。
 本発明の第5の態様に係るテキストデータ処理プログラムが格納された記録媒体は、入力されたテキストに対して記号を編集するテキストデータ処理装置であって、コンピュータに対して、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させるステップと、前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるものである。
 本発明の第6の態様に係るテキストデータ処理プログラムは、入力されたテキストに対して記号を編集するテキストデータ処理プログラムであって、コンピュータに対して、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させる判定ステップと、前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出させ、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるものである。
 本発明の目的は、記号が適切な位置に付されたテキストを作成することができるテキストデータ処理装置、テキストデータ処理方法、テキストデータ処理プログラム、及び音声認識装置を提供することにある。
本発明にかかるテキストデータ処理装置の構成を示すブロック図である。 実施の形態1にかかるテキストデータ処理装置の構成を示すブロック図である。 実施の形態1にかかるテキストデータ処理方法を示すフローチャートである。 実施の形態2にかかるテキストデータ処理装置の構成を示すブロック図である。 実施の形態2にかかるテキストデータ処理方法を示すフローチャートである。 実施の形態3にかかるテキストデータ処理装置の構成を示すブロック図である。 特許文献1に記載の装置の構成を示す図である。 特許文献2に記載の装置の構成を示す図である。
符号の説明
 51 ブロック分割手段
 52 記号編集判定手段
 53 記号編集位置算出手段
 54 記号挿入モデル記憶手段
 55 記号位置確定手段
 56 音声認識手段
 60 テキストデータ処理装置
 61 記号編集判定手段
 62 記号編集位置算出手段
 101 仮記号挿入位置算出手段
 102 記号挿入モデル記憶手段
 103 仮記号挿入結果記憶手段
 104 ブロック分割手段
 105 記号編集判定手段
 106 記号編集位置算出手段
 107 記号位置確定手段
 300 入力装置
 310 データ処理装置
 311 仮記号挿入位置算出手段
 312 ブロック分割手段
 313 記号編集判定手段
 314 記号編集位置算出手段
 315 記号位置確定手段
 320 データ記憶装置
 321 記号挿入モデル記憶部
 322 仮記号挿入結果記憶部
 323 記号挿入結果記憶部
 406 バッファメモリ
 407 処理単位変換部
 408 日英翻訳部
 421 統計モデルメモリ
 422 経験的規則メモリ
 450 音声認識装置
 515 同期検出装置
 517 統合化装置
 519 形態素解析
 521 分割ルール
 533 単位字幕抽出
 535 自動字幕生成
 537 タイミング情報付与
 本発明にかかるテキストデータ処理装置は、入力されたテキストに対して記号を編集する。例えば、テキストデータ処理装置は、句点「。」、読点「、」、疑問符「?」、感嘆符「!」、ピリオド「.」、カンマ「,」、改行コードなどの記号を入力テキストの適切な位置に挿入する。あるいは、不適切な位置の記号を入力テキストから削除する。このテキストデータ処理装置について図1を用いて説明する。図1は、テキストデータ処理装置の構成を示すブロック図である。
 テキストデータ処理装置60は、複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段61と、記号編集判定手段61において記号の編集が要と判定された場合に、記号挿入尤度と記号間距離とに基づいてブロックに含まれる単語に対する記号編集尤度を算出し、ブロックに含まれる単語に対する記号編集尤度からブロック中の記号編集位置を算出する記号編集位置算出手段62と、を備えている。
 記号編集判定手段61は、1ブロックに挿入する記号挿入数を算出する。記号編集位置算出手段62は、記号挿入モデルに基づいて、各単語に対する記号挿入尤度を算出する。そして、記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出する。ブロック内において、記号編集尤度が高い位置を記号編集位置とし、その位置に記号を挿入する。ブロック内の各単語に対して算出された記号編集尤度を比較して、その比較結果により記号編集位置を決定する。
 ブロック内の記号の数が記号編集判定手段61で算出された記号挿入数になるまで記号編集要と判定される。従って、ブロック中の記号の数が記号挿入数になるまで記号が挿入されていく。これにより、適切な位置に記号を付けることができる。なお、記号間距離の代わりに、記号挿入履歴を用いて、記号編集尤度を算出してもよい。すなわち、記号挿入尤度と記号挿入済みのテキストの挿入頻度に応じた記号挿入履歴とに基づいてブロックに含まれる単語に対する記号編集尤度を算出することも可能である。
 次に、本実施の形態にかかるテキストデータ処理装置について図2を参照して詳細に説明する。図2は、テキストデータ処理装置の構成を示すブロック図である。
 テキストデータ処理装置は、ブロック分割手段51と、記号編集判定手段52と、記号編集位置算出手段53と、記号挿入モデル記憶手段54と、記号位置確定手段55とを有している。さらに、テキストデータ処理装置は、音声認識手段56、を備えている。
 なお、これらの手段は、物理的に同一の構成であってもよい。テキストデータ処理装置は、データの入出力が可能なパーソナルコンピュータ等の演算処理装置である。例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、記憶ディスク、通信用のインターフェースなどを有し、テキストデータ処理プログラムにしたがって各種演算処理を実行する。RAMや記憶ディスクなどが記号挿入モデル記憶手段54となる。また、CPUなどのプロセッサが、ブロック分割手段51と、記号編集判定手段52と、記号編集位置算出手段53と、記号挿入モデル記憶手段54と、記号位置確定手段55となる。
 そして、これらの手段は、予め格納されたコンピュータプログラムを実行することで、それぞれの処理を行う。したがって、これらの手段は物理的に同一のプロセッサなどで構成されていても良い。例えば、記憶ディスクなどに記憶されている演算プログラムをCPUによって実行されると、入力されている設定等をRAMなどに読み込んで、各種演算を行う。そして、その計算過程のデータや計算結果のデータをRAMや記憶ディスクなどに書き込む。このように、演算処理装置に予め記録されているテキストデータ処理プログラムにしたがって、下記の演算処理が実行される。
 音声認識手段56は、人の発話を受音するマイクロフォン等を有している。音声認識手段56は、音声認識処理を行い、マイクロフォンが取得した音声データに基づいたテキスト文を作成する。音声認識手段56によって作成されたテキストが入力テキストとなる。これにより、話者が発した音声が認識され、入力テキストが作成される。さらに、音声認識手段56が、形態素解析を行って、入力文を単語単位に分割してもよい。また、音声認識手段56が検出した音声の特徴量に基づいて、話者を識別するようにしてもよい。もちろん、音声認識によらずテキストを入力してもよい。例えば、音声書き起こしによって入力テキストを作成してもよい。
 このように、音声認識手段56は、単語単位に分割して出力可能である。なお、形態素解析は、音声認識手段56以外で行われていてもよい。例えば、音声書き起こしによって入力テキストを作成する場合、形態素解析が行なわれていないテキスト文が作成され、この場合、形態素解析入力テキストに対しては、後述する記号編集判定手段52が形態素解析を行ってもよい。
 ブロック分割手段51には、音声認識手段56によって認識されたテキストが入力される。ブロック分割手段51は、所定の基準にしたがって複数のブロックに入力テキストを分割する。すなわち、入力テキストが2以上のブロックに分割される。入力テキストの分割方法として、話題や話者単位、x秒(x>0)やn発話(n>0)などが考えられる。ただし、入力テキストを分割せず、入力テキスト全体を1つのブロックとみなすことも可能である。ここでは、入力テキストがI個のブロックに分割されたとして説明する。
 また、n発話を選択する場合、入力テキストには記号が挿入されていないため、擬似的な記号を挿入して、発話単位に分ける。一例として、ポーズ長を基に区切ることが考えられる。例えば、発話と発話の間の発話がされていない区間をポーズとし、その長さをポーズ長とする。そして、ポーズ長があるしきい値以上になったとき、すなわち、しきい値以上のポーズが挿入された時、その位置に"ポーズ"という記号を挿入する。これにより、ブロック内に擬似的な記号であるポーズ記号が挿入される。
 さらに、ブロック分割手段51は、入力テキストを複数のブロックに分割する。なお、1ブロックは通常、複数の分割テキストから構成される。ここで分割テキストとは、1ブロック中の文字列をある記号によって分割した時の1つのかたまりを指す。例えば、その記号を句点とした場合、分割テキストは1文に相当する。この場合、1つのブロックは、複数の文から構成される。なお、1つのブロックが1つの文から構成されていてもよい。
 記号編集判定手段52は、それぞれのブロックに挿入する記号の適正な挿入数を計算する。これにより、I個のブロックのそれぞれに対して、記号の挿入数が算出される。記号挿入数の算出には、以下の数1を条件式として用いる。
Figure JPOXMLDOC01-appb-M000001
 ここで、θ(Cminおよびθ(Cmaxは、記号Cの編集判定を行うしきい値である。しきい値は、経験的に定めても良いし、実験的に求めても良い。そして、しきい値θ(Cminおよびθ(Cmaxを予め記憶しておく。また、SCkはi番目のブロックの記号Cの記号挿入頻度を表す。すなわち、記号挿入頻度SCkが予め設定された上限値と下限値との間になるように、各ブロックに挿入される記号数を決定する。具体的には、以下の数2、又は数3等を用いて記号挿入頻度SCkを算出する。
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 このように記号挿入頻度SCkはi番目のブロックに含まれる記号Cの出現頻度、に応じて決まる。ブロック内の記号Cの数が多いほど、記号挿入頻度SCkが大きくなる。数1を満たすSi,Ckの分子の値が自動挿入する記号数となる。記号が挿入されていないテキストを入力とする場合にはSi,Ck<θ(Cminとなるため、記号編集が要となり、記号を挿入する。ここで、Si,Ckは1つ以上の分割テキストから構成されるブロックに対して、単語数もしくは文字数を考慮した記号挿入頻度となっている。したがって、文字数、又は単語数が異なれば、記号挿入数も異なる。1つのブロックに含まれる文字数、又は単語数に応じて、記号挿入頻度SCkを算出する。このようにすることで、ブロック中に挿入される記号挿入数を適切に算出することができる。すなわち、1ブロックに含まれるテキストの長さが変わった場合でも、適切に記号挿入数を決定することができる。
 なお、上記のように、記号編集判定手段52が形態素解析を行ってもよい。ただし、音声認識結果等の既に単語単位に区切られているテキストに対しては処理を行わず、その情報を用いる。すなわち、テキストがそのテキストを単語単位に区切った情報と共に入力される場合は、その情報を用いる。
 記号編集位置算出手段53は、単語ごとに記号編集尤度を計算して、1ブロック内で最適な位置に記号を挿入する。記号編集位置算出手段53は、記号編集判定手段52で求めた記号挿入数だけ、そのブロックに記号を挿入する。
 具体的には、記号編集位置算出手段53が、以下の3つの処理を行う。1つ目の処理は、単語単位で記号挿入尤度を求める処理である。2つめの処理は、記号挿入尤度に基づいて、記号編集尤度を求める処理である。3つ目の処理は記号編集尤度に応じて、記号挿入位置を求める処理である。
 1番目の処理について説明する。ここでは、単語単位に記号挿入尤度を算出する。記号挿入モデル記憶手段54には、文字列に対して記号が挿入される記号挿入尤度をモデル化した記号挿入モデルが記憶されている。記号挿入尤度を求める方法としては、下岡ら,"日本語話し言葉の係り受け解析と文境界推定の相互作用による高精度化," 自然言語処理, 2005年第12巻3号(以下、文献1)や大庭ら(NTT),"チャンキングと逐次的係り受け解析に基づく話し言葉の文境界検出,"日本音響学会講演論文集,2006(以下、文献2)の方式を用いることができる。
 したがって、これらの方式に応じた記号挿入モデルが、記号挿入モデル記憶手段54に格納されている。記号編集位置算出手段53は、記号挿入モデル記憶手段54に記憶された記号挿入モデルを用いて、着目した単語の直後にある記号が挿入される尤度である記号挿入尤度を計算する。このように、ブロックに含まれる全単語に対する記号挿入尤度を算出する。もちろん、文献1、及び文献2以外の方法で、単語の記号挿入尤度を算出してもよい。このような記号挿入尤度は、単語に応じて異なっている。すなわち、単語によって、その単語の直後に挿入される尤度である記号挿入尤度が決まる。
 2番目の処理について説明する。ここでは、記号挿入尤度に基づいて、記号編集尤度を算出する。ここで、ブロックiに含まれるj番目の単語について考える(i、jは自然数)。記号Cの記号挿入尤度をp(i,j,C)とすると、記号Cの記号編集尤度Pr(i,j,C)は、以下の数4で算出することができる。
Figure JPOXMLDOC01-appb-M000004
 数4において、α、β、γは事前に定めた値であり、L(i,j,C)も含めて記号編集尤度の補正係数として機能する。したがって、定数α、β、γの値は、予めメモリ等に記憶されている。また、L(i,j,C)は、記号間距離に基づく関数f(y)を用いて以下の数5で表せる。
Figure JPOXMLDOC01-appb-M000005
 変数yは、ブロックiに含まれるj番目の単語から最近傍のいずれかの記号までの距離である。すなわち、最近傍の記号までの単語数もしくは文字数を距離yとすることができる。具体的には、既に挿入済みのいずれかの記号、もしくは擬似的な記号、例えば"ポーズ"との距離となる。このように、その単語位置から前、又は後の記号までの距離が記号間距離となる。したがって、変数yは以下の数6、又は数7で表すことができる。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 ここで、length(j,j')は、j番目の単語とj'番目の単語間の文字数を表す。数4では、L(i,j,C)の項が含まれているため、記号間距離に応じて、記号編集尤度Pr(i,j, C)の値が変化する。すなわち、隣接する記号間距離が長くなると記号編集尤度Pr(i,j, C)の値が高くなる。したがって、記号間距離が長い区間に、より記号が挿入されやすくなる。記号間距離は記号編集位置から既に記号挿入済みの最近傍の記号までの単語数、又は文字数である。
 なお、別の記号編集尤度算出方法として、以下の数8を用いることができる。同様に定数α、β、γを用いる。
Figure JPOXMLDOC01-appb-M000008
 なお、数8におけるα、β、γは数4と同様に、予め設定された定数である。
 ここで、wj+n' j-n+1は直前n単語から直後n'単語までの単語列を表す。N(wj+n' j-n+1,C)は、単語列wj+n' j-n+1のi番目の単語wjの直後に記号Cが挿入された頻度を表し、例えば、同一話者の記号挿入履歴から求める。記号挿入履歴として、既に記号挿入確定済みのブロックにおける記号挿入結果を用いることができる。すなわち、過去に挿入された当該記号の挿入結果を挿入履歴として用いることができる。あるいは、後述する実施形態2の仮記号挿入位置算出手段での記号挿入判定結果を用いてもよい。
 また、評価対象の音声とは別に、同一話者の発話を収集した記号挿入済みテキストがある場合には、それらを用いても良い。つまり、評価対象話者の記号挿入傾向を反映させた記号編集尤度が求められる。記号編集尤度が、既に記号挿入済みのテキストの記号挿入履歴に基づいて算出されている。例えば、既に記号が付されている他のテキストにおける当該記号の挿入頻度に応じた記号挿入履歴に基づいて算出されている。記号挿入履歴が同一話者による他のテキストにおける当該記号の挿入頻度に応じて設定されていてもよい。
 3つ目の処理について説明する。ここでは、記号編集尤度を用いて、記号挿入位置が決定される。すなわち、1ブロック内の全単語を対象に、記号編集尤度が最大となった単語を求める。すなわち、1つ以上の分割テキストにまたがって記号編集尤度が最大となる単語を求める。そして、その単語の直後に記号を挿入する。この算出式を、以下の数9に示す。
Figure JPOXMLDOC01-appb-M000009
 ここで、cはブロックiのj番目の単語の直後に挿入される記号を表し、c=NULLは何も記号が挿入されないことを表す。数9は、記号Cに対する記号編集尤度が最も高い位置を出力することを意味する。数1の条件が満たされるまで繰り返し、Cが挿入される位置を計算する。
 このように、1ブロック内の全単語に対する記号編集尤度を比較する。そして、ブロック内において、記号編集尤度が高い単語から順番に記号を挿入していく。数1に応じた記号挿入数の記号を1ブロック内に挿入していく。すなわち、記号編集判定手段52は、ブロック内に挿入された記号数が記号挿入数になるまで、記号編集を要と判定する。
 ただし、擬似的な記号が挿入された位置に関しては、特別処理を行っても良い。すなわち、以下の数10のように記号ごとの記号編集尤度を求め、NULLを除いた最も尤度の高かった記号C^を挿入する。
Figure JPOXMLDOC01-appb-M000010
 ただし、記号間で挿入の優先順位がある場合、優先度下位の記号は優先度上位の記号が挿入されている箇所には挿入しないなどの制限を設けることも考えられる。例えば、挿入対象の記号が句点と読点の場合に、句点が読点よりも優先度が高いとすると、句点が挿入されている箇所には読点が選択されることはない。また、ここで、非常に長いポーズが挿入された時には、いずれかの記号を挿入するという制約の下で記号位置を編集することも考えられる。
 記号位置確定手段55は、記号編集位置算出手段53の記号挿入位置情報をもとに、入力テキストに記号を挿入し、結果を出力する。これにより、適切な位置に記号が挿入されたテキストデータが出力される。もちろん、上記の処理によって、異なる種類の記号を挿入してもよい。例えば、句点に対する記号編集尤度を算出して、句点を挿入した後に、読点に対する記号編集尤度を算出して、読点を挿入することができる。
 次に、図3のフローチャートを参照して本実施形態の全体動作について説明する。なお、図3では、音声認識を行わずに、テキストを入力する例について示している。まず、入力テキストをブロック単位に分割する(図3のステップS501)。ここでは、入力テキストを2以上のブロックに分割する。もちろん、入力テキスト全体を1つのブロックとしてもよい。
 そして、分割されたブロック毎に、各記号の適切な記号挿入数を計算する(ステップS502)。すなわち、ブロックに含まれる文字数等に応じて、適切な記号挿入数を設定する。次に、ブロック内のテキストを単語単位に分割する(ステップS503)。これにより、ブロック内のテキストが単語単位に区切られる。ただし、既に単語単位に区切られている場合は不要である。なお、ステップS503は、ステップS501の前でも、ステップS502の前でもよい。例えば、ステップS502で記号挿入数を算出するときに、数2を用いる場合、先にステップS503を実行して、単語単位に区切っておく。そして、ブロック内の単語数をカウントして、記号挿入数を決定する。
 その後、記号挿入尤度および記号間距離に基づく値を用いて記号編集尤度を求め、記号編集位置を算出する(ステップS504)。すなわち、記号編集位置算出手段53が記号挿入モデルを読み出し、各単語に対する記号挿入尤度を算出する。そして、記号挿入尤度と記号間距離に基づいて、記号編集尤度を算出する。もちろん、記号間距離ではなく、記号挿入履歴を参照して、記号編集尤度を算出してもよい。さらに、記号間距離、及び記号挿入履歴の両方を用いて、記号編集尤度を算出してもよい。
 最後に、前ステップでの結果をテキストに反映させて(ステップS505)、これを全ブロックに対して実行する(ステップS506)。このように、ブロック内に挿入された記号数がステップS501で設定された記号挿入数に到達するまで、記号編集を要と判定する。そして、記号挿入数になるまで、記号編集尤度が高い単語位置から順番に記号を挿入していく。一連の処理を全記号に対して実行してもよい。
 上記のテキストデータ処理装置を、音声認識装置に適用してもよい。この場合、音声認識処理結果を入力テキストとする。すなわち、音声認識装置に、音声認識部とテキストデータ処理装置を設ける。音声認識部がテキストデータ処理装置に対して音声認識処理の結果によるテキストを入力する。このとき、音声認識部がポーズ箇所を検出し、記号編集尤度が、記号編集位置から最近傍のポーズ箇所までの距離に基づいて算出されていてもよい。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、複数の分割テキストが含まれるブロック単位で適切な記号挿入数を計算している。このため、記号を挿入するか否かをブロック単位で大局的に判断することができる。すなわち、数単語や1文等の短区間における局所的に最適位置、最適な量ではなく、ブロック単位での最適な位置に最適な量を記号挿入可能である。よって、1つのブロック中において記号が過度に挿入される部分が発生するのを防ぐことができ、適切な位置に記号を付することができる。なお、ブロックが1文のみで構成されていてもよい。すなわち、1つ以上の分割テキストが含まれるブロック単位で最適な記号挿入位置を決定することができる。
 従来の記号挿入尤度に加えて記号間距離を考慮した上で記号挿入位置を特定している。このため、言語的に記号が挿入されやすい単語列の箇所のうち、記号が少ない位置に記号を挿入可能となる。また、1文が極端に長くなったり不要な箇所まで記号を挿入して細切れになったりすることなく、意味的にも問題のない位置、もしくは適切な位置に記号を挿入することができる。さらに、記号間距離を加味しているために、従前の記号挿入方式では記号挿入尤度が低いために記号が割り当てられなかった、もしくは他の記号が割り当てられていた箇所に記号を挿入することもできる。よって、適切な位置に記号を挿入することができる。
 あるいは、記号編集尤度を同一話者の記号挿入履歴から求めることで、評価対象話者の記号挿入傾向を反映させた記号編集尤度を求めることができる。よって、話者の話し方に応じた、そして文法的に妥当な位置に記号を挿入することができる。
実施の形態2.
 本発明の第2実施形態について図面を参照して詳細に説明する。
 図4に示すように、実施の形態2にかかるテキストデータ処理装置では、仮記号挿入位置算出手段101と、記号挿入モデル記憶手段102と、仮記号挿入結果記憶手段103と、ブロック分割手段104と、記号編集判定手段105と、記号編集位置算出手段106と、記号位置確定手段107とから構成されている。なお、実施の形態1と同様の内容については、適宜省略して説明する。
 仮記号挿入位置算出手段101には、テキストが入力される。例えば、音声書き起こしを入力とする。もちろん、実施の形態1と同様に、音声認識結果を入力テキストとしてもよい。そして、入力テキストが単語単位に区切られていない時、仮記号挿入位置算出手段101は、形態素解析を行って入力テキストを単語単位に区切る。さらに、各単語直後に記号が挿入される尤度(記号挿入尤度)を計算する。さらに記号挿入尤度に基づいて記号挿入判定を行う。記号挿入尤度に基づいて入力テキストに仮記号を挿入する。
 記号挿入モデル記憶手段102は、第1の実施の形態での記号挿入モデル記憶手段54と同様である。したがって、記号挿入モデル記憶手段102には、記号挿入モデルが記憶されている。
 仮記号挿入結果記憶手段103は、仮記号挿入位置算出手段101の結果を記憶する。具体的には、入力文に加えて記号挿入判定結果および各記号の記号挿入尤度を記憶する。
 ブロック分割手段104は、仮記号挿入結果記憶手段103より文字列を取得して、所定の基準にしたがってテキストをブロックに分割する。なお、仮記号挿入前に、テキストをブロックに分割することも可能である。分割の基準は、第1の実施の形態と同様である。ただし、n発話を選択する場合には、仮記号挿入結果の記号から算出する。
 記号編集判定手段105は、ブロック分割手段104によって分けられたI個のブロックそれぞれに対して、ブロックの記号挿入情報を編集すべきか判定する。記号編集判定手段105は、ブロックに含まれる単語の情報や記号挿入の有無の情報(記号挿入情報)、記号挿入尤度の情報を仮記号挿入結果記憶手段103より取得し、これらを用いて判定を行なう。具体的には、記号編集判定手段105は、記号の挿入もしくは削除を行うか判定を行う。判定式は数1および数2を用いる。もちろん、数2の代わりに数3を用いてもよい。Si,Ckがθ(Cminからθ(Cmaxの範囲にある場合には、記号編集を行わず結果を記号位置確定手段107に送る。すなわち、仮記号挿入結果を、そのまま記号位置確定手段107に送る。しかしながら、数1の条件を満たしていない場合は、記号編集位置算出手段106にて記号位置の編集を行う。
 記号編集位置算出手段106は、記号編集判定手段105にて編集の必要があるとされたブロックについて、記号の編集位置を特定する。具体的には、仮記号挿入結果記憶手段103から取得した記号挿入尤度の情報をもとに記号編集尤度を求める。この記号編集尤度に基づいて記号編集位置を特定する。そして、記号挿入位置情報を更新して、それらの情報を記号位置確定手段107に渡す。
 記号編集尤度Pr(i,j, C)は、数4もしくは数8を用いる。但し、数4に使用される数5のyは、数6、数7以外に、以下の数11又は数12で求めることもできる。
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
 このように、数11、又は数12を用いて変数yを算出してもよい。すなわち、変数yは、ブロックiのj番目の単語から最近傍の記号Cまでの距離としてもよいし、記号の種類に関係なくいずれかの記号との距離としてもよい。すなわち、仮記号挿入位置算出手段101によって当該記号が挿入されているため、同じ記号Cの記号間距離を用いることができる。距離とは、具体的には、記号間の単語数もしくは文字数である。
 以下に記号編集位置特定方法を詳細に述べる。
 まず、記号編集判定手段105での結果がSi,Ck<θ(Cminであった場合について述べる。Si,Ck<θ(Cminは、すなわちブロックiにおける記号Cの挿入数が少ないことを意味する。したがって、Si,Ck≧θ(Cminとなるまでブロックiの文字列に記号Cを挿入する。記号挿入位置は数9で求められる。すなわち、ブロックiの記号Cが挿入されていないすべての単語境界のうち、記号Cの記号編集尤度が最も高い位置を求めている。
 ただし、記号間で挿入の優先順位がある場合、優先度下位の記号は優先度上位の記号が挿入されている箇所には挿入しないなどの制限を設けることも考えられる。例えば、挿入対象の記号が句点と読点の場合に、句点が読点よりも優先度が高いとすると、句点が挿入されている箇所には読点が選択されることはない。ここで、非常に長いポーズが挿入された時には、いずれかの記号を挿入するという制約の下で記号位置を編集することも考えられる。
 次に、記号編集判定手段105での結果がSi,Ck>θ(Cmaxであった場合について述べる。Si,Ck>θ(Cmaxは、ブロックiにおける記号のCの挿入数が多すぎることを表す。したがって、ブロックiの記号Cが挿入されている箇所からSi,Ck≦θ(Cmaxとなるまで記号Cを削除する。削除箇所、すなわちci,m≠Cを以下の数13で求める。
Figure JPOXMLDOC01-appb-M000013
 上述の式は、記号Cが挿入されている箇所のうち、記号編集尤度が最も低い位置を出力することを意味する。また別の記号削除箇所の算出方法として、以下の数14が考えられる。
Figure JPOXMLDOC01-appb-M000014
 上述の数14は、記号Cが挿入されている箇所のうち、記号がNULLである尤度が最も高い位置を出力することを意味する。ここで、非常に長いポーズが挿入された時には、当該箇所の記号は削除しない(Ci,m≠NULL)という制約の下で記号位置を編集することも考えられる。
 記号位置確定手段107は、記号編集判定手段105および記号編集位置算出手段106で出力された記号挿入位置情報をもとに、入力テキストに記号を挿入し、結果を出力する。
 次に、図5のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
 まず、入力テキストを単語単位に区切る(図5のステップS201)。既に、単語境界がわかっている音声認識結果等では、その情報を用いて単語単位に区切る。単語境界がわかっていない入力テキストに対しては、形態素解析を実行して入力テキストを単語に区切る。次に、ステップS201にて区切られた単語単位で記号挿入尤度を求めて直後に挿入すべき記号を決定し、記号挿入判定結果(記号挿入情報)および記号挿入尤度の情報を追加する(ステップS202)。これを入力の全単語について実施する(ステップS203)。
 これにより、全単語に対して記号挿入判定が行なわれ、仮記号が挿入される。さらに、前述の所定の基準にしたがって入力テキストを分割し、1つ以上のブロックに分ける(ステップS204)。なお、入力テキストをブロックに分割した後に、形態素解析を行ってもよい。なお、ステップS204は、ステップS201の前でも、ステップS202の前でもよい。
 各ブロックに対して記号挿入頻度を計算し(ステップS205)、その結果に基づいて当該ブロックに記号編集の要否を判定する(ステップS206)。編集を行う場合には、編集位置を算出し(ステップS207)、記号挿入情報を更新する(ステップS208)。すなわち、記号挿入数が上限値を超えている場合は記号を削除し、下限値をより少ない場合は記号を追加する。その上で、記号挿入情報をもとに記号挿入位置を確定し、入力文に記号を挿入する(ステップS209)。この一連の処理を全てのブロックに対して実施する(ステップS210)。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、仮記号挿入結果を用いて、記号間距離を計算する。そして、この記号間距離に基づいて記号編集尤度を求め、記号編集を行う。よって、擬似的に挿入された記号より信頼度の高い記号の情報を用いて記号間距離に基づく関数値、及び記号編集尤度を求めることができる。このため、より高精度に記号挿入が可能となる。また、仮記号挿入結果を踏まえて記号の多寡を判定するため、過度に記号が挿入されていた際に余分な記号の削除が可能である。さらに、一度挿入された記号を記号間距離や記号挿入履歴を加味して、より適切な別の記号に置き換えることも可能である。よって、適切な位置に記号を付することができる。
実施の形態3.
 実施形態3について図面を参照して詳細に説明する。図6は、本実施の形態にかかるテキストデータ処理装置の構成を示すブロック図である。なお、実施の形態1,2と同様の内容については、説明を省略する。
 図6を参照すると、テキストデータ処理装置は、実施形態1をプログラムにより構成した場合に、そのプログラムにより動作されるコンピュータの構成図で、入力装置300と、データ処理装置310と、データ記憶装置320と、出力装置330とから構成されている。データ処理装置310は、仮記号挿入位置算出手段311、ブロック分割手段312、記号編集判定手段313、記号編集位置算出手段314、記号位置確定手段315を含んでいる。データ記憶装置320は、記号挿入モデル記憶部321、仮記号挿入結果記憶部322、記号挿入結果記憶部323を含んでいる。なお、これらの各装置は、物理的に単一の装置から構成されていてもよい。すなわち、各装置が、1つのコンピュータによって構成されていてもよい。
 入力装置300は、記号を含まない形態素解析済みテキストや音声認識結果等を入力する。もちろん、入力装置300が音声認識処理を行ってもよい。この場合、入力装置300が音声データを取得するためのマイクなどを有している。
 データ処理装置310は、仮記号挿入位置算出手段311、ブロック分割手段312、記号編集判定手段313、記号編集位置算出手段314、記号位置確定手段315とを含み、入力装置300からの入力を受け、データ記憶装置320より必要な単語情報、記号挿入情報などを得て、記号挿入位置を算出、入力文字列を編集して出力装置330に結果を送る。
 データ記憶装置320は、記号挿入モデル記憶部321と、仮記号挿入結果記憶部322、記号挿入結果記憶部323とを含み、主に入力文字列の単語情報や記号挿入情報、記号挿入尤度情報を記憶する。さらに、データ処理装置310から要求に応じて、必要な単語情報、記号挿入情報、記号挿入尤度情報をデータ処理装置310に返す。
 記号挿入モデル記憶部321は、記号挿入モデルを記憶する。
 仮記号挿入結果記憶部322は、仮記号挿入位置算出手段311の算出結果を保存し、ブロック分割手段312に必要な情報を送る。
 記号挿入結果記憶部323は、記号編集判定手段313および記号編集位置算出手段314の結果を記憶し、記号位置確定手段315にその結果を送る。
 本実施の形態によれば、音声信号をテキスト化する音声認識装置や音声認識装置をコンピュータに実現するためのプログラムといった用途に適用できる。例えば、音声認識装置に、本実施の形態にかかるテキストデータ処理プログラムをインストールする。また、音声や映像コンテンツを適切な単位に区切って分割された単位でコンテンツを表示・再生したり検索したりするコンテンツ再生装置やコンテンツ検索装置、録音された音声データの書き起こし支援装置といった用途にも適用可能である。
 音声をテキスト化した文字列に対して、適切な位置に記号を挿入することができる。特に話し言葉音声をテキスト化した文章に対して記号挿入する場合には、1文が長くなったり文が細切れになったりする場合が多いので、適切に編集することができる。本発明に係る方法では、複数の文を含むブロック毎に適切な挿入位置を判定している。よって、適切な量の記号を適切な位置に挿入することができる。
 この出願は、2008年4月3日に出願された日本出願特願2008-097350を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに関し、特に詳しくはテキストデータに対して記号を編集する、音声認識装置、テキストデータ処理装置、テキストデータ処理方法、およびテキストデータ処理プログラムに適用することができる。

Claims (17)

  1.  複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、
     前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるテキストデータ処理装置。
  2.  前記記号間距離が前記記号編集位置から既に挿入済みの最近傍の記号までの単語数、又は文字数に応じて決定されている請求項1に記載のテキストデータ処理装置。
  3.  複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する記号編集判定手段と、
     前記記号編集判定手段において前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出する記号編集位置算出手段と、を備えるテキストデータ処理装置。
  4.  前記記号挿入履歴が同一話者によるテキストにおける当該記号の挿入頻度に応じて設定されている請求項3に記載のテキストデータ処理装置。
  5.  前記ブロック中に挿入される記号挿入数を算出し、前記ブロック内の記号数が前記記号挿入数になるまで、前記記号編集を要と判定する請求項1乃至4のいずれか1項に記載のテキストデータ処理装置。
  6.  請求項1乃至5のいずれか1項に記載のテキストデータ処理装置と、
     前記テキストデータ処理装置に対して音声認識処理の結果によるテキストを出力する音声認識部とを備える音声認識装置。
  7.  前記音声認識部がポーズ箇所を検出し、
     前記記号編集尤度が、前記記号編集位置から最近傍の前記ポーズ箇所までの距離に基づいて算出されている請求項6に記載の音声認識装置。
  8.  複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する判定ステップと、
     前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるテキストデータ処理方法。
  9.  前記記号間距離が前記記号編集位置から既に挿入済みの最近傍の記号までの単語数、又は文字数に応じて決定されている請求項8に記載のテキストデータ処理方法。
  10.  複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定する判定ステップと、
     前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出し、前記記号編集尤度から前記ブロック中の記号編集位置を算出するステップと、を備えるテキストデータ処理方法。
  11.  前記記号挿入履歴が同一話者によるテキストにおける当該記号の挿入頻度に応じて設定されている請求項10に記載のテキストデータ処理方法。
  12.  前記ブロック中に挿入される記号挿入数を算出し、前記ブロック内の記号数が前記記号挿入数になるまで、前記記号編集を要と判定する請求項8乃至11のいずれか1項に記載のテキストデータ処理方法。
  13.  入力されたテキストに対して記号を編集するテキストデータ処理プログラムが格納された記録媒体であって、
     コンピュータに対して、
     複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させる判定ステップと、
     前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号間距離とに基づいて記号編集尤度を算出させ、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるテキストデータ処理プログラムが格納された記録媒体。
  14.  前記記号間距離が前記記号編集位置から既に挿入済みの最近傍の記号までの単語数、又は文字数に応じて決定されている請求項13に記載のテキストデータ処理プログラム。
  15.  入力されたテキストに対して記号を編集するテキストデータ処理プログラムが格納された記録媒体であって、
     コンピュータに対して、
     複数の分割テキストからなるブロック中の記号挿入頻度に基づいて記号編集の要否を判定させる判定ステップと、
     前記判定ステップにおいて前記記号編集が要と判定された場合に、単語の記号挿入尤度と記号挿入済みのテキストの記号挿入履歴とに基づいて記号編集尤度を算出させ、前記記号編集尤度から前記ブロック中の記号編集位置を算出させるステップと、を備えるテキストデータ処理プログラムが格納された記録媒体。
  16.  前記記号挿入履歴が同一話者によるテキストにおける当該記号の挿入頻度に応じて設定されている請求項15に記載のテキストデータ処理プログラムが格納された記録媒体。
  17.  前記ブロック中に挿入される記号挿入数を算出し、前記ブロック内の記号数が前記記号挿入数になるまで、前記記号編集を要と判定する請求項13乃至16のいずれか1項に記載のテキストデータ処理プログラムが格納された記録媒体。
PCT/JP2009/052378 2008-04-03 2009-02-13 テキストデータ処理装置、方法、プログラムが格納された記録媒体 WO2009122779A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/922,046 US8892435B2 (en) 2008-04-03 2009-02-13 Text data processing apparatus, text data processing method, and recording medium storing text data processing program
JP2010505435A JPWO2009122779A1 (ja) 2008-04-03 2009-02-13 テキストデータ処理装置、方法、プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008097350 2008-04-03
JP2008-097350 2008-04-03

Publications (1)

Publication Number Publication Date
WO2009122779A1 true WO2009122779A1 (ja) 2009-10-08

Family

ID=41135178

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/052378 WO2009122779A1 (ja) 2008-04-03 2009-02-13 テキストデータ処理装置、方法、プログラムが格納された記録媒体

Country Status (3)

Country Link
US (1) US8892435B2 (ja)
JP (1) JPWO2009122779A1 (ja)
WO (1) WO2009122779A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248538A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 記号入力支援装置、記号入力支援方法、及びプログラム
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
US10606940B2 (en) 2013-09-20 2020-03-31 Kabushiki Kaisha Toshiba Annotation sharing method, annotation sharing apparatus, and computer program product
JP2020160782A (ja) * 2019-03-26 2020-10-01 日本放送協会 自然言語データ処理装置およびプログラム
WO2021215262A1 (ja) * 2020-04-20 2021-10-28 株式会社Nttドコモ 句点削除モデル学習装置、句点削除モデル及び判定装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013089130A (ja) * 2011-10-20 2013-05-13 Sony Corp 情報処理装置、情報処理方法、プログラム、及び記録媒体
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104142915B (zh) * 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104156344B (zh) * 2014-07-21 2016-09-28 小米科技有限责任公司 文本编辑方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0417059A (ja) * 1990-05-10 1992-01-21 Canon Inc 文書作成装置
JPH04259065A (ja) * 1991-02-14 1992-09-14 Toshiba Corp 言語生成装置
JP2004070634A (ja) * 2002-08-06 2004-03-04 Seiko Epson Corp 読点挿入位置決定方法および読点挿入位置決定装置ならびに読点挿入位置決定処理プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3009642B2 (ja) 1997-10-22 2000-02-14 株式会社エイ・ティ・アール音声翻訳通信研究所 音声言語処理単位変換装置
CN1159662C (zh) * 1998-05-13 2004-07-28 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
US6067514A (en) * 1998-06-23 2000-05-23 International Business Machines Corporation Method for automatically punctuating a speech utterance in a continuous speech recognition system
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
JP4538618B2 (ja) 2001-05-17 2010-09-08 独立行政法人情報通信研究機構 字幕番組制作システムにおける表示単位字幕文の自動生成方法
US20040163034A1 (en) * 2002-10-17 2004-08-19 Sean Colbath Systems and methods for labeling clusters of documents
US7580838B2 (en) * 2002-11-22 2009-08-25 Scansoft, Inc. Automatic insertion of non-verbalized punctuation
US20040148170A1 (en) * 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
US20070118372A1 (en) * 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
WO2007091096A1 (en) * 2006-02-10 2007-08-16 Spinvox Limited A mass-scale, user-independent, device-independent, voice message to text conversion system
US20080070205A1 (en) * 2006-06-16 2008-03-20 Understanding Corporation, Inc. Methods, systems, and computer program products for adjusting readability of reading material to a target readability level
US20090037171A1 (en) * 2007-08-03 2009-02-05 Mcfarland Tim J Real-time voice transcription system
US20100138221A1 (en) * 2008-12-02 2010-06-03 Boys Donald R Dedicated hardware/software voice-to-text system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0417059A (ja) * 1990-05-10 1992-01-21 Canon Inc 文書作成装置
JPH04259065A (ja) * 1991-02-14 1992-09-14 Toshiba Corp 言語生成装置
JP2004070634A (ja) * 2002-08-06 2004-03-04 Seiko Epson Corp 読点挿入位置決定方法および読点挿入位置決定装置ならびに読点挿入位置決定処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SATOSHI NAKAZAWA ET AL.: "Danwa Shihyo to Text-cho o Mochiita Koen Onsei to Presentation Shiryo no Taiozuke", JOURNAL OF NATURAL LANGUAGE PROCESSING, vol. 12, no. 2, 31 March 2005 (2005-03-31), pages 133 - 156 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011248538A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 記号入力支援装置、記号入力支援方法、及びプログラム
US10606940B2 (en) 2013-09-20 2020-03-31 Kabushiki Kaisha Toshiba Annotation sharing method, annotation sharing apparatus, and computer program product
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
JP2020160782A (ja) * 2019-03-26 2020-10-01 日本放送協会 自然言語データ処理装置およびプログラム
JP7253951B2 (ja) 2019-03-26 2023-04-07 日本放送協会 自然言語データ処理装置およびプログラム
WO2021215262A1 (ja) * 2020-04-20 2021-10-28 株式会社Nttドコモ 句点削除モデル学習装置、句点削除モデル及び判定装置

Also Published As

Publication number Publication date
US20110010175A1 (en) 2011-01-13
US8892435B2 (en) 2014-11-18
JPWO2009122779A1 (ja) 2011-07-28

Similar Documents

Publication Publication Date Title
WO2009122779A1 (ja) テキストデータ処理装置、方法、プログラムが格納された記録媒体
JP5104762B2 (ja) コンテンツ要約システムと方法とプログラム
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US7480612B2 (en) Word predicting method, voice recognition method, and voice recognition apparatus and program using the same methods
JP5141695B2 (ja) 記号挿入装置および記号挿入方法
US9588967B2 (en) Interpretation apparatus and method
EP1422692A2 (en) Automatic insertion of non-verbalized punctuation in speech recognition
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP2009139862A (ja) 音声認識装置及びコンピュータプログラム
JP2010230695A (ja) 音声の境界推定装置及び方法
JP2012181358A (ja) テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム
US10304457B2 (en) Transcription support system and transcription support method
JP2015212732A (ja) 音喩認識装置、及びプログラム
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Levy et al. The effect of pitch, intensity and pause duration in punctuation detection
KR101747873B1 (ko) 음성인식을 위한 언어모델 생성 장치 및 방법
JP2021009253A (ja) プログラム、情報処理装置、及び情報処理方法
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
JP2000259176A (ja) 音声認識装置およびその記録媒体
JP2017215555A (ja) 音声翻訳装置及び音声翻訳システム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
KR100883649B1 (ko) 텍스트/음성 변환 장치 및 방법
JP5044791B2 (ja) 字幕ずれ推定装置、補正装置および再生装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09728669

Country of ref document: EP

Kind code of ref document: A1

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 12922046

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2010505435

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09728669

Country of ref document: EP

Kind code of ref document: A1