Nothing Special   »   [go: up one dir, main page]

WO2004049307A1 - Method for automatically matching audio segments with text elements - Google Patents

Method for automatically matching audio segments with text elements Download PDF

Info

Publication number
WO2004049307A1
WO2004049307A1 PCT/AT2003/000356 AT0300356W WO2004049307A1 WO 2004049307 A1 WO2004049307 A1 WO 2004049307A1 AT 0300356 W AT0300356 W AT 0300356W WO 2004049307 A1 WO2004049307 A1 WO 2004049307A1
Authority
WO
WIPO (PCT)
Prior art keywords
passage
transcript
automatic
text
time
Prior art date
Application number
PCT/AT2003/000356
Other languages
German (de)
French (fr)
Other versions
WO2004049307A8 (en
Inventor
Norbert Pfannerer
Gerhard Backfried
Original Assignee
Sail Labs Technology Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sail Labs Technology Ag filed Critical Sail Labs Technology Ag
Priority to AU2003285972A priority Critical patent/AU2003285972A1/en
Publication of WO2004049307A1 publication Critical patent/WO2004049307A1/en
Publication of WO2004049307A8 publication Critical patent/WO2004049307A8/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • the invention relates to the automatic recognition of natural language.
  • this is a novel method for the automatic matching of audio segments contained in an audio recording with text elements in a transcript generated manually from the audio recording, an automatic transcript first being created from the audio recording, preferably by an automatic speech recognizer that contains the audio segments formed into text elements together with a time reference at which point in the audio recording the respective automatically created text element is located.
  • An automatic speech recognizer can generate an automatic transcript from input audio data which corresponds to the words occurring in the audio data.
  • the audio data can come from a variety of sources, e.g. from video recordings or audio clips.
  • the manual transcript is typically created by a transcriptionist who uses an audio recording or a shorthand for reference.
  • the automatic transcript is compared with the manual transcript by means of the dynamic alignment alignment process and corresponding passages are found.
  • Fig. 1 shows the overall process schematically.
  • Windows Malfunctions easily lead to problems with the speech recognizer. Longer pieces of audio may not contain the entire transcript and the length of the one to be used Windows can be difficult to determine in advance. It should be noted that the term “window” in connection with “forced alignment” refers to windows of the audio file. For example, the next 20 seconds of the audio file (ie a window of 20s in length), the next ten words of the manual transcript that have not yet been used in the process, and the speech recognizer can determine the assignment of these words to the audio contained.
  • the aim of the present invention is to use an innovative method to establish an automatic match between an automatically (preferably by means of automatic speech recognition) produced text or transcript and a manually generated text or transcript, the method being much more robust against errors and incompleteness in the automatically generated Text is said to be the known method. Furthermore, the method according to the invention is intended to substantially reduce the effort in processing the automatically generated text.
  • the invention provides a method for automatic correspondence between an automatically generated text or transcript and a manually generated text or transcript, as defined in claim 1.
  • the method according to the invention does not use the individual words themselves, but rather entire text passages which are shifted in a window-like manner (sliding window) and overlap over the entire text.
  • the passages are represented by properties of the words corresponding to them (similar to those that are also used in the field of “information retrieval”), which means that errors in speech recognition can be compensated for.
  • the result is an association of passages and the words contained in the automatic transcript with those in the manual transcript. Since passages (text windows) are used according to the invention as a unit of the matching process and properties defined on the words contained in these passages, exact matching of words is no longer necessary, and the method thus becomes much more robust against errors in the automatic text creation.
  • the outlay on processing is also considerably reduced.
  • the present method thus allows a transcription (AT) generated, for example, by an automatic speech recognizer to be automatically and dynamically reconciled with a manual transcription (MT) of the same audio or video file (i.e. an alignment, an association between them).
  • AT a transcription
  • MT manual transcription
  • the automatic speech recognizer produces an automatic transcript which corresponds to the words occurring in the audio data entered.
  • a time stamp of the word is also generated with each word of the transcription. This timestamp indicates when exactly this word in the audio data entered.
  • Audio stream was detected (relative to the beginning of the file).
  • the audio data itself can come from a variety of sources, such as video recordings or audio clips.
  • the manual transcript is typically created by a transcriptionist who uses a recording or stenogram as a reference. The quality of the transcription and how exactly it reproduces the actual audio varies greatly. Since the manual transcription focuses on intelligibility and should not provide the most accurate possible transcription of the audio data, non-linguistic phenomena such as clearing the throat, coughing, breathing noises, smacking the lips, etc., or linguistic phenomena such as stuttering, Slips, elimination of errors and multiple starts of a phrase (eg "I I want to make you the following offer and Obviously) are not taken into account.
  • FIG. 1 shows a general scheme of the assignment of text from a transcript automatically generated from an audio recording to text from a transcript generated manually from the audio recording
  • FIG 2 schematically shows an overview of the method according to the invention
  • FIG. 3 shows an evaluation matrix used in the method according to the invention
  • FIG. 4 shows a word frequency vector created during the implementation of the method
  • FIG. 5 shows how the manually created text word for words with time stamps of the automatically recognized words
  • FIG. 6 shows the first steps of the result of the dynamic comparison in an exemplary embodiment of the method according to the invention.
  • the present method is based on the subdivision of the two texts into passages (windows), the length of which is determined by a parameter that can be adjusted. Each passage is shifted backwards by a specified value (in words) in the text. This happens in both files in the same way and overlapping, each passage of AT being compared with every passage of MT (see FIG. 2). The length of the passages need not be the same. By varying the parameters and creating an assignment several times, the assignment that received the best overall rating can be selected. This is a special case of the dynamic programming method based on text passages instead of single words. Dynamic programming in itself is a general programming tool that is often used when the search space of a problem can be represented as a sequence of states. The conditions must meet the following conditions:
  • Each partial solution of a later state can be determined from a limited number of already calculated partial solutions of an earlier state, the last state contains the solution to the overall problem
  • the two sequences of text passages represent the axes of a matrix (FIG. 3).
  • the columns of the matrix represent the states
  • a matrix entry represents a partial solution which is only determined from the partial solutions of the previous and the same column (for example, the entry amy represents the best possible arrangement of sequences up to and including a match of sequence a; and sequence m j ).
  • the last element at nm contains the overall solution to the problem. By tracing the path back through the matrix, the best possible assignment is then obtained.
  • the best possible assignment is then obtained.
  • it is a comparison of two text passages the provides an assessment of the similarity of these passages (which in turn finds its way into the dynamic assignment).
  • each component of the vector is assigned a word and its frequency (FIG. 4).
  • tf / idf only says that the actual word frequency (term frequency) and the document frequency (document frequency) are combined to determine the value for a specific word. There are numerous variants of how these values are combined, e.g.
  • weight (ij) (l + log (tfy)) (log (N / dfj)) where N is the total number of documents.
  • the dynamic programming method provides the best possible chain of assignments between passages from AT and passages from MT (best possible in the sense of minimizing the costs of the assignment process, whereby identical passages get a value of 0 and different passages values between 0 and 1, according to their distance , ie the angle between them).
  • Case 2 is called “insertion error” in the literator and corresponds to one
  • Case 3 is referred to as a "deletion error" and corresponds to a manually transcribed passage that was not, however, transcribed by the automatic speech operator (e.g. additions or inaccurate manual transcription.
  • Assignments of both types can be taken into account by the present method, "insertion errors” by displaying the “additional text” differently and “deletion errors” by inserting the not directly assigned text at the appropriate place (see also the following description of a preferred embodiment) ).
  • the dynamic assignment process also provides an overall value that describes the overall quality of the assignment. If these values fall below a limit, the assignment can be rejected as not meaningful. If several assignments are available, the one with the best rating can be selected. If a successful (meaningful) assignment of passages is created, then a direct relationship of the words contained in these passages can be established. This allows the manually created text to be provided word by word with time stamps of the automatically recognized words (FIG. 5). This makes it possible to find the appropriate position for each word in the underlying audio or video file, which enables audio to be found efficiently. The accuracy of this process is determined by the length of the window (ie the passage), the assignment of words that have occurred in the window and interpolation between the windows.
  • an automatically generated transcript which is generated by an automatic speech recognizer, is compared with a manually created transcript (MT) of the same audio file and the text passages and words contained therein are brought into harmony with one another.
  • the two text files are divided into text passages of the same length. For each comparison step, these are shifted backwards by a predetermined number of words, in such a way that adjacent passages overlap by a predetermined number of words.
  • These two values are freely selectable and can be adapted to the specific text (e.g. knowledge of the nature of the automatic and / or manual transcription or its quality can be incorporated).
  • All passages are compared using the dynamic programming method.
  • the metric used in this comparison is the cosine of the angle (the distance) between the vectors representing the respective text passages.
  • These vectors are generated from the words contained in the passage.
  • the words themselves are used for this, each word and its frequency representing a component of the vector.
  • the method in question is in no way limited to this representation of the vectors, but is equally suitable for other representations.
  • TF / IDF or methods based on phonetic similarity or other properties, such as the basic form of a word or its phonetic representation can also be used.
  • words can be put together into composites or composites can be broken down into their components. The result of this process is an assignment of passages from the two input texts.
  • this assignment is now used for assignment on a word basis.
  • the following procedure is used: - If the passage from MT corresponds to that from AT, then each word from MT is assigned the time stamp of the corresponding word from AT;
  • the words from MT are inserted before the last time stamp according to the nature of their words (eg the length in phonemes). For this purpose, time stamps are artificial generated that lie in the corresponding time interval.
  • the automatic speech recognizer produces an automatic transcript which corresponds to the words occurring in the input data
  • This text corresponds to the version (MT) created by a human transcriptionist.
  • the respective time stamp is given with each word, i.e. the time relative to the start of the audio input data (in 1/100 s) at which the speech recognizer recognized the respective word.
  • a hesitation in the audio stream was once recognized ([AHM]).
  • the speaker at this position may have actually hesitated to continue the sentence.
  • the first two words of the passage could come from an interjection that the speech recognizer transcribed, but which the human transcriptionist did not consider.
  • the first window in AT was shown as "insertion", ie as recognized but not corresponding to the manually transcribed text.
  • the second window in AT was assigned to the first window from MT, which results in the transmission of the associated time stamps in the result.
  • the other windows were assigned to each other according to the rules shown in this procedure.
  • the result of the method is an assignment of the words from MT to the time stamps of the words from AT according to the windows assigned to each other (see figure above)

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

The invention relates to a method for automatically matching audio segments with text elements in a transcript (MT) manually created from the audio recording, whereby an automatic transcript (AT) was created from the audio recording and contains, together with a time reference, the audio segments converted into text elements. The inventive method also involves: subdividing the automatic transcript (AT) and the manual transcript (MT) into passages (ati, mtj) of a defined length that each comprises a number of text elements; shifting each passage in the automatic transcript (AT) and in the manual transcript (MT) over the entire automatic and manual transcript, whereby each passage overlaps the preceding passage; determining a specific passage characteristic for each passage; comparing the passage characteristic of each passage (ati) in the automatic transcript (AT) with each passage (mtj) in the manual transcript (MT); assigning a respective passage in the automatic transcript (AT) to a corresponding passage in the manual transcript (MT) so that the optimal path of assignments results when looking at the sum of the passage comparisons.

Description

Verfahren zur automatischen Übereinstimmung von Audio-Segmenten mit Textelementen Method for automatic matching of audio segments with text elements
Die Erfindung betrifft die automatische Erkennung natürlicher Sprache. Im Detail handelt es sich dabei um ein neuartiges Verfahren zur automatischen Übereinstimmung von in einer Audioaufnahme enthaltenen Audio-Segmenten mit Textelementen in einem manuell aus der Audioaufnahme erzeugten Transkript, wobei zunächst aus der Audio-Aufnahme, vorzugsweise durch einen automatischen Spracherkenner, ein automatisches Transkript erstellt wird, das die zu Textelementen geformten Audiosegmente zusammen mit einem Zeitbezug, an welcher Stelle in der Audio- Aufnahme sich das jeweilige automatisch erstellte Textelement befindet, enthält.The invention relates to the automatic recognition of natural language. In detail, this is a novel method for the automatic matching of audio segments contained in an audio recording with text elements in a transcript generated manually from the audio recording, an automatic transcript first being created from the audio recording, preferably by an automatic speech recognizer that contains the audio segments formed into text elements together with a time reference at which point in the audio recording the respective automatically created text element is located.
Ein automatischer Spracherkenner kann aus eingegebenen Audiodaten ein automatisches Transkript erzeugen, welches den in den Audiodaten vorkommenden Wörtern entspricht. Die Audiodaten können dabei von einer Vielfalt an Quellen kommen, so z.B. aus Videoaufnahmen oder Audio-Clips. Das manuelle Transkript wird typischerweise von einem Transkriptionisten erstellt, der eine Audio-Aufnahme oder ein Stenogramm als Referenz verwendet. Das automatische Transkript wird mit dem manuellen Transkript mittels des Prograrrimierverfahrens des Dynamic Alignment verglichen und einander entsprechende Passagen gefunden.An automatic speech recognizer can generate an automatic transcript from input audio data which corresponds to the words occurring in the audio data. The audio data can come from a variety of sources, e.g. from video recordings or audio clips. The manual transcript is typically created by a transcriptionist who uses an audio recording or a shorthand for reference. The automatic transcript is compared with the manual transcript by means of the dynamic alignment alignment process and corresponding passages are found.
Das erfindungsgemäße Verfahren eignet sich jedoch im Prinzip gleichermaßen auch für Texte, die nicht von einem automatischen Spracherkenner produziert wurden.In principle, however, the method according to the invention is equally suitable for texts that were not produced by an automatic speech recognizer.
Das Gebiet der multimedialen Datenverarbeitung hat in den letzten Jahren stark an Bedeutung gewonnen. Die Mengen an Aufnahmen, die zur Verarbeitung bereitstehen, hat nicht zuletzt Dank der sprunghaften Entwicklung in der Verarbeitungs- und Speicherkapazität enorm zugenommen. Immer mehr stellt sich aber das Problem, aus diesen riesigen Mengen an Daten die gewünschten und relevanten Informationen effizient zu extrahieren. Speziell im Bereich der Aufnahmen von Gerichtsverhandlungen, von Vorträgen oder von Konferenzen stellt die Extraktion relevanter Daten eine besondere Herausforderung dar. Dieser Herausforderung wird einerseits durch Automatisierung des Transkriptionsprozesses mittels automatischer Sprachverarbeitung begegnet, andererseits werden die Aufnahmen nach wie vor manuell transkribiert, da die Qualität automatischer Verfahren bislang nur in den wenigsten Fällen als ausreichend betrachtet wird. Die manuelle Transkription erlaubt ein verlässliches Auffinden von Information in textueller Form. Da beim manuellen Transkribieren aber in den seltensten Fällen annotiert wird, wann ein Wort oder ein Satz genau gesagt wurde, fehlt die zeitliche Verbindung vom Text zum multimedialen Medium. Man muss also, etwa um den exakten Wortlaut einer Zeugenaussage zu überprüfen oder um eine Aussage im Video ansehen zu können, sequentiell auf dem Medium suchen (unter Zuhilfenahme des Textes). Dies ist natürlich umständlich und bei längeren Passagen äußerst zeitaufwändig.The field of multimedia data processing has become increasingly important in recent years. The number of recordings available for processing has increased enormously, not least thanks to the rapid development in processing and storage capacity. However, there is an increasing problem of extracting the desired and relevant information efficiently from this huge amount of data. The extraction of relevant data poses a particular challenge, particularly in the area of recordings of court hearings, lectures or conferences. This challenge is met on the one hand by automating the transcription process using automatic language processing, and on the other hand the recordings are still manually transcribed because the quality is more automatic The procedure has so far only been considered sufficient in very few cases. Manual transcription allows information to be found reliably in textual form. However, since manual transcription rarely annotates exactly when a word or phrase was said, the temporal connection from text to text is missing multimedia medium. So, for example, to check the exact wording of a testimony or to be able to view a testimony in the video, you have to search sequentially on the medium (with the help of the text). Of course, this is cumbersome and extremely time-consuming for longer passages.
Zur Lösung dieses Problems wurden bereits Verfahren entwickelt, um eine exakte Verknüpfung zwischen den transkribierten Wörtern und dem multimedialen Medium herzustellen. Diese Verknüpfung erlaubt eine punktgenaue Verbindung zwischen Text und Audio (oder Video), was einen direkten Zugriff gestattet und langwieriges Suchen überflüssig macht.To solve this problem, methods have already been developed to create an exact link between the transcribed words and the multimedia medium. This link allows a precise connection between text and audio (or video), which allows direct access and makes tedious searching unnecessary.
Dabei wird die Zeitinformation des automatisch erkannten Textes (die jedem erkamiten Wort genau einen Zeitpunkt im zu Grunde liegenden Audio/Video zuweist) auf die manuell transkribierten Wörter übertragen. Dies erlaubt ein effizientes Auffinden der entsprechenden Audio- oder Videosequenzen ausgehend vom manuell transkribierten Text. Fig. 1 stellt den Gesamtprozess schematisch dar.The time information of the automatically recognized text (which assigns exactly one point in time to the underlying audio / video) is transferred to the manually transcribed words. This allows the corresponding audio or video sequences to be found efficiently, starting from the manually transcribed text. Fig. 1 shows the overall process schematically.
Die Transkription multimedialer Daten (bzw. der darin enthaltenen Audiodaten) stellt aber noch einen Technologie-Bereich dar, der sich im Moment an der Schwelle von der Forschung in den kommerziellen Sektor befindet. Bestehende Verfahren, wie etwa in EP 0 649 144 "Automatic indexing of audio using speech recognition", US 5,649,060 "Automatic indexing and aligning of audio and text using speech recognition" und US 6,076,059 "Method for aligning text with audio Signals" geoffenbart, zielen auf die Lösung des hier beschriebenen Problems ab. Allerdings sind diese Verfahren auf einzelnen Wörtern basiert, was sie anfälliger für schlechte Erkennungsraten der automatischen Spracherkennung macht. Den aus den zitierten Patentschriften bekannten Verfahren ist gemein, dass sie zudem auf der Erkennung und dem Finden identischer Wörter (im Kontext) basieren und diese gefundenen Paare als „Arikerpunkte" verwenden.However, the transcription of multimedia data (or the audio data contained in it) still represents a technology area that is currently on the threshold of research into the commercial sector. Existing methods, such as disclosed in EP 0 649 144 "Automatic indexing of audio using speech recognition", US 5,649,060 "Automatic indexing and aligning of audio and text using speech recognition" and US 6,076,059 "Method for aligning text with audio signals" on solving the problem described here. However, these methods are based on single words, which makes them more susceptible to poor recognition rates in automatic speech recognition. The methods known from the cited patent specifications have in common that they are also based on the recognition and finding of identical words (in context) and use these found pairs as “ariker points”.
Zum besseren Verständnis ist anzumerken, dass man in der Sprachverarbeitung unter der Bezeichnung des ,forced-alignmenf\ wie in US 6,076,059 verwendet, ein Verfahren versteht, das einen bereits bekannten Text mit einer Aufnahme in Einklang bringt (d.h. zwischen Text und Audio ein alignrnent herstellen soll). Dieses Verfahren ist allerdings mit einer Unzahl an Problemen behaftet: der transkribierte Text weist quasi niemals die dazu notwendige Genauigkeit in der Transkription auf. Besonders im Falle von überlagertenFor a better understanding, it should be noted that in language processing the term "forced-alignmenf" as used in US Pat. No. 6,076,059 is understood to mean a process which reconciles an already known text with a recording (ie, an alignrnent between text and audio should). However, this process is fraught with a myriad of problems: the transcribed text almost never has the necessary accuracy in the transcription. Especially in the case of superimposed ones
Störungen kommt es leicht zu Problemen mit dem Spracherkenner. Längere Stücke an Audio enthalten u.U. gar nicht das gesamte Transkript und auch die Länge der zu verwendenden Fenster kann schwer im voraus bestimmt werden. Es ist zu erwähnen, dass der Begriff „Fenster" im Zusammenhang mit „forced alignment" sich auf Fenster der Audio-Datei bezieht. Man nimmt z.B. die nächsten 20 Sekunden der Audio-Datei (d.h. ein Fenster der Länge 20s) die nächsten zehn noch nicht im Prozess verwendeten Wörter des manuellen Transkripts und lässt den Spracherkenner die Zuordnung dieser Wörter zum enthaltenen Audio feststellen.Malfunctions easily lead to problems with the speech recognizer. Longer pieces of audio may not contain the entire transcript and the length of the one to be used Windows can be difficult to determine in advance. It should be noted that the term "window" in connection with "forced alignment" refers to windows of the audio file. For example, the next 20 seconds of the audio file (ie a window of 20s in length), the next ten words of the manual transcript that have not yet been used in the process, and the speech recognizer can determine the assignment of these words to the audio contained.
Ziel der vorliegenden Erfindung ist es, mittels eines neuartigen Verfahrens eine automatische Übereinstimmung zwischen einem automatisch (vorzugsweise mittels automatischer Spracherkennung) produzierten Text bzw. Transkript und einem manuell erzeugten Text bzw. Transkript herzustellen, wobei das Verfahren wesentlich robuster gegenüber Fehlern und UnVollständigkeiten im automatisch erzeugten Text sein soll als die bekannten Verfahren. Weiters soll das erfindungsgemäße Verfahren den Aufwand in der Verarbeitung des automatisch erzeugten Textes wesentlich mindern.The aim of the present invention is to use an innovative method to establish an automatic match between an automatically (preferably by means of automatic speech recognition) produced text or transcript and a manually generated text or transcript, the method being much more robust against errors and incompleteness in the automatically generated Text is said to be the known method. Furthermore, the method according to the invention is intended to substantially reduce the effort in processing the automatically generated text.
Zur Lösung dieser Aufgabe sieht die Erfindung ein Verfahren zur automatischen Übereinstimmung zwischen einem automatisch erzeugten Text bzw. Transkript und einem manuell erzeugten Text bzw. Transkript vor, wie in Anspruch 1 definiert.To achieve this object, the invention provides a method for automatic correspondence between an automatically generated text or transcript and a manually generated text or transcript, as defined in claim 1.
Vorteilhafte Ausgestaltungen und Weiterbildungen dieses Verfahrens sind in den von Anspruch 1 abhängigen Ansprüchen definiert.Advantageous refinements and developments of this method are defined in the claims dependent on claim 1.
Anders als bei den bekannten Verfahren werden beim erfindungsgemäßen Verfahren nicht die einzelnen Wörter selbst, sondern ganze Text-Passagen, welche fensterartig (sliding Window) und überlappend über den gesamten Text verschoben werden, verwendet. Die Passagen werden dabei durch Eigenschaften der ihnen entsprechenden Wörter (ähnlich jenen, die auch auf dem Gebiet des „Information Retrieva zum Einsatz kommen) repräsentiert, wodurch Fehler der Spracherkennung kompensiert werden können. Das Resultat ist eine Zuordnung von Passagen und der darin enthaltenen Wörter des automatischen Transkripts mit jenen des manuellen Transkripts. Da erfindungsgemäß Passagen (Textfenster) als Einheit des Übereinstimmungsprozesses und auf den in diesen Passagen enthaltenen Wörtern definierte Eigenschaften verwendet werden, ist eine exakte Übereinstimmung von Wörtern nicht mehr erforderlich, und das Verfahren wird somit gegen Fehler der automatischen Texterstellung wesentlich robuster. Durch die erfindungsgemäße Verwendung eines auf Textpassagen basierenden Ansatzes anstelle des bekannten, auf einzelnen Worten basierendes Ansatzes wird auch der Aufwand der Verarbeitung erheblich gemindert.In contrast to the known methods, the method according to the invention does not use the individual words themselves, but rather entire text passages which are shifted in a window-like manner (sliding window) and overlap over the entire text. The passages are represented by properties of the words corresponding to them (similar to those that are also used in the field of “information retrieval”), which means that errors in speech recognition can be compensated for. The result is an association of passages and the words contained in the automatic transcript with those in the manual transcript. Since passages (text windows) are used according to the invention as a unit of the matching process and properties defined on the words contained in these passages, exact matching of words is no longer necessary, and the method thus becomes much more robust against errors in the automatic text creation. Through the use according to the invention of an approach based on text passages instead of the known approach based on individual words, the outlay on processing is also considerably reduced.
Im Gegensatz zu solchen Verfahren, welche auf dem Prinzip des , forced-alignment" basieren, ist es beim erfindungsgemäßen Ansatz nicht notwendig, den Text schon vor der eigentlichen Erkennung zur Verfügung zu haben. Weiters erfolgt die Spracherkennung ohne Zuhilfenahme des forced-alignment (und der damit verbundenen Probleme). Das vorliegende Verfahren beschränkt sich ausschließlich auf die Verwendung des durch den Spracherkemier erzeugten Textes und des manuell erzeugten Gegenstückes.In contrast to such methods, which are based on the principle of "forced alignment", in the approach according to the invention it is not necessary to have the text available before the actual recognition. Furthermore, speech recognition takes place without the aid of forced alignment (and of the problems associated therewith) The present method is restricted exclusively to the use of the text produced by the speech emitter and the manually generated counterpart.
Das vorliegende Verfahren erlaubt somit, eine beispielsweise durch einen automatischen Spracherkenner generierte Transkription (AT) mit einer manuellen Transkription (MT) derselben Audio- oder Videodatei automatisch und dynamisch in Einklang zu bringen (d.h. zwischen ihnen ein Alignment, eine Zuordnung herzustellen).The present method thus allows a transcription (AT) generated, for example, by an automatic speech recognizer to be automatically and dynamically reconciled with a manual transcription (MT) of the same audio or video file (i.e. an alignment, an association between them).
Im vorliegenden Verfahren produziert der automatische Spracherkenner ein automatisches Transkript, welches den in den eingegebenen Audiodaten vorkommenden Wörtern entspricht. Zusammen mit jedem Wort der Transkription wird auch ein Zeitstempel (Time- tag) des Wortes generiert. Dieser Zeitstempel gibt an, wann genau dieses Wort imIn the present method, the automatic speech recognizer produces an automatic transcript which corresponds to the words occurring in the audio data entered. A time stamp of the word is also generated with each word of the transcription. This timestamp indicates when exactly this word in the
Audiostrom erkannt wurde (relativ zum Begin der Datei). Die Audiodaten selbst können dabei von einer Vielfalt an Quellen kommen, so z.B. aus Videoaufnahmen oder Audio-Clips. Das manuelle Transkript wird typischerweise von einem Transkriptionisten erstellt, der eine Aufnahme oder ein Stenogramm als Referenz verwendet. Die Qualität der Transkription, und wie exakt diese das eigentliche Audio wiedergibt, variiert dabei sehr stark. Da bei der manuellen Transkription die Verständlichkeit im Vordergrund steht, und nicht eine möglichst exakte Tr- skription der Audiodaten geliefert werden soll, werden dabei außersprachliche Phänomene wie Räuspern, Husten, Atemgeräusche, Schmatzen der Lippen u.Ä., oder sprachliche Phänomene wie Stottern, Versprecher, Behebung von Fehlern und Mehrfachstarts einer Phrase (z.B. „ich ich ich möchte Sie ah Ihnen folgendes Angebot machen und ...") nicht berücksichtigt. Diese werden jedoch vom automatischen Spracherkenner erkannt und transkribiert (möglicherweise auch „falsch" erkannt und transkribiert). Sie stellen folglich ein Problem bei der Zuordnung der beiden Transkripte dar; ihre Berücksichtigung allerdings erlaubt eine genauere Zuordnung von Wörtern und deren Zeitstempel. Die Erfindung wird im Folgenden unter Bezugnahme auf die Zeichnungen näher erläutert, in denen Fig. 1 ein allgemeines Schema der Zuordnung von Text aus einem automatisch aus einer Audio- Aufzeichnung erzeugten Transkript zu Text aus einem manuell aus der Audio- Aufzeichnung generierten Transkript darstellt, Fig. 2 schematisch einen Überblick über das erfindungsgemäße Verfahren zeigt, Fig. 3 eine im erfindungsgemäßen Verfahren verwendete Auswertungs-Matrix zeigt, Fig. 4 einen bei der Durchführung des Verfahrens erstellten Worthäufigkeits-Vektor darstellt, Fig. 5 darstellt, wie der manuell erstellte Text Wort für Wort mit Zeitstempeln der automatisch erkannten Wörter versehen wird, und Fig. 6 die ersten Schritte des Ergebnisses des dynamischen Vergleichs in einem Ausfuhrungsbeispiel des erfindungsgemäßen Verfahrens zeigt.Audio stream was detected (relative to the beginning of the file). The audio data itself can come from a variety of sources, such as video recordings or audio clips. The manual transcript is typically created by a transcriptionist who uses a recording or stenogram as a reference. The quality of the transcription and how exactly it reproduces the actual audio varies greatly. Since the manual transcription focuses on intelligibility and should not provide the most accurate possible transcription of the audio data, non-linguistic phenomena such as clearing the throat, coughing, breathing noises, smacking the lips, etc., or linguistic phenomena such as stuttering, Slips, elimination of errors and multiple starts of a phrase (eg "I I want to make you the following offer and ...") are not taken into account. However, these are recognized and transcribed by the automatic speech recognizer (possibly also "wrong" recognized and transcribed) , They therefore pose a problem in the assignment of the two transcripts; however, taking them into account allows a more precise assignment of words and their time stamp. The invention is explained in more detail below with reference to the drawings, in which FIG. 1 shows a general scheme of the assignment of text from a transcript automatically generated from an audio recording to text from a transcript generated manually from the audio recording, FIG 2 schematically shows an overview of the method according to the invention, FIG. 3 shows an evaluation matrix used in the method according to the invention, FIG. 4 shows a word frequency vector created during the implementation of the method, FIG. 5 shows how the manually created text word for words with time stamps of the automatically recognized words, and FIG. 6 shows the first steps of the result of the dynamic comparison in an exemplary embodiment of the method according to the invention.
Das vorliegende Verfahren basiert auf der Unterteilung der beiden Texte in Passagen (Fenster), deren Länge durch einen Parameter, welcher angepasst werden kann, bestimmt ist. Jede Passage wird um einen anzugebenden Wert (an Worten) im Text nach hinten verschoben. Dies passiert in beiden Dateien gleich und überlappend, wobei jede Passage von AT mit jeder Passage von MT verglichen wird (siehe Fig. 2). Die Länge der Passagen muss dabei nicht gleich groß sein. Durch Variieren der Parameter und mehrfaches Erstellen einer Zuordnung kann diejenige Zuordnung, die die beste Gesamtbewertung erhielt, ausgewählt werden. Dies ist ein spezieller Fall des Verfahrens der dynamischen Programmierung auf Basis von Text-Passagen anstatt von Einzelworten. Die dynamische Programmierung stellt für sich ein allgemeines Programmierwerkzeug dar, das häufig zur Anwendung kommt, wenn der Suchraum eines Problems sich als Abfolge von Zuständen darstellen lässt. Die Zustände müssen dabei folgende Bedingungen erfüllen:The present method is based on the subdivision of the two texts into passages (windows), the length of which is determined by a parameter that can be adjusted. Each passage is shifted backwards by a specified value (in words) in the text. This happens in both files in the same way and overlapping, each passage of AT being compared with every passage of MT (see FIG. 2). The length of the passages need not be the same. By varying the parameters and creating an assignment several times, the assignment that received the best overall rating can be selected. This is a special case of the dynamic programming method based on text passages instead of single words. Dynamic programming in itself is a general programming tool that is often used when the search space of a problem can be represented as a sequence of states. The conditions must meet the following conditions:
- der Initialzustand enthält triviale Lösungen von Sub-Problemen- The initial state contains trivial solutions to sub-problems
- jede Teillösung eines späteren Zustandes kann aus einer eingeschränkten Anzahl an bereits errechneten Teillösungen eines früheren Zustandes ermittelt werden, der letzte Zustand enthält die Lösung des Gesamtproblems- Each partial solution of a later state can be determined from a limited number of already calculated partial solutions of an earlier state, the last state contains the solution to the overall problem
Diese Voraussetzungen sind in unserem Fall erfüllt: die beiden Sequenzen von Textpassagen stellen die Achsen einer Matrix dar (Fig. 3). Die Spalten der Matrix stellen dabei die Zustände dar, ein Matrix-Eintrag stellt eine Teillösung dar, welche nur aus den Teillösungen der vorhergehenden und derselben Spalte ermittelt wird (z.B. stellt der Eintrag amy die bestmögliche Anordnung von Sequenzen bis inklusive einer Übereinstimmung von Sequenz a; und Sequenz mj dar). Das letzte Elemente amnm enthält die Gesamtlösung des Problems. Durch Rückverfolgung des Pfades durch die Matrix ergibt sich dann die bestmögliche Zuordnung. In unserem Fall handelt es sich um einen Vergleich zweier Text-Passagen, der eine Bewertung über die Ähnlichkeit dieser Passagen liefert (welche wiederum Eingang in die dynamische Zuordnung findet). Dieser Vergleich wird unter Verwendung von Eigenschaften, die auf diesen Passagen definiert sind (wie sie z.B. im Bereich des „Information Retrieval" angewendet werden) durchgefiihrt. Die Passagen werden als Vektoren dieser Eigenschaften (definiert über den in der Passage enthaltenen Wörtern) dargestellt. In der bevorzugten Ausfuhrungsform wird dabei jeder Komponente des Vektors ein Wort und dessen Häufigkeit zugewiesen (Fig. 4).In our case, these requirements are met: the two sequences of text passages represent the axes of a matrix (FIG. 3). The columns of the matrix represent the states, a matrix entry represents a partial solution which is only determined from the partial solutions of the previous and the same column (for example, the entry amy represents the best possible arrangement of sequences up to and including a match of sequence a; and sequence m j ). The last element at nm contains the overall solution to the problem. By tracing the path back through the matrix, the best possible assignment is then obtained. In our case it is a comparison of two text passages, the provides an assessment of the similarity of these passages (which in turn finds its way into the dynamic assignment). This comparison is carried out using properties which are defined on these passages (such as are used, for example, in the area of "information retrieval"). The passages are represented as vectors of these properties (defined by the words contained in the passage) In the preferred embodiment, each component of the vector is assigned a word and its frequency (FIG. 4).
Die Verwendung dieser Darstellung erlaubt eine Reihe von Möglichkeiten der Repräsentation. So kann etwa auch die auf dem Gebiet des „Information Retrieval" bekannte TF-IDF (term frequency / inverse document frequency) verwendet werden, deren wesentlichste Begriffe im Folgenden zusammengefasst sind:The use of this representation allows a number of possibilities for representation. For example, the TF-IDF (term frequency / inverse document frequency) known in the field of "information retrieval" can be used, the most important terms of which are summarized below:
term frequency / inverse document frequency (tf/idf):term frequency / inverse document frequency (tf / idf):
term frequency: tf,j wie oft Wort w, in Dokument dj vorkommt document frequency: dfj Anzahl der Dokumente im Korpus in denen w; vorkommt collection frequency: cf. Gesamtanzahl der Vorkommen von Wj im gesamten Korpusterm frequency: tf, j how often word w occurs in document d j document frequency: dfj number of documents in the corpus in which w; occurs collection frequency: cf. total number of occurrences of Wj in the entire body
Üblicherweise werden diese Größen über Wörter und Dokumente in einem Korpus definiert. In unserem Fall kann man die Passagen (Fenster) als Dokumente und das Gesamtdokument als Korpus ansehen. Man kann aber auch das Gesamtdokument als Dokument ansehen und das Korpusmodell aus einem größeren Textkorpus erstellen. Man könnte diese beiden Ansätze auch miteinander kombinieren.These sizes are usually defined in a corpus using words and documents. In our case, the passages (windows) can be viewed as documents and the entire document as a corpus. But you can also view the entire document as a document and create the corpus model from a larger body of text. You could also combine these two approaches.
tf/idf sagt nur aus, dass die eigentliche Wortfrequenz (term frequency) und die Dokumentfrequenz (document frequency) miteinander kombiniert werden, um den Wert für ein bestimmtes Wort zu ermitteln. Es gibt zahlreiche Varianten, wie diese Werte miteinander kombiniert werden, z.B.tf / idf only says that the actual word frequency (term frequency) and the document frequency (document frequency) are combined to determine the value for a specific word. There are numerous variants of how these values are combined, e.g.
weight(ij) = (l+log(tfy))(log (N/dfj)) wobei N die Gesamtanzahl an Dokumenten ist.weight (ij) = (l + log (tfy)) (log (N / dfj)) where N is the total number of documents.
Weitere Möglichkeiten der Repräsentation sind Wortstämme (Lemmas) anstatt der Vollformen, es können auch lautliche Ähnlichkeit von Wörtern oder Stopwortlisten zum Ausnehmen bestimmter Wörter eingesetzt werden. Durch Anwendung normierter Vektoren (d.h. deren Länge 1 ist) kann der Vergleich zweier Vektoren als Bestimmung des Cosinus des Winkels zwischen ihnen betrachtet werden. Dies dient als Maß der Ähnlichkeit der Vektoren und somit der durch sie repräsentierten Textpassagen. Alternative Maße sind etwa der Abstand der Endpunkte der Vektoren oder die Anzahl der unterschiedlichen Dimensionen. Das Verfahren der dynamischen Programmierung liefert die bestmögliche Kette von Zuordnungen zwischen Passagen aus AT und Passagen aus MT (bestmöglich im Sinne einer Minimierung der Kosten des Zuordnungsprozesses, wobei identische Passagen einen Wert von 0 bekommen und unterschiedliche Passagen Werte zwischen 0 und 1, entsprechend ihrer Distanz, d.h. dem Winkel zwischen ihnen).Further possibilities of representation are word stems (lemmas) instead of full forms, it is also possible to use phonetic similarity of words or stop word lists to exclude certain words. By using normalized vectors (ie whose length is 1), the comparison of two vectors can be viewed as determining the cosine of the angle between them. This serves as a measure of the similarity of the Vectors and thus the text passages represented by them. Alternative dimensions are, for example, the distance between the end points of the vectors or the number of different dimensions. The dynamic programming method provides the best possible chain of assignments between passages from AT and passages from MT (best possible in the sense of minimizing the costs of the assignment process, whereby identical passages get a value of 0 and different passages values between 0 and 1, according to their distance , ie the angle between them).
Die möglichen Zuordnungen zweier Passagen sind dabei:The possible assignments of two passages are:
1) Passage aus AT wird Passage aus MT zugeordnet1) Passage from AT is assigned to passage from MT
2) Passage aus AT kann keiner Passage aus MT zugeordnet werden2) Passage from AT cannot be assigned to a passage from MT
3) Passage aus MT kann keiner Passage aus AT zugeordnet werden3) Passage from MT cannot be assigned to a passage from AT
Fall 2) wird in der Literator als „insertion error bezeichnet und entspricht einerCase 2) is called “insertion error” in the literator and corresponds to one
Textpassage, die vom automatischen Spracherkenner transkribiert wurde. Es ist an dieser Stelle in der Audiodatei also Sprache vorhanden, die allerdings nicht manuell transkribiert wurde (möglicherweise Stimmen und Audio während einer Verhandlungspause oder Zwischenrufe etc.), weil sie vom Transkriptionisten überhört wurden oder als unwichtig betrachtet wurden (was für einen menschlichen Leser/Hörer auch stimmen mag, jedoch für eine automatische Verarbeitung ein Problem darstellt.)Text passage that was transcribed by the automatic speech recognizer. There is speech in the audio file at this point, but it was not transcribed manually (possibly voices and audio during a break in negotiations or interruptions etc.) because the transcriptionist ignored them or considered them to be unimportant (what a human reader / Listener may be correct, but is a problem for automatic processing.)
Fall 3) wird als „deletion error" bezeichnet und entspricht einer manuell transkribierten Passage, die allerdings nicht vom automatischen Spracherkemier transkribiert wurde (z.B. Ergänzungen oder ungenaue manuelle Transkription.Case 3) is referred to as a "deletion error" and corresponds to a manually transcribed passage that was not, however, transcribed by the automatic speech operator (e.g. additions or inaccurate manual transcription.
Zuordnungen beiden Typs können vom gegenständlichen Verfahren berücksichtigt werden, „insertion errors" indem der „zusätzliche Text" anders dargestellt wird und „deletion errors", indem der nicht direkt zugeordnete Text an entsprechender Stelle eingefügt wird (siehe dazu auch die nachfolgende Beschreibung einer bevorzugten Ausfuhrungsform).Assignments of both types can be taken into account by the present method, "insertion errors" by displaying the "additional text" differently and "deletion errors" by inserting the not directly assigned text at the appropriate place (see also the following description of a preferred embodiment) ).
Der dynamische Zuordnungsprozess liefert zudem einen Gesamtwert, der die Gesamtqualität der Zuordnung beschreibt. Unterschreitet dieser Werte eine Schranke, so kann man die Zuordnung als nicht sinnvoll verwerfen. Stehen mehrere Zuordnungen zur Verfügung, so kann diej enige mit der besten Bewertung gewählt werden. Wird eine erfolgreiche (sinnvolle) Zuordnung von Passagen erstellt, dann kann dadurch eine direkte Beziehung der in diesen Passagen enthaltenen Wörter hergestellt werden. Dies erlaubt, den manuell erstellten Text Wort für Wort mit Zeitstempeln der automatisch erkannten Wörter zu versehen (Fig. 5). Dadurch ist es möglich, für jedes Wort die entsprechende Stelle in der zu Grunde liegenden Audio- bzw. Videodatei zu finden wodurch ein effizientes Auffinden von Audio ermöglicht wird. Die Genauigkeit dieses Vorgangs wird dabei durch die Länge des Fensters (d.h. der Passage), der Zuweisung im Fenster aufgetretener Wörter und Interpolation zwischen den Fenstern bestimmt.The dynamic assignment process also provides an overall value that describes the overall quality of the assignment. If these values fall below a limit, the assignment can be rejected as not meaningful. If several assignments are available, the one with the best rating can be selected. If a successful (meaningful) assignment of passages is created, then a direct relationship of the words contained in these passages can be established. This allows the manually created text to be provided word by word with time stamps of the automatically recognized words (FIG. 5). This makes it possible to find the appropriate position for each word in the underlying audio or video file, which enables audio to be found efficiently. The accuracy of this process is determined by the length of the window (ie the passage), the assignment of words that have occurred in the window and interpolation between the windows.
Im folgenden Beispiel einer derzeit bevorzugten Ausfuhrungsform des erfindungsgemäßen Verfahrens wird ein automatisch erzeugtes Transkript (AT), welches durch einen automatischen Spracherkenner erzeugt wird, mit einem manuell erstellten Transkript (MT) derselben Audiodatei verglichen und die darin enthaltenen Textpassagen und Wörter miteinander in Einklang gebracht.In the following example of a currently preferred embodiment of the method according to the invention, an automatically generated transcript (AT), which is generated by an automatic speech recognizer, is compared with a manually created transcript (MT) of the same audio file and the text passages and words contained therein are brought into harmony with one another.
Die beiden Textdateien werden dazu in Textpassagen gleicher Länge unterteilt. Diese werden pro Vergleichsschritt um eine vorgegebene Zahl an Worten nach hinten verschoben, und zwar so, dass einander angrenzende Passagen sich um eine vorgegebene Zahl an Worten überlappen. Diese beiden Werte sind frei wählbar und können dem konkreten Text angepasst werden (z.B. kann Wissen um die Beschaffenheit der automatischen und/oder manuellen Transkription oder deren Qualität einfließen).For this purpose, the two text files are divided into text passages of the same length. For each comparison step, these are shifted backwards by a predetermined number of words, in such a way that adjacent passages overlap by a predetermined number of words. These two values are freely selectable and can be adapted to the specific text (e.g. knowledge of the nature of the automatic and / or manual transcription or its quality can be incorporated).
Mittels des Verfahrens der dynamischen Programmierung werden alle Passagen miteinander verglichen. Als Metrik in diesem Vergleich dient der Cosinus des Winkels (der Abstand) zwischen den die jeweiligen Textpassagen repräsentierenden Vektoren. Diese Vektoren werden aus den in der Passage enthaltenen Wörtern erzeugt. In der bevorzugten Ausführungsform werden hierfür die Wörter selbst verwendet, wobei jedes Wort und seine Häufigkeit eine Komponente des Vektors darstellt. Das gegenständliche Verfahren ist jedoch keineswegs auf diese Darstellung der Vektoren beschränkt, sondern eignet sich gleichwertig für andere Darstellungen. So können etwa auch TF/IDF oder auf lautlicher Ähnlichkeit oder auf anderen Eigenschaften beruhende Verfahren, wie etwa die Grundform eines Wortes oder seine phonetische Repräsentation verwendet werden. Gleichfalls können Wörter zu Komposita zusammengesetzt oder Komposita in ihre Bestandteile zerlegt werden. Das Resultat dieses Prozesses ist eine Zuordnung von Passagen aus den beiden Eingangstexten. Diese Zuordnung wird in einem nächsten Schritt nun zur Zuordnung auf Wortbasis verwendet. Vom letzten zugeordneten Paar von Textpassagen (die dem Ende der beiden Eingabedateien entsprechen) ausgehend wird folgendes Verfahren angewendet: - entspricht die Passage aus MT jener aus AT, dann wird jedem Wort aus MT der Zeitstempel des entsprechenden Wortes aus AT zugewiesen;All passages are compared using the dynamic programming method. The metric used in this comparison is the cosine of the angle (the distance) between the vectors representing the respective text passages. These vectors are generated from the words contained in the passage. In the preferred embodiment, the words themselves are used for this, each word and its frequency representing a component of the vector. However, the method in question is in no way limited to this representation of the vectors, but is equally suitable for other representations. For example, TF / IDF or methods based on phonetic similarity or other properties, such as the basic form of a word or its phonetic representation, can also be used. Likewise, words can be put together into composites or composites can be broken down into their components. The result of this process is an assignment of passages from the two input texts. In a next step, this assignment is now used for assignment on a word basis. Starting from the last assigned pair of text passages (which correspond to the end of the two input files), the following procedure is used: - If the passage from MT corresponds to that from AT, then each word from MT is assigned the time stamp of the corresponding word from AT;
- ist die Passage aus AT eine „insertion" Passage, d.h. entspricht sie vom automatischen Spracherkenner erkannten Text, welchem keine Passage in MT entspricht, so wird dieser Text verworfen;- if the passage from AT is an "insertion" passage, i.e. if it corresponds to text recognized by the automatic speech recognizer, to which no passage in MT corresponds, this text is rejected;
- ist die Passage aus MT eine „deletion" Passage, d.h. entspricht ihr keine Passage in AT, dann werden die Wörter aus MT vor dem zuletzt belegten Zeitstempel entsprechend der Beschaffenheit ihrer Wörter (z.B. der Länge in Phonemen), eingefügt. Dazu werden Zeitstempel künstlich generiert, die in dem entsprechenden Zeitintervall liegen.- If the passage from MT is a "deletion" passage, ie if no passage in AT corresponds to it, then the words from MT are inserted before the last time stamp according to the nature of their words (eg the length in phonemes). For this purpose, time stamps are artificial generated that lie in the corresponding time interval.
- Wörter, die im Bereich der Überlappung zweier benachbarter Passagen liegen, werden gesondert behandelt. Es werden dabei die Zeitstempel derjenigen Passage verwendet, die den besseren Vergleichswert besitzt (d.h. den kleineren Wert der Distanz). Korrekte miteinander in Einklang gebrachte Passagen (mit Abstand 0) werden so immer bevorzugt behandelt.- Words that are in the area of the overlap of two neighboring passages are treated separately. The time stamp of the passage that has the better comparison value (i.e. the smaller value of the distance) is used. Correctly harmonized passages (with a distance of 0) are always treated preferentially.
Die obigen Schritte werden so lange angewendet, bis die erste Passage in jedem der beiden Eingabedateien erreicht ist. Zu diesem Zeitpunkt wurde allen Wörtern in allen Passagen der MT jeweils ein Zeitstempel zugeordnet. Dieser wird nun gemeinsam mit dem Wort ausgegeben und kann in der Suche nach dem Wort, bzw. der Lokalisierung des Wortes in der Mediadatei direkt und effizient verwendet werden.The above steps are applied until the first passage in each of the two input files is reached. At this point, a time stamp was assigned to all words in all passages of the MT. This is now output together with the word and can be used directly and efficiently in the search for the word or the localization of the word in the media file.
Wir wollen diese Schritte nun anhand eines konkreten Beispiels betrachten.We now want to consider these steps using a concrete example.
Als manuell transkribierter Text soll folgendes Beispiel dienen:The following example should serve as a manually transcribed text:
„der automatische Spracherkenner produziert dabei ein automatisches Transkript welches den in den Eingabedaten vorkommenden Wörtern entspricht ""The automatic speech recognizer produces an automatic transcript which corresponds to the words occurring in the input data"
Dieser Text entspricht der von einem menschlichen Transkriptionisten erstellten Version (MT).This text corresponds to the version (MT) created by a human transcriptionist.
Derselbe Text in der vom Spracherkemier ausgegebenen Fassung (AT) könnte beispielsweise folgendermaßen lauten:The same text, as issued by the Spracherkemier (AT), could read, for example:
<time start="00000011 " end="00000045">lauter</time> <time start="00000046" end="00000084">Bitte</time> <time start="00000085" end="00000101 ">eine</time> <time start= "00000102" end- = "00000212 ">automatische</time> <time start= "00000213" end- = "00000253 ">Sprache</time> <time start= "00000254" end- ="00000281 ">erkennen</time> <time start= "00000282" end- = "00000325 ">produziert</time> <time tart - "00000326" end- -- "00000370 ">dabei</time> <time start= "00000371 " end- = "00000387 ">eine</time> <time tart - "00000388" end-- -- "00000410 ">[AHM]</time> <time start= "00000411 " end-- -- "00000458 "> Transbipt</time> <time start= "00000459" end-- = "00000607 ">welches</time> <time start= "00000608" end- -- " 0000747 ">den</time> <time start= "00000748" end-- --"00000772 ">in</time> <time start= "00000773" end-- -- "00000797">den</time> <time start — "00000798" end-- -- "00000825 ">Eingabe</time> <time start= "00000826" end-- -- "00000925 ">Dateien</time> <time start= "00000926" end- -- "00000962 ">vor</time> <time start= "00000963 " end-- -- "00001053 ">kommen</time> <time start= "00001054" end-- -- "00001074 ">den</time> <time start- "00001075" end= -- "00001096"> Wörtern</time> <time start= "00001097" end-- -- "00001160 ">Ende</time> <time start= "00001831" end= -- "00001995 ">spricht</time><time start = "00000011" end = "00000045"> louder </time><time start = "00000046" end = "00000084"> please </time><time start = "00000085" end = "00000101"> one </ time> <time start = "00000102" end- = "00000212"> automatic </time><time start = "00000213" end- = "00000253"> language </time><time start = "00000254" end- = "00000281 "> recognize </time><time start =" 00000282 "end- =" 00000325 "> produces </time><time tart -" 00000326 "end- -" 00000370 "> thereby </time><time start = "00000371" end- = "00000387"> a </time><time tart - "00000388" end-- - "00000410"> [AHM] </time><time start = "00000411" end-- - "00000458"> Transbipt </time><time start = "00000459" end-- = "00000607"> which </time><time start = "00000608" end- - "0000747"> the </time>< time start = "00000748" end-- - "00000772"> in </time><time start = "00000773" end-- - "00000797"> the </time><time start - "00000798" end- - - "00000825"> Entry </time><time start = "00000826" end-- - "00000925"> Files </time><time start = "00000926" end- - "00000962"> before < / time><time start = "00000963" end-- - "00001053"> coming </time><time start = "00001054" end-- - "00001074"> den </time><time st art- "00001075" end = - "00001096"> words </time><time start = "00001097" end-- - "00001160"> end </time><time start = "00001831" end = - "00001995"> speaks </time>
Zusammen mit jedem Wort ist der jeweilige Zeitstempel angegeben, d.h. der Zeitpunkt relativ zum Begin der Audioeingabedaten (in 1/100 s), an dem der Spracherkenner das jeweilige Wort erkannte. Im obigen Beispiel wurde einmal ein Zögern im Audiostrom erkannt ([AHM]) Möglicherweise hat der Sprecher an dieser Position mit dem Fortsetzen des Satzes tatsächlich gezögert. Die beiden ersten Wörter der Passage könnten zum Beispiel von einem Zwischenruf stammen, den der Spracherkenner transkribierte, den jedoch der menschliche Transkriptionist nicht berücksichtigte.The respective time stamp is given with each word, i.e. the time relative to the start of the audio input data (in 1/100 s) at which the speech recognizer recognized the respective word. In the example above, a hesitation in the audio stream was once recognized ([AHM]). The speaker at this position may have actually hesitated to continue the sentence. For example, the first two words of the passage could come from an interjection that the speech recognizer transcribed, but which the human transcriptionist did not consider.
Der Vergleich dieser beiden Texte (MT und AT) wird nun mittels einander überlappender Fenster durchgeführt. Im gegenständlichen Beispiel handelt es sich um Fenster der Länge 4 (Wörter), die jeweils um 2 Wörter nach hinten verschoben werden. Alle Fenster aus AT werden mit allen Fenstern aus MT verglichen. Dabei wird die durch die Text-Passagen definierte Matrix Schritt für Scliritt, von links nach rechts (d.h. in der Zeit fortschreitend) und oben nach unten ausgefüllt. Jedes Matrix-Element entspricht dem bis zu ihm besten (kostengünstigsten) Pfad. Diese Schritte werden weiter durchgeführt, bis alle Passagen miteinander verglichen wurden und damit alle Elemente der Matrix einen Wert zugewiesen bekommen haben. Anschliessend wird, ausgehend vom kostengünstigsten Element der letzten Spalte der Weg, welcher zu diesem Element führte verfolgt (back-tracking), wodurch sich die eindeutige Sequenz von Aktionen und Zuweisungen zwischen Passagen ergibt.The comparison of these two texts (MT and AT) is now carried out using overlapping windows. In the example at hand there are windows with a length of 4 (words), which are shifted backwards by 2 words. All windows from AT are compared with all windows from MT. The matrix defined by the text passages is filled in step by step, from left to right (progressing in time) and from top to bottom. Each matrix element corresponds to the best (least expensive) path up to it. These steps continue until all passages were compared with each other and thus all elements of the matrix were assigned a value. Then, starting from the least expensive element in the last column, the path leading to this element is tracked (back-tracking), which results in the clear sequence of actions and assignments between passages.
Fig. 6 zeigt die ersten Schritte des Ergebnis des dynamischen Vergleichs. Das erste Fenster in AT wurde als „insertion" ausgewiesen, d.h. als zwar erkannter, jedoch nicht dem manuell transkribierten Text entsprechender Text. Das zweite Fenster in AT wurde dem ersten Fenster aus MT zugewiesen, wodurch sich die Übertragung der dazugehörigen Zeitstempel im Resultat ergibt. Die weiteren Fenster wurden einander gemäß den in diesem Verfahren dargestellten Regeln zugewiesen.6 shows the first steps of the result of the dynamic comparison. The first window in AT was shown as "insertion", ie as recognized but not corresponding to the manually transcribed text. The second window in AT was assigned to the first window from MT, which results in the transmission of the associated time stamps in the result. The other windows were assigned to each other according to the rules shown in this procedure.
Das Resultat des Verfahrens ist eine Zuweisung der Wörter aus MT zu den Zeitstempeln der Wörter aus AT entsprechend der einander zugewiesenen Fenster (siehe obige Abbildung)The result of the method is an assignment of the words from MT to the time stamps of the words from AT according to the windows assigned to each other (see figure above)
<time start="00000085" end="00000101 ">der</time><time start = "00000085" end = "00000101"> the </time>
<time start= "00000102 " end= "00000212 ">automatische</time><time start = "00000102" end = "00000212"> automatic </time>
<time start= "00000213 " end= "00000253 ">Spracherkenner</time> <time start= "00000254 " end= "00000281 ">produziert</time><time start = "00000213" end = "00000253"> Speech Recognizer </time> <time start = "00000254" end = "00000281"> produces </time>
<time start="00000282" end="00000325">dabei</time><time start = "00000282" end = "00000325"> doing it </time>
<time start=" 00000326" end="00000370">ein</time><time start = "00000326" end = "00000370"> on </time>
<time start- '00000371 " end=" 00000387 ">automatisches</time><time start- '00000371 "end =" 00000387 "> automatic </time>
<time start="00000388" end="00000410">Transkript</time> <time start= "00000411 " end= "00000458 ">welches</time><time start = "00000388" end = "00000410"> transcript </time> <time start = "00000411" end = "00000458"> which </time>
<time start="00000459" end=" 00000607 ">den</time><time start = "00000459" end = "00000607"> the </time>
<time start=" 00000608" end="00000747">in</time><time start = "00000608" end = "00000747"> in </time>
<time start="00000748" end="00000772">den</time><time start = "00000748" end = "00000772"> the </time>
<time start= "00000963 " end= "00001053 ">Eingabedaten</time> <time start="00001054" end=" 00001074">vorkommenden</time><time start = "00000963" end = "00001053"> input data </time> <time start = "00001054" end = "00001074"> occurring </time>
<time start="00001097" end="00001160">Wörtern</time><time start = "00001097" end = "00001160"> words </time>
<time start="00001831 " end="00001995">entsρricht</time> <time start = "00001831" end = "00001995"> meets </time>

Claims

Ansprüche: Expectations:
1. Verfahren zur automatischen Übereinstimmung von in einer Audioaufnahme enthaltenen Audio-Segmenten mit Textelementen in einem manuell aus der Audioaufnahme erzeugten Transkript (MT), wobei zunächst aus der Audio-Aufnahme, vorzugsweise durch einen automatischen Spracherkemier, ein automatisches Transkript (AT) erstellt wird, das die zu Textelementen geformten Audiosegmente zusammen mit einem Zeitbezug, an welcher Stelle in der Audio- Aufnahme sich das jeweilige automatisch erstellte Textelement befindet, enthält, dadurch gekennzeichnet, dass das Verfahren folgende weitere Schritte umfasst:1. A method for the automatic matching of audio segments contained in an audio recording with text elements in a transcript (MT) generated manually from the audio recording, an automatic transcript (AT) being initially created from the audio recording, preferably by an automatic speech recorder , which contains the audio segments formed into text elements together with a time reference, at which point in the audio recording the respective automatically created text element is located, characterized in that the method comprises the following further steps:
das Unterteilen des automatischen Transkripts (AT) und des manuellen Transkripts (MT) in Passagen (atj, mtj) definierter, aber nicht notwendigerweise gleicher Länge, die jeweils mehrere Textelemente umfassen,dividing the automatic transcript (AT) and the manual transcript (MT) into passages (atj, mtj) of defined but not necessarily the same length, each comprising several text elements,
das Verschieben jeder Passage um einen anzugebenden Wert an Textelementen im automatischen Transkript (AT) und im manuellen Transkript (MT) über das gesamte automatische und manuelle Transkript, wobei jede Passage sich mit der vorhergehenden Passage überlappt, und Ermitteln einer bestimmten Passagen-Eigenschaft für jede Passage,shifting each passage by a specified value of text elements in the automatic transcript (AT) and in the manual transcript (MT) over the entire automatic and manual transcript, each passage overlapping with the previous passage, and determining a specific passage property for each Passage,
das Vergleichen der Passagen-Eigenschaft jeder Passage (atj) im automatischen Transkript (AT) mit jeder Passage (mtj) im manuellen Transkript (MT),comparing the passage property of each passage (atj) in the automatic transcript (AT) with each passage (mt j ) in the manual transcript (MT),
das Zuordnen einer jeweiligen Passage im automatischen Transkript (AT) zu jener Passage im manuellen Transkript (MT), so dass sich über die Summe der Passagenvergleiche gesehen der optimale Pfad an Zuordnungen ergibt.the assignment of a respective passage in the automatic transcript (AT) to that passage in the manual transcript (MT), so that the optimal path of assignments results from the sum of the passage comparisons.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Textelement ein oder mehrere Wörter oder Bestandteile von Wörtern oder Wortstämmen umfasst.2. The method according to claim 1, characterized in that a text element comprises one or more words or components of words or stem words.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Passagen- Eigenschaft die Häufigkeit des Auftretens der in der Passage enthaltenen Textelemente, oder lautlich ähnlicher Einheiten ist. 3. The method according to claim 1 or 2, characterized in that the passage property is the frequency of the occurrence of the text elements contained in the passage, or units similar in sound.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Passagen- Eigenschaft die term frequency / inverse document frequency (TF-IDF) ist.4. The method according to claim 1 or 2, characterized in that the passage property is the term frequency / inverse document frequency (TF-IDF).
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Ermittlung der Passagen-Eigenschaft Stopwortlisten zum Ausnehmen bestimmter Wörter verwendet werden.5. The method according to any one of the preceding claims, characterized in that stop word lists are used to determine certain words to determine the passage property.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Passagen-Eigenschaft durch einen Vektor, vorzugsweise einen normierten Vektor mit einer Einheitslänge, dargestellt wird, und vorzugsweise der Vergleich von Passagen-Eigenschaften zweier Passagen anhand des von den Vektoren gebildeten Winkels oder des Abstandes der Spitzen der Vektoren voneinander oder der Anzahl der unterschiedlichen Dimensionen der Vektoren oder einer Funktion der obigen Maßzahlen erfolgt.6. The method according to any one of the preceding claims, characterized in that the passage property is represented by a vector, preferably a normalized vector with a unit length, and preferably the comparison of passage properties of two passages on the basis of the angle or formed by the vectors the distance of the peaks of the vectors from one another or the number of different dimensions of the vectors or a function of the above measures.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Länge der Passagen und/oder die Weite ihrer Verschiebung in mehreren Durchläufen des Verfahrens variiert werden und in jedem Durchlauf die Passagen-Eigenschaft ermittelt, verglichen und einer jeweiligen Passage im automatischen Transkript (AT) jene Passage im manuellen Transkript (MT) zugeordnet wird, so dass sich über die Summe der Passagenvergleiche gesehen der optimale Pfad an Zuordnungen ergibt, wobei als endgültige Zuordnung jene ausgewählt wird, die für alle Passagen die beste Gesamtbewertung erzielt.7. The method according to any one of the preceding claims, characterized in that the length of the passages and / or the width of their displacement are varied in several runs of the method and in each run the passage property is determined, compared and a respective passage in the automatic transcript ( AT) that passage is assigned in the manual transcript (MT), so that the optimal path of assignments results from the sum of the passage comparisons, the final assignment being selected as the one that achieves the best overall rating for all passages.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Zuordnung durch die Mittel der dynamischen Programmierung getroffen wird. 8. The method according to any one of the preceding claims, characterized in that the assignment is made by the means of dynamic programming.
PCT/AT2003/000356 2002-11-28 2003-11-28 Method for automatically matching audio segments with text elements WO2004049307A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2003285972A AU2003285972A1 (en) 2002-11-28 2003-11-28 Method for automatically matching audio segments with text elements

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
ATGM805/2002 2002-11-28
AT0080502U AT6921U1 (en) 2002-11-28 2002-11-28 METHOD FOR AUTOMATICALLY MATCHING AUDIO SEGMENTS WITH TEXT ELEMENTS

Publications (2)

Publication Number Publication Date
WO2004049307A1 true WO2004049307A1 (en) 2004-06-10
WO2004049307A8 WO2004049307A8 (en) 2005-06-02

Family

ID=32046330

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/AT2003/000356 WO2004049307A1 (en) 2002-11-28 2003-11-28 Method for automatically matching audio segments with text elements

Country Status (3)

Country Link
AT (1) AT6921U1 (en)
AU (1) AU2003285972A1 (en)
WO (1) WO2004049307A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467342B2 (en) 2014-11-28 2019-11-05 Huawei Technologies Co., Ltd. Method and apparatus for determining semantic matching degree

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014203818A1 (en) * 2014-03-03 2015-09-03 Sennheiser Electronic Gmbh & Co. Kg Method and device for converting speech signals into text

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0649144A1 (en) * 1993-10-18 1995-04-19 International Business Machines Corporation Automatic indexing of audio using speech recognition
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0649144A1 (en) * 1993-10-18 1995-04-19 International Business Machines Corporation Automatic indexing of audio using speech recognition
US6076059A (en) * 1997-08-29 2000-06-13 Digital Equipment Corporation Method for aligning text with audio signals

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BANKO ET AL.: "Generating Extraction-Based Summaries from Hand-Written Summaries by Aligning Text Spans", PROCEEDINGS OF PACLING-99, 1999, Waterloo, Ontario, XP002268814 *
KASZKIEL M ET AL: "Effective ranking with arbitrary passages", JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 15 FEB. 2001, WILEY FOR ASIS, USA, vol. 52, no. 4, pages 344 - 364, XP002268816, ISSN: 1532-2882 *
OWEN C B ET AL: "Parallel text alignment", INTERNATIONAL JOURNAL ON DIGITAL LIBRARIES, JULY 2000, SPRINGER-VERLAG, GERMANY, vol. 3, no. 1, pages 100 - 114, XP002268815, ISSN: 1432-5012 *
TOMAS ET AL.: "Automatic Development of Spanish-Catalan Corpora for Machine Translation", PROCEEDINGS OF THE SECOND INTERNATIONAL WORKSHOP ON SPANISH LANGUAGE PROCESSING AND LANGUAGE TECHNOLOGIES, 2001, Jaen, Spain, pages 175 - 179, XP002268813 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467342B2 (en) 2014-11-28 2019-11-05 Huawei Technologies Co., Ltd. Method and apparatus for determining semantic matching degree
US11138385B2 (en) 2014-11-28 2021-10-05 Huawei Technologies Co., Ltd. Method and apparatus for determining semantic matching degree

Also Published As

Publication number Publication date
AT6921U1 (en) 2004-05-25
WO2004049307A8 (en) 2005-06-02
AU2003285972A1 (en) 2004-06-18

Similar Documents

Publication Publication Date Title
DE69818930T2 (en) Method for aligning text to audio signals
AT390685B (en) TEXT PROCESSING SYSTEM
DE60222093T2 (en) METHOD, MODULE, DEVICE AND VOICE RECOGNITION SERVER
DE69622565T2 (en) METHOD AND DEVICE FOR DYNAMICALLY ADJUSTING A LARGE VOCABULARY LANGUAGE IDENTIFICATION SYSTEM AND USING RESTRICTIONS FROM A DATABASE IN A VOICE LABELING LANGUAGE IDENTIFICATION SYSTEM
DE60211197T2 (en) METHOD AND DEVICE FOR THE CONVERSION OF SPANISHED TEXTS AND CORRECTION OF THE KNOWN TEXTS
DE602004012909T2 (en) A method and apparatus for modeling a speech recognition system and estimating a word error rate based on a text
DE10040214A1 (en) Intelligent correction of dictated speech entered into a computer system uses comparison with word lists
DE69625950T2 (en) Method and device for speech recognition and translation system
DE602005000308T2 (en) Device for voice-controlled applications
DE19847419A1 (en) Procedure for the automatic recognition of a spoken utterance
WO2005013261A1 (en) Speech recognition method, and communication device
DE10031008A1 (en) Procedure for assembling sentences for speech output
DE19942178C1 (en) Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association
DE112006000322T5 (en) Audio recognition system for generating response audio using extracted audio data
EP1058235B1 (en) Reproduction method for voice controlled systems with text based speech synthesis
EP1264301A1 (en) Method for recognition of verbal utterances by a non-mother tongue speaker in a speech processing system
DE69425874T2 (en) Method and arrangement for the automatic extraction of prosodic information
EP1282897B1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
DE102014200570A1 (en) Method and system for generating a control command
WO2005098827A1 (en) Method for noise reduction in a speech input signal
WO2004049307A1 (en) Method for automatically matching audio segments with text elements
DE10311581A1 (en) Process and system for the automated creation of vocabulary
EP2034472A1 (en) Speech recognition method and device
EP1125278A1 (en) Data processing system or communications terminal with a device for recognising speech and method for recognising certain acoustic objects
DE10229207B3 (en) Process for natural speech recognition based on a generative transformation / phrase structure grammar

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
CFP Corrected version of a pamphlet front page
CR1 Correction of entry in section i

Free format text: IN PCT GAZETTE 24/2004 UNDER (71) REPLACE "APPLICANT FOR US ONLY" BY "APPLICANT FOR ALL DESIGNATED STATES EXCEPT US"

122 Ep: pct application non-entry in european phase
NENP Non-entry into the national phase

Ref country code: JP

WWW Wipo information: withdrawn in national office

Country of ref document: JP