Nothing Special   »   [go: up one dir, main page]

h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Automatic sign language recognition : from video corpora to gloss sentences = Automatische Gebärdenspracherkennung: Von Videokorpora zu Glossensätzen



Verantwortlichkeitsangabevorgelegt von Dipl.-Inform. Jens Forster

ImpressumAachen 2020

Umfang1 Online-Ressource (xiii, 155 Seiten) : Illustrationen, Diagramme


Dissertation, RWTH Aachen University, 2020

Englische und deutsche Zusammenfassung. - Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2020-07-21

Online
DOI: 10.18154/RWTH-2020-08775
URL: https://publications.rwth-aachen.de/record/796101/files/796101.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Maschinelles Lernen) (122010)
  2. Fachgruppe Informatik (120000)

Projekte

  1. SIGNSPEAK - SCIENTIFIC UNDERSTANDING AND VISION-BASED TECHNOLOGICAL DEVELOPMENT FOR CONTINUOUS SIGN LANGUAGE RECOGNITION AND TRANSLATION (231424) (231424)

Inhaltliche Beschreibung (Schlagwörter)
hidden markov model (frei) ; large vocabulary (frei) ; modality combination (frei) ; sign language (frei) ; statistical recognition from video (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Doktorarbeit untersuchen wir kontinuierliche, automatische Gebärdenspracherkennung (AGSE) mit großem Vokabular auf monokularen Videosequenzen mittels Hidden Markov Modellen (HMM) und statistischer n-gram Sprachmodelle. Gaußsche Mischverteilungen dienen als Emissionsverteilungen der einzelnen Zustände des HMMs. Wir erweitern den aktuellen Stand der Technik, indem wir kontinuierliche Gebärdensprache anstelle von isolierten Gebärden betrachten sowie Merkmale und Objektpositionen direkt aus Videos mittels Objektverfolgung extrahieren. Im ersten Teil dieser Arbeit entwickeln wir Best Practice Empfehlungen für die Erstellung neuer Gebärdensprachkorpora und führen den monokularen Video Korpus RWTH-PHOENIX-Weather ein, welcher im Rahmen dieser Arbeit erstellt wurde. RWTH-PHOENIX-Weather beinhaltet kontinuierliche Gebärdensprache und wurde in Glossennotation annotiert. Im zweiten Teil dieser Arbeit konzentrieren wir uns auf die automatische Verfolgung der Hände und des Gesichtes eines Sprechers in Videosequenzen. Wir erweitern ein bestehendes modellfreies Objektverfolgungssystem, welches auf dem Verfahren der dynamischen Programmierung beruht, um Verfahren des räumlichen Pruning und der Objektverfolgung mittels mehrerer Durchgänge. Beide Verfahren berücksichtigen die kinematischen Einschränkungen des menschlichen Körpers. Die experimentelle Evaluierung beider Verfahren erfolgt auf mehr als 140.000 Videobildern, die im Rahmen dieser Arbeit in Hinblick auf die Position der Hände und des Gesichtes annotiert wurden. Mehr als 50.000 dieser annotierten Bilder sind Teil des RWTH-PHOENIX-Weather Korpus. Im dritten und längsten Teil dieser Doktorarbeit konzentrieren wir uns auf AGSE. Wir präsentieren umfangreiche, experimentelle Analysen von Standardmerkmalen der Computer Vision, wie etwa scale invariant feature transformation (SIFT) und histogram of oriented gradients (HOG), im Kontext von AGSE. Weiterhin untersuchen wir Einflussfaktoren wie Fehlerfortpflanzung aus der Objektverfolgung, die Verwendung von zeitlichem Kontext, der Qualität des Bild-Zustand Alignments der HMMs und des Einflusses des statistischen Sprachmodells. Methoden zur Verbesserung der Alignmentqualität durch Gebärdenlängenmodellierung und die Modellierung von nicht Gebärden werden diskutiert. Wir zeigen, dass diese Techniken Erkennungsergebnisse für einen einzelnen Sprecher verbessern. Sich der multimodalen Grundnatur der Gebärdensprachen zuwendend, untersuchen wir Techniken zur Kombination unterschiedlicher Sprachmodalitäten während des Erkennungsprozesses. Hierbei stellen wir fest, dass synchrone und asynchrone Modalitätskombination ohne erneutes Training des Systems die Erkennungsergebnisse für einen einzelnen Sprecher und multiple Sprecher verbessert. Weiterhin untersuchen wir, welche der vorgeschlagenen Techniken von der Erkennung für einen einzelnen Sprecher zur Erkennung für multiple Sprecher generalisieren. Alle, in dieser Arbeit untersuchten, Modellierungs- und Erkennungstechniken werden auf öffentlich zugänglichen Gebärdensprachkorpora in kontinuierlicher deutscher Gebärdensprache oder dem RWTH-PHOENIX-Weather Korpus evaluiert. In allen Fällen werden gute Ergebnisse erzielt, die in einigen F ̈allen die besten veröffentlichten Ergebnisse deutlich übertreffen.

This PhD thesis investigates large vocabulary, continuous automatic sign language recognition (ASLR) from single view video using hidden Markov models (HMMs) with Gaussian mixture models (GMMs) as state emission functions and n-gram, statistical language models. We go beyond the state-of-the-art by investigating continuous sign language instead of isolated signs and extract features and object locations from video via object tracking foregoing invasive data acquisition methods such as bulky cyber gloves. Overall, we make contributions in three major areas. In the first part of this thesis, we develop best practices for sign language corpus creation and introduce the large vocabulary, single view, continuous sign language corpus RWTH-PHOENIX-Weather which has been created in the context of this work. RWTH-PHOENIX-Weather is annotated in gloss notation and features several subsets usable for object tracking, single signer as well as multi signer recognition. The second part of this thesis focuses on object tracking of the signer’s hands and face. Extending an existing model-free dynamic programming tracking (DPT) framework, we introduce spatial pruning and multi-pass tracking techniques to enhance tracking robustness by taking the kinematic constraints of the human body into account. These approaches are quantitatively evaluated on hand and face location annotations of more than 140k video frames created as part of this work. More than 50k of those frames are part of the RWTH-PHOENIX-Weather corpus. In the third and longest part of this thesis, we focus on ASLR. We present extensive, experimental analyses of standard computer vision (CV) features such as scale invariant feature transformation (SIFT) and histogram of oriented gradients (HOG) in the context of ASLR as well as investigate impact factors such as error propagation from object tracking, temporal context, hidden Markov model (HMM) state alignment quality, and the language model. Methods to improve alignment quality via sign length and non-gesture modeling are discussed and found to be effective in improving recognition results for single signer recognition. Addressing the multimodal nature of sign languages, we investigate modality combination techniques applied during decoding finding that synchronous and asynchronous combination without re-training improve recognition results in the context of single signer and multi signer recognition. Furthermore, we investigate which techniques transfer from single signer to multi signer recognition. All proposed modelling and recognition techniques are experimentally evaluated on publicly available, continuous German Sign Language (GSL) corpora or the novel RWTH-PHOENIX-Weather corpus created in the context of his work. In either case, we achieve either competitive results or results that clearly outperform results found in the literature.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT020569985

Interne Identnummern
RWTH-2020-08775
Datensatz-ID: 796101

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2020-08-28, last modified 2023-04-11


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)