Metadaten

Heidelberger Akademie der Wissenschaften [Hrsg.]
Jahrbuch ... / Heidelberger Akademie der Wissenschaften: Jahrbuch 2016 — 2017

DOI Kapitel:
A. Das akademische Jahr 2016
DOI Kapitel:
III. Veranstaltungen
DOI Kapitel:
Mitarbeitervortragsreihe „Wir forschen. Für Sie“
DOI Artikel:
Hanke, Thomas: Wörterbuch ohne Wörter? Zum Entstehen eines Wörterbuches der Deutschen Gebärdensprache
DOI Seite / Zitierlink: 
https://doi.org/10.11588/diglit.55652#0085
Lizenz: Freier Zugang - alle Rechte vorbehalten

DWork-Logo
Überblick
Faksimile
0.5
1 cm
facsimile
Vollansicht
OCR-Volltext
Mitarbeitervortragsreihe „Wir forschen. Für Sie'

ne umfassenden Datenquellen, die die Basis eines solchen Korpus bilden könnten:
Die täglich mit Gebärdensprachverdolmetschung ausgestrahlten Nachrichtensen-
dungen im öffentlich-rechtlichen Fernsehen sind nicht nur aufgrund ihres Fokus,
sondern insbesondere als unter Zeitdruck von Hörenden erstellte Verdolmetschung
aus dem Deutschen kein Spiegel der Alltagssprache Gehörloser. Von Gehörlosen
für Gehörlose produzierte Fernsehsendungen in DGS sind in Deutschland immer
noch Mangelware, und eine Vielzahl lobenswerter Initiativen im Internet sind rein
quantitativ nicht geeignet, dies zu kompensieren. Das Langzeitvorhaben „Entwick-
lung eines korpusbasierten elektronischen Wörterbuchs Deutsche Gebärdenspra-
che (DGS) - Deutsch“ der Akademie der Wissenschaften Hamburg hat daher in
den ersten Jahren seiner Arbeit ein solches Korpus selbst erstellt.
Insgesamt 330 Personen aus ganz Deutschland, die Gebärdensprache als ihr
Hauptkommunikationsmittel einsetzen, haben an der Datenerhebung teilge-
nommen und sich jeweils zu zweit vor laufenden Kameras über verschiedenste
Themen unterhalten sowie auch Geschichten nacherzählt. Der Aufgabenmix, der
sowohl in anderen Lautsprach- und Gebärdensprachkorpora bewährte Formate
wie auch Neuentwicklungen enthielt, war abwechslungsreich, so dass viele der
Informantinnen und Informanten betonten, wie kurzweilig ihnen die Datener-
hebung erschien — trotz einer Erhebungszeit von fünf Stunden netto pro Paar.
Um sowohl die manuelle Annotation als auch die Weiterentwicklung au-
tomatischer (ComputerVision-)Verfahren optimal zu unterstützen, wurden acht
Kameras eingesetzt. Die Korpusrohdaten bestehen damit aus 6.400 Stunden Vi-
deoaufzeichnungen - eine für Gebärdensprachkorpora bis dahin nicht erreichte
Größenordnung, die sich allerdings im Vergleich zu Korpora gesprochener Spra-
che relativiert.
Neben den Primärdaten wurden umfangreiche Metadaten zu den Informan-
tinnen und Informantinnen erhoben. So wird es nicht nur möglich sein, im spä-
teren Wörterbuch Angaben zur regionalen Verteilung von Gebärden zu machen,
sondern auch unabhängig vom Wörterbuchkontext soziolinguistische Fragestel-
lungen zu untersuchen.
Damit aus der Masse von Videodaten ein linguistisch nutzbares Korpus wird,
bedarf es mindestens einer grundlegenden Annotation, um nach sprachlichen Ein-
heiten suchen zu können. Die ersten beiden Schritte dazu sind die Segmentierung
(Identifizierung eines Tokens durch Start- und Endzeitpunkt) und Lemmatisie-
rung (Zuweisung eines Types zu einem Token). Diese beiden Schritte, die für die
meisten gesprochenen Sprachen weitgehend automatisiert ablaufen, sind im Fal-
le von Gebärdensprachen aufwändig von Hand durchzuführen: Für den ersten
Schritt fehlt „nur“ umfangreicheres Trainingsmaterial, um automatische Verfahren
in der erforderlichen Qualität zu entwickeln. Für den zweiten Schritt entsteht die
Datenbank der Types erst parallel zur Annotation des Korpus, so dass vollständig
automatische Verfahren im Moment utopisch sind.

85
 
Annotationen
© Heidelberger Akademie der Wissenschaften