Heidelberger Akademie der Wissenschaften [Editor]: Jahrbuch ... / Heidelberger Akademie der Wissenschaften: Jahrbuch 2019 (2020)

Metadaten

Heidelberger Akademie der Wissenschaften [Editor]
Jahrbuch ... / Heidelberger Akademie der Wissenschaften: Jahrbuch 2019 — 2020

DOI chapter:

D. Förderung des wissenschaftlichen Nachwuchses

https://doi.org/10.11588/diglit.55176.86

DOI chapter:

II. Das WIN-Kolleg

https://doi.org/10.11588/diglit.55176.99

DOI chapter:

Sechster Forschungsschwerpunkt „Messen und Verstehen der Welt durch die Wissenschaft“

https://doi.org/10.11588/diglit.55176.101

DOI chapter:

5. CAL²Lab – Eine rechtslinguistische Experimentierplattform

https://doi.org/10.11588/diglit.55176.106

DOI Page / Citation link:

https://doi.org/10.11588/diglit.55176#0369

License: Free access - all rights reserved

OCR fulltext

Information about OCR text

D. Förderung des wissenschaftlichen Nachwuchses

Konkret wurden die im Korpus nach Deduplikation enthaltenen knapp 1 Mrd.
Wortformen computerlinguistisch so aufbereitet, dass 200.000 bedeutungstragen-
de Hauptwörter (sog. Autosemantika: Substantiv-, Verb- und Adjektivlemmata,
ohne Namen und Abkürzungen) ausgewählt wurden. Diese wurden in Verbin-
dung mit ihrer Wortartenzugehörigkeit gespeichert, wodurch zumindest eine gro-
be Disambiguierung nach Substantiv/Verb/Adjektiv vorgenommen wurde. Da die
Zuordnung der Wortarten nicht rein computertechnisch lösbar ist, wurden alle
Zweifelsfälle manuell geprüft. Für die gewonnenen Kombinationen aus Lemmata
und Wortart (= Listenlemmata) wurden sogenannte Kontextprofile errechnet,
d. h. es wurden statistische Daten in Relation zu Vorkommen pro Jahr, Textsorte,
Quartil, Gericht, Zeitschrift und Autor erhoben. Zusätzlich wurden Mehrwort-
einheiten mit bis zu 5 Wortformen und diejenigen Begleitwörter (Nachbarn mit
einer Umgebung von +/-8), mit denen sich die Zielwörter am signifikant häu-
figsten umgeben, berechnet - auch wieder in Relation zu den vorher genannten
Metadaten. Die Berechnung der Daten erfolgte durch Java-Programme, die unter
anderem die Rechenleistung eines Computerclusters (High Performance Com-
puting) der Universität Siegen nutzten. Die Ergebnisse wurden zur schnelleren
Abfrage in einer relationalen Datenbank mit 104 Tabellen gespeichert.
Die daraus gewonnen Daten sind über eine Onlineplattform (frei verfügbar
ab vssl. Februar 2020) durchsuchbar, wobei nicht nur mit dem Lemma, sondern
auch mit einer konkreten Wortform gesucht werden kann. Zudem kann die Suche
über die Metadaten eingeschränkt werden, wie im Vorjahresbericht anhand von
Abbildungen näher erläutert.
Nachdem Kollegiat Friedemann Vögel im Vorjahr auf einen Lehrstuhl (W3)
an der Universität Siegen berufen worden war, vertritt er seit dem Frühjahr 2018
die Sozio- und Diskurslinguistik mit besonderem Schwerpunkt auf Rechtslinguis-
tik und Korpusmethoden, wie er sie im Kontext des WIN-Projekts entwickelt. Da-
durch wird das hier entwickelte Projekt in verschiedenen Formen fortgeführt und
etwa in das Infrastrukturprojekt „SOULL - Sources of Language and Law“ (www.
legal-linguistics.net) integriert. Der Kollegiat Hanjo Hamann trat unterdessen ein
Fellowship für Postdoktoranden der Daimler und Benz Stiftung an, für das er seit
Abschluss des WIN-Projekts einen Forschungsaufenthalt an der Universität Stan-
ford absolviert. Zeitgleich wurde sein mit Unterstützung der WIN-Projektgruppe
aufgebautes Datenportal www.Richter-im-Internet.de erstmals auf Englisch vor-
gestellt (Hamann 2019) und inzwischen auch von internationalen Fachkollegen
für ihre rechtsempirische Forschung genutzt.
Projektabschluss
Mit Beendigung des Projekts fand im Mai 2019 der bei Antragstellung vorgesehe-
ne Abschlussworkshop statt, der unter dem Titel „Empirische Sprachgebrauchser-

370

Annotationen

Cite this page

Feedback