20. Geschichtliche Quellen des vormodernen Nepal
fähig, nämlich der Dokumentenkatalog und die Plattform für die digitalen Edi-
tionen. Die Datenerfassung für den Katalog läuft mit der Eingabe in Patan, mit
Endkontrolle und Einspeisung in Heidelberg bereits routiniert. Auch im Bereich
der digitalen Editionen von Dokumenten nimmt das Projekt an Fahrt auf. Ende
April 2016 wurde der Internetauftritt und der Zugang zur Datenstruktur unter
dem Namen „Documenta Nepalica“ mit den ersten ca. 18.000 Katalogdatensätzen
und 43 Editionen für externe Benutzer freigeschaltet (erreichbar unter www.haw.
uni-heidelberg.de/forschung/forschungsstellen/nepal/index.de.html; der Reiter
„Documenta Nepalica“ bildet das Eingangsportal zur eigentlichen Datenstruk-
tur). Für die Zukunft ist ein jährlicher Aufwuchs von mindestens 7.000 Katalog-
datensätzen und ca. 50-70 Editionen geplant (Stand Ende 2016: 93 Editionen,
25.640 Katalogdatensätze).
In Zusammenarbeit mit der Universitätsbibliothek Heidelberg sollen die di-
gitalen Editionen parallel auf der Publikationsplattform DWork erscheinen. Die
entsprechenden Rahmenverträge zwischen der UB und der HAdW wurden 2016
geschlossen. Die technische Umsetzung wurden in Zusammenarbeit mit dem
Team der UB unter der Leiterin der Abteilung „Publikationsdienste“, Dr. Maria
Effinger, in einem mehrmonatigen Prozess erarbeitet. Anfang 2017 soll die Doku-
mentensammlung freigeschaltet werden.
In 2016 wurde aber nicht nur die Editionstechnik weiter standardisiert, ver-
feinert und anhand von Daten erprobt, die Datenstruktur selbst wurde weiter-
entwickelt. Dies umfasste zum einen Verbesserungen an der Benutzeroberfläche
(Anzeigeoptionen), erweiterte Suchoptionen und die Erstellung einer Druckopti-
on für die digitalen Editionen. Zum anderen soll bis zum Ende von Projektphase II
(2018) der Aufbau der dritten Säule der digitalen Infrastruktur abgeschlossen sein.
Diese umfasst digitale Werkzeuge zur Datenanalyse. Dazu gehören ein automa-
tischer Lemmatisierer und ein digitales Lexikon, sowie ein sogenanntes „Named
Entity Repository“ in Verbindung mit einer Computerontologie. Die Arbeit zu
beiden Bereichen wurde in 2016 aufgenommen.
Weil für Ncpali, die Hauptsprache der meisten Dokumente, nicht auf Vor-
arbeiten zurückgriffen werden kann, muss zur Entwicklung eines Lemmatisie-
rers zunächst ein Lexikon erstellt werden. Eine erste Testversion ist bereits auf
dem Server intern verfügbar. Da die Sprache der Dokumente sehr formelhaft ist,
soll weiterhin getestet werden, ob mit Hilfe des Lemmatisierers auch bestimm-
te formale Eigenschaften der Dokumente automatisch annotiert werden können.
Schließlich soll, wenn ein entsprechend großes Korpus von edierten Texten vor-
liegt, auch die Entwicklung eines Handschriften-OCR ermöglicht werden. Der
Einsatz solcher computergestützten Werkzeuge würde die Rate der bearbeiteten
Dokumente deutlich erhöhen.
Eine erste Version des „Named Entity Repository“ für die in den Editionen
ausgezeichneten Namen von Personen, Orten und Institutionen ist programmiert.
197
fähig, nämlich der Dokumentenkatalog und die Plattform für die digitalen Edi-
tionen. Die Datenerfassung für den Katalog läuft mit der Eingabe in Patan, mit
Endkontrolle und Einspeisung in Heidelberg bereits routiniert. Auch im Bereich
der digitalen Editionen von Dokumenten nimmt das Projekt an Fahrt auf. Ende
April 2016 wurde der Internetauftritt und der Zugang zur Datenstruktur unter
dem Namen „Documenta Nepalica“ mit den ersten ca. 18.000 Katalogdatensätzen
und 43 Editionen für externe Benutzer freigeschaltet (erreichbar unter www.haw.
uni-heidelberg.de/forschung/forschungsstellen/nepal/index.de.html; der Reiter
„Documenta Nepalica“ bildet das Eingangsportal zur eigentlichen Datenstruk-
tur). Für die Zukunft ist ein jährlicher Aufwuchs von mindestens 7.000 Katalog-
datensätzen und ca. 50-70 Editionen geplant (Stand Ende 2016: 93 Editionen,
25.640 Katalogdatensätze).
In Zusammenarbeit mit der Universitätsbibliothek Heidelberg sollen die di-
gitalen Editionen parallel auf der Publikationsplattform DWork erscheinen. Die
entsprechenden Rahmenverträge zwischen der UB und der HAdW wurden 2016
geschlossen. Die technische Umsetzung wurden in Zusammenarbeit mit dem
Team der UB unter der Leiterin der Abteilung „Publikationsdienste“, Dr. Maria
Effinger, in einem mehrmonatigen Prozess erarbeitet. Anfang 2017 soll die Doku-
mentensammlung freigeschaltet werden.
In 2016 wurde aber nicht nur die Editionstechnik weiter standardisiert, ver-
feinert und anhand von Daten erprobt, die Datenstruktur selbst wurde weiter-
entwickelt. Dies umfasste zum einen Verbesserungen an der Benutzeroberfläche
(Anzeigeoptionen), erweiterte Suchoptionen und die Erstellung einer Druckopti-
on für die digitalen Editionen. Zum anderen soll bis zum Ende von Projektphase II
(2018) der Aufbau der dritten Säule der digitalen Infrastruktur abgeschlossen sein.
Diese umfasst digitale Werkzeuge zur Datenanalyse. Dazu gehören ein automa-
tischer Lemmatisierer und ein digitales Lexikon, sowie ein sogenanntes „Named
Entity Repository“ in Verbindung mit einer Computerontologie. Die Arbeit zu
beiden Bereichen wurde in 2016 aufgenommen.
Weil für Ncpali, die Hauptsprache der meisten Dokumente, nicht auf Vor-
arbeiten zurückgriffen werden kann, muss zur Entwicklung eines Lemmatisie-
rers zunächst ein Lexikon erstellt werden. Eine erste Testversion ist bereits auf
dem Server intern verfügbar. Da die Sprache der Dokumente sehr formelhaft ist,
soll weiterhin getestet werden, ob mit Hilfe des Lemmatisierers auch bestimm-
te formale Eigenschaften der Dokumente automatisch annotiert werden können.
Schließlich soll, wenn ein entsprechend großes Korpus von edierten Texten vor-
liegt, auch die Entwicklung eines Handschriften-OCR ermöglicht werden. Der
Einsatz solcher computergestützten Werkzeuge würde die Rate der bearbeiteten
Dokumente deutlich erhöhen.
Eine erste Version des „Named Entity Repository“ für die in den Editionen
ausgezeichneten Namen von Personen, Orten und Institutionen ist programmiert.
197