Datenaufbereitung
Das kostenlose Transkriptionsprogramm ELAN (https://archive.mpi.nl/tla/elan, Max Planck Institute) ermöglicht die Transkription von Audio- und Videodateien, die anschließend bearbeitet, annotiert und durchsucht werden können. Für das POS-Tagging und die Lemmatisierung wurden der Tree-Tagger und das Stuttgart-Tübingen-TagSet (STTS) verwendet.
Nachdem die schriftlichen Daten transliteriert wurden, wurden sie in ELAN importiert, manuell normalisiert, automatisch tokenisiert, lemmatisiert und POS-getaggt (Klassifizierung nach Wortarten).
Nach der Transkription der mündlichen Daten erfolgte auf der Ebene der manuellen Normalisierung die automatische Tokenisierung, wobei die einzelnen Tokens wiederum automatisch in Lemmata und Wortarten klassifiziert wurden.