Intern
Automatische Texterkennung mittelalterlicher Handschriften

Autosynopse

Dieses Tool erstellt aus mehreren Transkriptionsdateien unterschiedlicher Textzeugen eine Gesamtsynopse, indem automatisch die jeweils entsprechenden Verse aller Textzeugen einander zugeordnet werden. Es ist sowohl auf normalisierte als auch auf nicht normalisierte Transkriptionen anwendbar. Es können Transkriptionen mit Versumbruch, ohne Umbruch, aber mit Umbruchmarkierung (Reimpunkt o. ä.) und vollständig ohne Umbruchsmarkierung eingelesen werden. Ausgangsformat sind txt-Dateien.

Das hier angewendete Verfahren basiert auf Levenshtein-Distanzen. Es werden grundsätzlich die Verse, die zueinander die größten Ähnlichkeitswerte aufweisen, miteinander kombiniert. Stellungsfaktoren und sonstige Kontextfaktoren (bspw. Reimstellung) werden ebenfalls mit eingerechnet.

Der Output erfolgt als eine vollständige csv-Datei. Verse, die nicht plausibel zugeordnet werden konnten, werden markiert. Ebenfalls markiert werden Verse mit ungewöhnlicher Zuordnung (bspw. identischer Vers, aber andere Position des Verses in einer Quelle) oder Versdreher etc.