NFDI-Projekt "Text+ohd"

Text+-Schnittstellen zu den Interview-Sammlungen in Oral-History.Digital

Das im Jahr 2025 abgeschlossene Projekt „Text+-Schnittstellen zu den Interview-Sammlungen in Oral-History.Digital (text+oh.d)“ hat in geschichtswissenschaftlichen Projekten erarbeitete Interview-Bestände in der Text+-Infrastruktur zugänglich gemacht. Durch die Weiterentwicklung von Schnittstellen und die standardkonforme Transformation von Transkripten im sammlungsübergreifenden Interviewportal Oral-History.Digital (oh.d) wurden umfangreiche Korpora aus der mündlichen Alltagssprache für die text- und sprachbasiert arbeitenden Forschungscommunities nachnutzbar gemacht.

Beschreibung:

Als Ergebnis des Projekts werden die Metadaten von Interview-Archiven und -Sammlungen über eine OAI-PMH-Schnittstelle (Open Archives Initiative Protocol for Metadata Harvesting) in der Text+-Registry (https://registry.text-plus.org/) nachgewiesen; andererseits werden die Transkripte der mehrstündigen Interviews bei entsprechender Zugangsberechtigung in ISO-konformen TEI-XML-Dateien (Text Encoding Initiative) zur Verfügung gestellt.

Durch Schnittstellenentwicklung und die Umwandlung von Transkripten in standardisierte Formate werden diese Daten künftig leichter durchsuchbar und disziplinübergreifend nutzbar. Damit unterstützt die Universitätsbibliothek die interdisziplinäre Zusammenarbeit von Geschichts- und Sprachwissenschaft bundesweit.

OAI-Schnittstelle für Interviewsammlungen

Ein Ziel des Projekts war die Weiterentwicklung der bereits vorhandenen OAI-PMH-Schnittstelle, um öffentliche Metadaten zu Interviewarchiven und ihren Sammlungen im Dublin Core- und DataCite-Format automatisiert bereitzustellen und in der Text+-Registry nachzuweisen.

Zu den Metadaten, die in der Registry nun sichtbar sind, gehören Archiv- und Sammlungsbeschreibungen, Informationen zu Ansprechpersonen und Projektverantwortlichkeiten, die beteiligten Institutionen, die Anzahl der Interviews, das Jahr der Veröffentlichung, Nutzungsbedingungen und Informationen zum Datenschutz sowie ein Link zu den Katalogseiten in oh.d selbst. Weitere Metadaten, die zwar über die Schnittstelle angeboten, aber von Text+ derzeit nicht geharvestet werden, sind die mit GND-IDs versehenen Themen sowie der Erschließungsgrad der Interviews.

TEI-XML-Transformation von Interviewmetadaten und Transkripten

Darüber hinaus sollten bei entsprechender Berechtigung auch Volltexte in standardkonformen Formaten über Text+ für eine Nachnutzung bereitgestellt werden. Viele Transkripte in oh.d enthalten Auszeichnungen von Mimik, Gestik, fremdsprachigen Ausdrücken, Pausen, Wortabbrüchen und weiteren sprachlichen und nicht-sprachlichen Phänomenen. Bis zur Umsetzung des Projekts konnten sie mit weiteren Annotationen wie Verschlagwortungen, Überschriften und Anmerkungen nur als CSV-Tabelle heruntergeladen werden.

Im Projekt Text+oh.d wurden diese Transkripte zusammen mit den Metadaten in XML-Dateien transformiert, die dem TEI-basierten Standard „ISO 24624:2016 Language resource management — Transcription of spoken language“ entsprechen (Hedeland/Schmidt 2022). Dabei wurden die Transkripte segmentweise tokenisiert sowie Timecodes, Sprecherwechsel, Schlagworte sowie Transkriptionszeichen in Annotations-Blöcke mit konsistenten TEI-Tags überführt

Die Transformation von Transkripten in ein ISO-konformes TEI-XML-Format wurde an drei exemplarischen Sammlungen spezifiziert und erprobt, die unterschiedliche Transkriptionsmethoden ebenso repräsentieren wie Sprachvielfalt mit Übersetzungen, und darüber hinaus ein breites Themenspektrum abdecken.

Auch wenn bei der Entwicklung der Transformationsroutine von den drei genannten Sammlungen ausgegangen und für diese getestet wurde, wird der TEI-XML-Download für alle Sammlungen in Oral-History.Digital angeboten. Die TEI-XML-Transkripte können nach Registrierung auf der Plattform sowie erfolgter Freischaltung im entsprechenden Archiv heruntergeladen werden.

Laufzeit und Förderung:

Die Nationale Forschungsdateninfrastruktur (NFDI) arbeitet daran, Forschungsdaten nach den FAIR-Prinzipien langfristig auffindbar (findable), zugänglich (asscessible), verknüpfbar (interoperable) und wiederverwendbar (reusable) zu machen.

Das Konsortium „Text+“, geleitet vom Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim, bündelt Expertise und Daten aus Universitäten, Akademien und Forschungszentren. Der Fokus liegt auf:

Korpora und Textsammlungen
Lexikalischen Ressourcen
Editionen und Infrastrukturen

Jedes Jahr fördert „Text+“ neue Projekte, um Daten und Services für sprach- und textorientierte Wissenschaften zu verbessern.

Das Projekt „Text+ohd“ war eines von fünf im Jahr 2025 geförderten Kooperationen mit einer Laufzeit vom 01.01.2025 bis zum 30.11.2025. Durch die Beteiligung an „Text+“ gestaltet die Universitätsbibliothek der FU die Zukunft der digitalen Forschungs-, Lehr- und Informationsinfrastrukturen für die text- und sprachorientierten Wissenschaften aktiv mit

Team:

Kontakt:

Freie Universität Berlin
Universitätsbibliothek
Digitale Interview-Sammlungen
Projekt Text+ohd
Garystr. 39
14195 Berlin
Web: https://www.fu-berlin.de/text_ohd
Mail: text+ohd@oral-history.digital

Universitätsbibliothek

NFDI-Projekt "Text+ohd"

Text+-Schnittstellen zu den Interview-Sammlungen in Oral-History.Digital

Links zum Thema