NFDI-Projekt "Text+ohd"
Text+-Schnittstellen zu den Interview-Sammlungen in Oral-History.Digital
Das Projekt „Text+-Schnittstellen zu den Interview-Sammlungen in Oral-History.Digital (Text+oh.d)“ machte viele in geschichtswissenschaftlichen Projekten erarbeiteten Interview-Bestände in der Infrastruktur des sprachwissenschaftlichen NFDI-Konsoriums Text+ zugänglich. Durch die Weiterentwicklung von Schnittstellen und die standardkonforme Transformation von Transkripten im sammlungsübergreifenden Interviewportal Oral-History.Digital (oh.d) sind umfangreiche Korpora aus der mündlichen Alltagssprache nun für die text- und sprachbasiert arbeitenden Forschungscommunities nachnutzbar.
Seit 2025 ist die Freie Universität Berlin mit oh.d ein Daten- und Kompetenzzentrum im Text+-Konsortium. Metadaten zu Archiven und Sammlungen aus "Oral-History.Digital" werden nun in der Text+-Registry nachgewiesen. Transkripte und Metadaten der einzelnen Interviews können bei entsprechender Berechtigung nun als TEI-Dateien entsprechend dem Standard der Text Encoding Initiative aus Oral-History.Digital exportiert werden.
Beschreibung:Im Projekt text+ohd wurden die Metadaten von Interview-Archiven und -Sammlungen über eine OAI-PMH-Schnittstelle (Open Archives Initiative Protocol for Metadata Harvesting) in der Text+-Registry nachweisbar gemacht; andererseits wurden die Transkripte der mehrstündigen Interviews bei entsprechender Zugangsberechtigung in ISO-konformen TEI-XML-Dateien (Text Encoding Initiative) zur Verfügung gestellt.
Durch Schnittstellenentwicklung und die Umwandlung von Transkripten in standardisierte Formate sind diese Daten nun leichter durchsuchbar und disziplinübergreifend nutzbar. Damit unterstützt die Universitätsbibliothek die interdisziplinäre Zusammenarbeit von Geschichts- und Sprachwissenschaft bundesweit. Damit ist die Freie Universität Berlin jetzt auch ein Daten- und Kompetenzzentrum im Text+-Konsortium.
OAI-Schnittstelle für Interviewsammlungen
Im Projekt text+oh.d wurde die bereits vorhandene OAI-PMH-Schnittstelle in Oral History.Digital zunächst in Bezug auf die Anforderungen der Text+-Infrastruktur evaluiert. Die in oh.d verfügbaren Interviewarchive und ihre Teilsammlungen sind über frei zugängliche (CC0) Metadaten nun in der Text+-Registry auffindbar.
Im Rahmen der Evaluation wurden zu Projektbeginn die in der OAI-Schnittstelle zu implementierenden Datenformate festgelegt. Kriterien der Auswahl waren die Verbreitung des Standards, die Flexibilität angesichts der sich entwickelnden Infrastruktur und die Umsetzbarkeit innerhalb des begrenzten Projektzeitraums.
TEI-XML-Transformation von Interviewmetadaten und Transkripten
Darüber hinaus werden - bei entsprechender Berechtigung - auch Volltexte in standardkonformen Formaten über Text+ für eine Nachnutzung bereitgestellt. Die Interviews konnten bislang in oh.d mit Verschlagwortungen, Überschriften und Anmerkungen als CSV-Tabelle heruntergeladen werden. Viele Transkripte enthalten zudem Auszeichnungen von Mimik, Gestik, fremdsprachigen Ausdrücken, Pausen, Wortabbrüchen und weiteren sprachlichen und nicht-sprachlichen Phänomenen.
Im Projekt text+oh.d wurden diese Transkripte zusammen mit den Metadaten in XML-Dateien transformiert, die dem TEI-basierten Standard „ISO 24624:2016 Language resource management — Transcription of spoken language“ entsprechen (Hedeland/Schmidt 2022). Dabei wurde das Transkript tokenisiert sowie Timecodes, Sprecherwechsel und die je nach Sammlung unterschiedlichen Transkriptionszeichen in TEI-Tags umgewandelt. Dies wurde an drei exemplarischen Sammlungen spezifiziert und erprobt, die unterschiedliche Transkriptionsmethoden ebenso repräsentieren wie Sprachvielfalt mit Übersetzungen, und darüber hinaus ein breites Themenspektrum abdecken.
Laufzeit und Förderung:Die Nationale Forschungsdateninfrastruktur (NFDI) arbeitet daran, Forschungsdaten nach den FAIR-Prinzipien langfristig auffindbar (findable), zugänglich (asscessible), verknüpfbar (interoperable) und wiederverwendbar (reusable) zu machen.
Das Konsortium „Text+“, geleitet vom Leibniz-Institut für Deutsche Sprache (IDS) in Mannheim, bündelt Expertise und Daten aus Universitäten, Akademien und Forschungszentren. Der Fokus liegt auf:
- Korpora und Textsammlungen
- Lexikalischen Ressourcen
- Editionen und Infrastrukturen
Jedes Jahr fördert „Text+“ neue Projekte, um Daten und Services für sprach- und textorientierte Wissenschaften zu verbessern.
Das Projekt „Text+ohd“ war eines von fünf im Jahr 2025 geförderten Kooperationen mit einer Laufzeit vom 01.01.2025 bis zum 30.11.2025. Durch die Beteiligung an „Text+“ gestaltet die Universitätsbibliothek der FU die Zukunft der digitalen Forschungs-, Lehr- und Informationsinfrastrukturen für die text- und sprachorientierten Wissenschaften aktiv mit.
Das Text+-Kooperationsprojekt „Transcription+“ wird 2026 teilweise auf dem Text+oh.d-Projekt aufbauen, indem es u.a. die Dokumentation für den ISO/TEI-Standard verbessert.
Links:- FUB und oh.d als Daten- und Kompetenzzentrum im Text+-Konsortium: https://text-plus.org/ueber-uns/textpluszentren/fub
- Archive und Sammlungen in der Text+-Registry: https://registry.text-plus.org
- Text+-Kooperationsprojekt „Transcription+“: https://linguisticbits.de/transcription-plus.html
- Cord Pagenstecher, Peter Kompiel, Christian Gregor, Thomas Schmidt
Freie Universität Berlin
Universitätsbibliothek
Digitale Interview-Sammlungen
Projekt Text+ohd
Garystr. 39
14195 Berlin
Web: https://www.fu-berlin.de/text_ohd
Mail: text+ohd@oral-history.digital

