No abstract
Dieser Beitrag widmet sich der Beschreibung des Korpus Deutsch in Namibia (DNam), das über die Daten bank für Gesprochenes Deutsch (DGD) frei zugänglich ist. Bei diesem Korpus handelt es sich um eine neue digitale Ressource, die den Sprachgebrauch der deutschsprachigen Minderheit in Namibia sowie die zugehörigen Spracheinstellungen umfassend und systematisch dokumentiert. Wir beschreiben die Datenerhebung und die dabei angewandten Methoden (freie Gespräche, "Sprachsituationen", semi-strukturierte Interviews), die Datenaufbereitung inklusive Transkription, Normalisierung und Tagging sowie die Eigenschaften des verfügbaren Korpus (Umfang, verfügbare Metadaten usw.) und einige grundlegende Funktionalitäten im Rahmen der DGD. Erste Forschungsergebnisse, die mithilfe der neuen Ressource erzielt wurden, veranschaulichen die vielseitige Nutzbarkeit des Korpus für Fragestellungen aus den Bereichen Kontakt-, Variations-und Soziolinguistik.This article describes the corpus Deutsch in Namibia (DNam, 'German in Namibia'), which is openly accessible via the Datenbank für Gesprochenes Deutsch (DGD, 'Database for Spoken German'). This corpus is a new digital resource which comprehensively and systematically documents the language use of the German-speaking minority in Namibia and the related attitudes towards language. We discuss the data collection and elicitation methods used (conversation groups, "language situations", semi-structured interviews), the data processing, including transcription, normalisation and tagging, as well as the general characteristics of the corpus (size, available metadata etc.) and some basic functionalities available in the DGD. First research results based on this new empirical resource illustrate its value for studies on language contact, language variation and sociolinguistics. 1 Unsere Arbeit wird gefördert durch die Deutsche Forschungsgemeinschaft (DFG) -WI 2155/9-1; SI 750/41. Weitere Projektbeteiligte waren Hans C. Boas, Janosch Leugner, Laura Perlitz und Anika Kroll-Tjingaete. Wir danken den zahlreichen Gewährspersonen für die große Kooperationsbereitschaft, ihre Gastfreundschaft und das Interesse an unserem Forschungsprojekt.
Hulme et al. (Nat Clim Change, 8:515–521, 2018) manually coded ‘frames’ in 490 Nature and Science editorials (1966–2016) they found relevant for climate change. We produced a digital version of the corpus and conducted a set of experiments: We explored many variants of supervised categorization for automatically reproducing the manual frame coding, and we ran an interactive variant of topic modeling. In both approaches, we made use of word embedding techniques for representing text documents. Supervised classification yielded F1-scores of up to 0.91 (for the best category) and 0.68 overall, and it led to insights regarding the relation between ‘topic’ and ‘framing’. The topic modeling algorithm was able to reproduce central trends in the temporal analysis of framing that was presented by Hulme et al. based on their manual work.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.