Der Beitrag zeigt, wie die im korpuslinguistischen Gesamtkonzept des Instituts für Deutsche Sprache entwickelten und in der praktischen Korpusarbeit konsequent umgesetzten Prinzipien sowie die entsprechenden automatischen Methoden der Korpuserschließung und-analyse für die linguistische Forschung und die Lexikografie fruchtbar gemacht werden können. Im Mittelpunkt steht dabei das Erklärungspotenzial der statistischen Kookkurrenzanalyse, einer automatischen Korpusanalysemethode, die einen sinnvollen Zugang zu sprachlichen Massendaten und damit zu sprachlichem Usus eröffnet. Die Anwendung dieser Methode ermöglicht darüber hinaus die Erfassung, Verifizierung und lexikografische Beschreibung usueller Wortverbindungen auf einer umfassenden empirischen Basis. Es wird grundsätzlich zwischen dem statistisch erhobenen Kookkurrenzpotenzial, also der berechneten lexikalischen Kohäsion zwischen sprachlichen Entitäten, und der nachgelagerten linguistischen Interpretation unterschieden. Die automatische Analyse bringt Kookkurrenzcluster hervor, die nicht nur binäre Relationen zwischen einem Bezugswort und einem Kookkurrenzpartner abbilden, sondern multiple Strukturen konstituieren können. Diese Cluster fungieren als "Bausteine der Kommunikation" und weisen Evidenzen für verschiedenste sprachliche Informationen auf. So können sie semantische und pragmatische Aspektuierungen des Wortgebrauchs, formelhafte Ausprägungen oder auch idiomatische Gebundenheiten indizieren. Schließlich wird in einem Ausblick dargestellt, wie diese Methoden im elexiko-MoAvA .Usuelle Wortverbindungen1 zur systematischen lexikografischen Erfassung und Beschreibung üblicher Wortverbindungen des Deutschen eingesetzt werden. Ziel ist es, ein korpusbasiertes elektronisches .Mehrwortlexikon1 für das Deutsche zu erstellen und gleichzeitig neue Einblicke in die Kohäsions-und damit auch in Vemetzungsphänomene des deutschen Wortschatzes zu erlangen. Vorbemerkung Der Beitrag ist in zentralen Aspekten ein Resultat der Zusammenarbeit und vieler gemeinsamer Diskussionen mit Cyril Belica, dem Autor der COS-MAS-Plattform und Entwickler des Korpusdesigns des IDS.1 Wir werden 1 Ich danke in diesem Zusammenhang auch Meike Lauer und Rainer Perkuhn für ihre Unterstützung bei der Erstellung dieses Beitrags. Umfassende Informationen zum IDS-Korpuskonzept und zur COSMAS-Plattform vgl. "Arbeitsgruppe für Korpustechnologie" (2003).
EinleitungDas Institut für Deutsche Sprache (im folgenden kurz IDS genannt) hat die Aufgabe, den Gebrauch der deutschen Sprache der Gegenwart und der jüngeren Vergangenheit zu dokumentieren und zu erforschen.
This contribution presents the newest version of our 'Wortverbindungsfelder' (fields of multi-word expressions), an experimental lexicographic resource that focusses on aspects of MWEs that are rarely addressed in traditional descriptions: Contexts, patterns and interrelations. The MWE fields use data from a very large corpus of written German (over 6 billion word forms) and are created in a strictly corpus-based way. In addition to traditional lexicographic descriptions, they include quantitative corpus data which is structured in new ways in order to show the usage specifics. This way of looking at MWEs gives insight in the structure of language and is especially interesting for foreign language learners.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.