2020
DOI: 10.33896/porj.2020.8.3
|View full text |Cite
|
Sign up to set email alerts
|

Elektroniczny Korpus Tekstów Polskich Z Xvii I Xviii W. – Problemy Teoretyczne I Warsztatowe

Abstract: Electronic Corpus of 17th- and 18th-century Polish Texts – theoretical and workshop problems Summary This paper presents the Electronic Corpus of 17th- and 18th-century Polish Texts (KorBa) – a large (13.5-million), annotated historical corpus available online. Its creation was modelled on the assumptions of the National Corpus of Polish (NKJP), yet the specifi c nature of the historical material enforced certain modifi cations of the solutions applied in NKJP, e.g. two forms of text representation (transliter… Show more

Help me understand this report

Search citation statements

Order By: Relevance

Paper Sections

Select...
1
1
1
1

Citation Types

0
0
0
1

Year Published

2021
2021
2024
2024

Publication Types

Select...
5
2
1

Relationship

1
7

Authors

Journals

citations
Cited by 12 publications
(6 citation statements)
references
References 1 publication
0
0
0
1
Order By: Relevance
“…The study aimed at determining whether a word acquired a metaphorical meaning over time. We used two datasets: a subset of Elektroniczny korpus tekstów polskich z XVII i XVIII w (Gruszczyński et al 2020; henceforth KorBa) and a subset of Korpus Polszczyzny 1830-1918 (Bilińska et al 2016; henceforth F19) 6 . Both corpora feature circa 500 thousand word tokens.…”
Section: Results From Computational Approaches and Natural Language P...mentioning
confidence: 99%
“…The study aimed at determining whether a word acquired a metaphorical meaning over time. We used two datasets: a subset of Elektroniczny korpus tekstów polskich z XVII i XVIII w (Gruszczyński et al 2020; henceforth KorBa) and a subset of Korpus Polszczyzny 1830-1918 (Bilińska et al 2016; henceforth F19) 6 . Both corpora feature circa 500 thousand word tokens.…”
Section: Results From Computational Approaches and Natural Language P...mentioning
confidence: 99%
“…Wczesne językoznawstwo korpusowe, z jego traktowaniem świadectwa tekstu jak rodzimego użytkownika języka, przypominało metodę filologiczną Szybko jednak oko badacza zaczęło rejestrować przede wszystkim to, co w korpusie seryjne, ciężar dowodu zaś przesunął się na argumentację przede wszystkim ilościową Nie pojedyncza osobliwa konstrukcja czy forma, ale właśnie to, co typowe, staje się przedmiotem zainteresowania badaczy Tą drogą też coraz częściej podążają lingwiści interesujący się przeszłością języka Szersze zastosowanie zaawansowanych technik statystycznych wymaga powiększenia skali korpusów W językoznawstwie historycznym brak tekstów zawsze stanowił wąskie gardło, warto jednak zauważyć, że było to mniej dotkliwe, dopóki filolog pracował z fiszką i piórem, gdyż największym ograniczeniem było jego tempo pracy Współcześnie, gdy przeszukiwanie zbiorów o objętości milionów czy nawet miliardów słów nie stanowi problemu, to właśnie niedostateczna liczba dawnych tekstów staje się największą przeszkodą dla badacza Nie znaczy to oczywiście, że w epoce poprzedzającej powstanie korpusów elektronicznych w językoznawstwie historycznym świadomość roli danych ilościowych nie istniała Znakomitą pracą, w której przebieg zmian jakościowych jest śledzony poprzez precyzyjny opis ilościowy, jest opracowanie Ireny Bajerowej (1964), podobnie -tekst Anny Wierzbickiej (1966, by wymienić tylko dwie dawne prace Wróćmy więc do samych korpusów historycznych Z niewielkim ryzykiem pomyłki można powiedzieć, że pierwsze takie korpusy dokumentowały język angielski od jego początków do XVIII w (Rissanen 1992) Korpusem dawnej polszczyzny, który powstał jako pierwszy, a zarazem dokumentuje najstarszą warstwę języka, jest Korpus tekstów staropolskich (stworzony przez zespół Słownika staropolskiego IJP PAN, a opisany w pracy Twardzik, Górski 2003) 2 Korpus ten obejmuje zasadniczo wszystkie znane polskie teksty ciągłe do roku 1500 Wiek XVI reprezentuje korpus tworzony przez Pracownię Słownika Polszczyzny XVI Wieku IBL PAN 3 Oba te korpusy nie są lematyzowane ani opatrzone anotacją fleksyjną (morfosyntaktyczną) Okres 1600-1772 pokrywa Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w (do 1772 r ) (KorBa, por Gruszczyński, Adamiec, Ogrodniczuk 2013;Gruszczyński, Adamiec, Bronikowska, Kieraś, Modrzejewski, Wieczorek, Woliński 2022) Oczywiście granica pomiędzy korpusem historycznym i diachronicznym może być płynna Przykładowo KorBa zasadniczo nie jest skonstruowana jako korpus diachroniczny Pokrywa on jednak okres 172 lat (a więc niewiele mniej niż CLMET), okres, w którym zaszło wiele zmian, w tym zmian systemowych, doskonale więc może służyć do badania ich przebiegu Użytkownik dzięki metadanym może tworzyć dowolne chronologicznie uporządkowane podkorpusy, jakkolwiek musi pamiętać o tym, że będą się one różniły zapewne zarówno wielkością, jak i budową Problem zróżnicowanej budowy podkorpusów korpusu diachronicznego jest zresztą nieusuwalny Zauważmy, że w wypadku polszczyzny wiek XV reprezentują niemal wyłącznie teksty religijne i prawne, współcześnie dalece nie najważniejsze Stopniowo pojawiają się nowe typy tekstów, a podstawowa dzisiaj prasa wyłania się na szerszą skalę dopiero w XIX w Piszemy o tym w kontekście planowanego przedsięwzięcia -stworzenia Narodowego Diachronicznego Korpusu Polszczyzny, który miałby scalić istniejące korpusy historyczne tak, by reprezentując wszystkie epoki, stanowiły korpus diachroniczny (Król et al 2019), lecz także by bardzo wyraźnie podkreślić, że opisywany tutaj korpus jest korpusem historycznym, ale też i synchronicznym…”
Section: Michał Woźniakunclassified
“…Examples from the 17 th and 18 th c. have been extracted from the Corpus of Polish Texts of the 17 th and 18 th c. with aid of the search engine Korba (https://korba.edu.pl/) (Gruszczyński, Adamiec & Ogrodniczuk 2013). As in the case of the previous analysis, to ensure relative commensuration of the obtained results, we used an annotation system and searching procedures that were compatible with the annotations and searches made in the National Corpus of the Polish Language.…”
Section: Empirical Researchmentioning
confidence: 99%