The paper describes the process of building the electronic corpus of 17th- and 18th-century Polish texts, a relatively large, balanced, structurally and morphologically annotated resource of the Middle Polish language, available for searching at https://www.korba.edu.pl. The corpus consists of samples extracted from over seven hundred texts written and published between 1601 and 1772, summing up to a total size of 13.5 million tokens which makes it one of the largest historical corpora for a Slavic language.
Electronic Corpus of 17th- and 18th-century Polish Texts – theoretical and workshop problems Summary This paper presents the Electronic Corpus of 17th- and 18th-century Polish Texts (KorBa) – a large (13.5-million), annotated historical corpus available online. Its creation was modelled on the assumptions of the National Corpus of Polish (NKJP), yet the specifi c nature of the historical material enforced certain modifi cations of the solutions applied in NKJP, e.g. two forms of text representation (transliteration and transcription) were introduced, the principle of designating foreign-language fragments was adopted, and the tagset was adapted to the description of the grammatical structure of the Middle Polish language. The texts collected in KorBa are diversified in chronological, geographical, stylistic, and thematic terms although, due to e.g. limited access to the material, the postulate of representativeness and sustainability of the corpus was not fully implemented. The work on the corpus was to a large extent automated as a result of using natural language processing tools. Keywords: electronic text corpus – historical corpus – 17th-18th-century Polish – natural language processing
Predykatywy odprzymiotnikowe i odprzysłówkowe(można, niepodobna, wiadomo, wolno) w Słowniku języka polskiego XVII i 1. połowy XVIII wieku S ł o w a k l u c z o w e: czasownik niewłaściwy, przymiotnik, przysłówek, funkcja predykatywna, budowa artykułu hasłowego.Leksemy, którym poświęcony jest niniejszy artykuł, należą do klasy czasowników niewłaściwych. Podobnie jak inne wyrazy reprezentujące tę klasę gramatyczną nie łączą się z rzeczownikiem w mianowniku i w konsekwencji nie odmieniają się przez osoby, liczby ani rodzaje. Nie mają także imiesłowów ani form bezosobowych na -no i -to. Tworzą zdania bezpodmiotowe, w których ich forma finitywna przybiera postać identyczną z formą trzeciej osoby rodzaju nijakiego liczby pojedynczej -w przypadku omawianych tu leksemów są to formy analityczne z czasownikiem być, np. było można, byłoby wolno. Taki czysto analityczny sposób odmiany wszystkich wymienionych wyżej leksemów pozwala je zaliczyć do jednej z dwóch podgrup czasowników niewłaściwych, określanej czasem mianem predykatywów (Bańko 2001: 245) 1 ).Tym, co wyróżnia leksemy można, niepodobna, wiadomo, wolno spośród innych predykatywów, jest to, że genetycznie pochodzą one od przymiotników, przy czym część z nich ustabilizowała się w postaci form mianownika liczby pojedynczej rodzaju żeńskiego (można, niepodobna), a część -w postaci krótkich form mianownika liczby pojedynczej rodzaju nijakiego, przekształconych następnie w przysłówki (wiadomo, wolno). Należy dodać, że obecnie leksemy te nie są odbierane jako derywaty słowotwórcze. We współczesnym języku polskim albo nie istnieje słowo, od którego bezpośrednio pochodzi dany wyraz, albo też związek między oboma wyrazami jest całkowicie lub w dużej mierze zatarty.W niniejszym artykule cofniemy się do czasów, kiedy związek pomiędzy poszczególnymi predykatywami a odpowiadającymi im przymiotnikami lub przysłówkami był jeszcze powszechnie odczuwalny, a ich «czasownikowość» nieustabilizowana. Przedstawimy problemy, które stanęły przed redaktorami Słownika języka polskiego XVII i 1. połowy XVIII wieku (SXVII) w trakcie opracowywania haseł opisujących wymienione wyżej leksemy. Zastanowimy się również nad rozwiązaniami, które pozwolą scharakteryzować tę grupę wyrazów tak, aby pokazać ich funkcjonowanie w interesującym nas okresie.Analizie zostaną poddane leksemy wymienione w tytule artykułu. Oprócz nich we współczesnej polszczyźnie istnieją jeszcze dwa wyrazy należące do grupy predykatywów od-JĘZYK POLSKI XCIII 2 95
The article is devoted to the changes in the Middle Polish syntactic construction in which the predicative function was performed by the nominative, singular, feminine form of the adjective. The research carried out on the corpus data was aimed at tracing the process that led to the transformation of those adjectival forms into defective verbs (verbization). The analysis covers six predicative adjectival forms most popular in the 17th and 18th centuries: MOŻNA ‛it is possible’, NIEMOŻNA ‛it is impossible’, NIEPODOBNA ‛it is impossible’, WIELKA ‛it is great’, PEWNA ‛it is certain’ and SŁUSZNA ‛it is right’. The first three of them changed their grammatical status, whereas for the rest the verbization process stopped. The 2nd half of the 18th century and the 1st half of the 19th century were decisive in this respect.
The article presents the Electronic Corpus of 17th- and 18th- century Polish Texts (informally called KorBa) in terms of its usefulness for neo-Latinist research. The corpus contains approximately 0.5 million tokens annotated as Latin words, which makes them easy to find by means of the corpus search engine. The article describes examples of research that can be carried out on the material collected in the corpus, both on individual Latin phrases and on the mutual relations between the Polish language and Latin in Middle Polish texts. Some data taken from the frequency list of Latin word forms in the corpus were also presented.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.