“…Wczesne językoznawstwo korpusowe, z jego traktowaniem świadectwa tekstu jak rodzimego użytkownika języka, przypominało metodę filologiczną Szybko jednak oko badacza zaczęło rejestrować przede wszystkim to, co w korpusie seryjne, ciężar dowodu zaś przesunął się na argumentację przede wszystkim ilościową Nie pojedyncza osobliwa konstrukcja czy forma, ale właśnie to, co typowe, staje się przedmiotem zainteresowania badaczy Tą drogą też coraz częściej podążają lingwiści interesujący się przeszłością języka Szersze zastosowanie zaawansowanych technik statystycznych wymaga powiększenia skali korpusów W językoznawstwie historycznym brak tekstów zawsze stanowił wąskie gardło, warto jednak zauważyć, że było to mniej dotkliwe, dopóki filolog pracował z fiszką i piórem, gdyż największym ograniczeniem było jego tempo pracy Współcześnie, gdy przeszukiwanie zbiorów o objętości milionów czy nawet miliardów słów nie stanowi problemu, to właśnie niedostateczna liczba dawnych tekstów staje się największą przeszkodą dla badacza Nie znaczy to oczywiście, że w epoce poprzedzającej powstanie korpusów elektronicznych w językoznawstwie historycznym świadomość roli danych ilościowych nie istniała Znakomitą pracą, w której przebieg zmian jakościowych jest śledzony poprzez precyzyjny opis ilościowy, jest opracowanie Ireny Bajerowej (1964), podobnie -tekst Anny Wierzbickiej (1966, by wymienić tylko dwie dawne prace Wróćmy więc do samych korpusów historycznych Z niewielkim ryzykiem pomyłki można powiedzieć, że pierwsze takie korpusy dokumentowały język angielski od jego początków do XVIII w (Rissanen 1992) Korpusem dawnej polszczyzny, który powstał jako pierwszy, a zarazem dokumentuje najstarszą warstwę języka, jest Korpus tekstów staropolskich (stworzony przez zespół Słownika staropolskiego IJP PAN, a opisany w pracy Twardzik, Górski 2003) 2 Korpus ten obejmuje zasadniczo wszystkie znane polskie teksty ciągłe do roku 1500 Wiek XVI reprezentuje korpus tworzony przez Pracownię Słownika Polszczyzny XVI Wieku IBL PAN 3 Oba te korpusy nie są lematyzowane ani opatrzone anotacją fleksyjną (morfosyntaktyczną) Okres 1600-1772 pokrywa Elektroniczny Korpus Tekstów Polskich z XVII i XVIII w (do 1772 r ) (KorBa, por Gruszczyński, Adamiec, Ogrodniczuk 2013;Gruszczyński, Adamiec, Bronikowska, Kieraś, Modrzejewski, Wieczorek, Woliński 2022) Oczywiście granica pomiędzy korpusem historycznym i diachronicznym może być płynna Przykładowo KorBa zasadniczo nie jest skonstruowana jako korpus diachroniczny Pokrywa on jednak okres 172 lat (a więc niewiele mniej niż CLMET), okres, w którym zaszło wiele zmian, w tym zmian systemowych, doskonale więc może służyć do badania ich przebiegu Użytkownik dzięki metadanym może tworzyć dowolne chronologicznie uporządkowane podkorpusy, jakkolwiek musi pamiętać o tym, że będą się one różniły zapewne zarówno wielkością, jak i budową Problem zróżnicowanej budowy podkorpusów korpusu diachronicznego jest zresztą nieusuwalny Zauważmy, że w wypadku polszczyzny wiek XV reprezentują niemal wyłącznie teksty religijne i prawne, współcześnie dalece nie najważniejsze Stopniowo pojawiają się nowe typy tekstów, a podstawowa dzisiaj prasa wyłania się na szerszą skalę dopiero w XIX w Piszemy o tym w kontekście planowanego przedsięwzięcia -stworzenia Narodowego Diachronicznego Korpusu Polszczyzny, który miałby scalić istniejące korpusy historyczne tak, by reprezentując wszystkie epoki, stanowiły korpus diachroniczny (Król et al 2019), lecz także by bardzo wyraźnie podkreślić, że opisywany tutaj korpus jest korpusem historycznym, ale też i synchronicznym…”