С помощью корреляционного анализа биграмм рассмотрена степень близости русских списков Евангелий XI-XIV веков разного типа - полных апракосов, кратких апракосов, тетра - друг другу, а также степень близости Пантелеймонова Евангелия XII века (полный апракос) каждому из типов. Анализу подвергнуты перечни биграмм с наибольшим значением T-score, компонентами которых являются леммы; объем выборок из каждого подкорпуса - 300 элементов. Для выявления близости перечней к рангам биграмм применена непараметрическая статистика r-Спирмена, к значениям в соответствии со статистической мерой T-score - статистика r-Пирсона. Полученные результаты позволяют сделать выводы о наличии корреляционной связи между сопоставляемыми массивами биграмм, которая имеет высокую статистическую вероятность, а также о достаточно существенной степени корреляции, которая характеризуется или как умеренная, или как заметная. Оценка силы связи между подкорпусами позволяет говорить и о различиях в степени близости сопоставляемых массивов биграмм. В соответствии с ранговой корреляцией r-Спирмена наибольшую близость обнаруживают подкорпус полных и подкорпус кратких апракосов, а также Пантелеймоново Евангелие и полные апракосы, наименьшую - краткие апракосы и тетр, а также Пантелеймоново Евангелие и тетр (или краткие апракосы). В соответствии с корреляцией r-Пирсона наибольшая близость выявлена между полными апракосами и тетром, наименьшая - между полными и краткими апракосами. Отношения Пантелеймонова Евангелия с тетром и краткими апракосами аналогичны отношениям с ними полных апракосов.
Статья посвящена представлению мультимедийного Корпуса русских говоров Удмуртии (http://dialect.manuscripts.ru) как электронного ресурса для изучения диалектной лексики не только методами корпусной лингвистики, но и методами лингвистической географии и электронной лексикографии. Корпус включает записи устной диалектной речи, сделанные во время диалектологических практик студентами и сотрудниками вузов республики в 70 – 80-е годы XX в. Мультимедийной составляющей корпуса являются аудиозаписи разговоров с диалектоносителями, сделанные в 1990 – 2000-е годы. Корпус имеет лексическую разметку, позволяющую осуществлять поиск диалектных слов. В лексикографическом модуле корпуса осуществляется поиск лексемы и представление лингвистической и экстралингвистической информации о ней. В лингвогеографическом модуле можно произвести выборку всех ответов на один из вопросов программы, на которой основана разметка корпуса, и вынести полученные слова на карту Удмуртии. В статье рассмотрены некоторые результаты диалектологических исследований, полученные благодаря корпусу, приведены примеры карт и словарных статей, составленных при помощи корпусного менеджера.
В работе описаны два статистических эксперимента, целью которых стало выявление корреляционной близости / удаленности 12 текстов, дошедших до нас в русских списках XI века, и сопоставление с ними произведений автора XII века Кирилла Туровского (РНБ, F.п.I. 39, XIII в.; лл. 1–48), приведены результаты сопоставительного анализа: а) различных способов извлечения лингвистических единиц из текстов и б) выборок разного объема, а также лингвистической интерпретации основных закономерностей группировки рукописей. Степень лингвостатистической тесноты рукописей вычисляется в два этапа: на первом сопоставляются перечни наиболее частотных слов каждой пары текстов (вычисляется коэффициент ранговой корреляции Спирмена), на втором тексты группируются на основе полученных значений корреляции, которые принимаются за расстояния между рукописями (используется кластерный анализ и строится дендрограмма). Извлечение наиболее частотных слов рукописей, построение ранжированных перечней, получение сведений о количестве (а соответственно, о ранге) каждой из форм в других кодексах выполнено с помощью модуля статистики исторического корпуса «Манускрипт». Вычисление коэффициентов корреляции текстов и кластеризация текстов осуществлены с помощью программного пакета «Статистика» (TIBCO Software Inc.). Проанализированы перечни разного объема (от 50 до 300 словоформ), состоящие из единиц разной степени унификации относительно текстовых форм.Результатом первого эксперимента стало выявление трех основных устойчивых кластеров подкорпуса – группы Евангелий, группы миней и группы сборников разного содержания. Второй эксперимент дал возможность увидеть зависимость близости проповедей Кирилла Туровского разным кластерам от степени унификации форм в выборках и объема последних.Лингвистический анализ результатов позволил выявить лексико-грамматические и лексико-семантические факторы, определяющие вхождение текстов Кирилла Туровского при различных исходных условиях выборки в разные кластеры – в группу Евангельских списков (при объеме выборки 50 или 100 слов), в подгруппу сборников (при выборке в 200 слов), в подгруппу Изборника 1073 г. и Пандектов Антиоха (выборка – 300 слов).
В статье описаны функции и параметры модуля n-грамм информационно-аналитической системы (корпуса) «Манускрипт» и итоги эксперимента по применению нескольких статистических методов в корпусе текстов М. В. Ломоносова. Показано, что количественные и статистические методы оценки биграмм применимы к авторскому историческому корпусу и позволяют выявлять устойчивые сочетания.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.