In this paper, we present NEREL, a Russian dataset for named entity recognition and relation extraction. NEREL is significantly larger than existing Russian datasets: to date it contains 56K annotated named entities and 39K annotated relations. Its important difference from previous datasets is annotation of nested named entities, as well as relations within nested entities and at the discourse level. NEREL can facilitate development of novel models that can extract relations between nested named entities, as well as relations on both sentence and document levels. NEREL also contains the annotation of events involving named entities and their roles in the events. The NEREL collection is available via https://github.com/nerel-ds/NEREL.
(Новосибирский государственный университет, ул. Пирогова, 2, г. Новосибирск, 630090, Россия); старший научный сотрудник (Институт систем информатики им. А.П. Ершова СО РАН, просп. Лаврентьева, 6, г. Новосибирск, 630090, Россия) Классификация текстов является одной из основных задач компьютерной лингвистики, поскольку к ней сводится ряд других задач: определение тематической принадлежности текстов, автора текста, эмоциональной окраски выска-зываний и др. Для обеспечения информационной и общественной безопасности большое значение имеет анализ в те-лекоммуникационных сетях контента, содержащего противоправную информацию (в том числе данные, связанные с терроризмом, наркоторговлей, подготовкой протестных движений или массовых беспорядков).Данная статья представляет собой обзор методов классификации текстов, целями которого являются сравнение современных методов решения задачи классификации текстов, обнаружение тенденций развития данного направле-ния, а также выбор наилучших алгоритмов для применения в исследовательских и коммерческих задачах.Широко известный современный подход к классификации основывается на методах машинного обучения. В дан-ной статье описываются наиболее распространенные алгоритмы построения классификаторов, проводимые с ними эксперименты и результаты этих экспериментов. Обзор подготовлен на основе выполненных за 2011-2016 гг. научных работ, находящихся в открытом доступе в сети Интернет и опубликованных в авторитетных журналах или в трудах международных конференций, высоко оцениваемых научным сообществом.В статье произведены анализ и сравнение качества работы различных методов классификации по таким характе-ристикам, как точность, полнота, время работы алгоритма, возможность работы алгоритма в инкрементном режиме, количество предварительной информации, необходимой для классификации, независимость от языка.Ключевые слова: классификация текстов, анализ текстовой информации, обработка данных, машинное обуче-ние, нейронные сети, качество классификации.Прогресс в области микроэлектроники и инфор-мационных технологий обусловил широкое рас-пространение обработки в реальном времени боль-ших потоков данных. Например, многие простые операции повседневной жизни, такие как использо-вание кредитной карты или телефона, требуют ав-томатизированного создания, анализа и обработки различных данных. Поскольку эти операции часто выполняются большим числом участников, необ-ходимы распределенные и массовые потоки дан-ных. Точно так же социальные сети содержат боль-шое количество специфических сетевых и тексто-вых потоков данных. Поэтому актуальна проблема создания моделей и алгоритмов, позволяющих эф-фективно обрабатывать большие потоки данных, особенно в условиях ограниченных временных и других ресурсов.Для обеспечения информационной и обще-ственной безопасности важное значение имеет ана-лиз в телекоммуникационных сетях контента, со-держащего противоправную информацию (в том числе данных, связанных с терроризмом, наркотор-говлей, сетевым экстремизмом, подготовкой про-тестных движений или массовых беспорядков).Це...
In this paper, we present a shared task on core information extraction problems, named entity recognition and relation extraction. In contrast to popular shared tasks on related problems, we try to move away from strictly academic rigor and rather model a business case. As a source for textual data we choose the corpus of Russian strategic documents, which we annotated according to our own annotation scheme. To speed up the annotation process, we exploit various active learning techniques. In total we ended up with more than two hundred annotated documents. Thus we managed to create a high-quality data set in short time. The shared task consisted of three tracks, devoted to 1) named entity recognition, 2) relation extraction and 3) joint named entity recognition and relation extraction. We provided with the annotated texts as well as a set of unannotated texts, which could of been used in any way to improve solutions. In the paper we overview and compare solutions, submitted by the shared task participants. We release both raw and annotated corpora along with annotation guidelines, evaluation scripts and results at https://github.com/dialogue-evaluation/RuREBus.
Статья посвящена проблемам семантического анализа текстов. Рассмотрены различные методы: диаграммы зави-симостей и семантические сети, подходы, основанные на лексических функциях и тематических классах, фреймовые и онтологические модели, логические модели представления знаний. На данный момент существуют различные ме-тоды представления смысла высказываний.Создание новых методов семантического анализа текстов актуально для решения многих задач компьютерной лингвистики, таких как машинный перевод, автореферирование, классификация текстов и других. Не менее важна разработка новых инструментов, позволяющих автоматизировать семантический анализ.Несмотря на то, что некоторые научные и технические идеи в области обработки текстов развиваются довольно быстро, многие проблемы семантического анализа остаются нерешенными. Большинство исследователей пришло к выводу, что словарь для поддержки семантического анализа должен оперировать смыслами и, следовательно, описы-вать свойства и отношения понятий, а не слов. Но возникает вопрос, как правильно структурировать и представлять информацию в подобных словарях, чтобы поиск по ним был удобным и быстрым, а кроме того, можно было бы учи-тывать изменения в естественном языке (исчезновение старых и возникновение новых понятий). В данной статье пред-принята попытка систематизировать известные достижения в области семантического анализа и в какой-то мере найти ответ на этот и другие вопросы.Ключевые слова: семантический анализ, автоматическая обработка текста, извлечение информации, семанти-ческие сети, логика предикатов, представление знаний, смысл высказывания.Помимо знаний о структуре языка, семантика тесно связана с философией, психологией и дру-гими науками, так как неизбежно затрагивает во-просы о происхождении значений слов, их отноше-нии к бытию и мышлению. При семантическом анализе необходимо учитывать социальные и куль-турные особенности носителя языка. Процесс че-ловеческого мышления, как и язык, который явля-ется инструментом выражения мыслей, очень гиб-кий и трудно поддается формализации. Поэтому семантический анализ по праву считается самым сложным этапом автоматической обработки тек-стов.На данный момент существует много методов представления смысла высказываний, однако ни один из них не является универсальным. Над соот-несением смысла тексту работали многие исследо-ватели. Так, И.А. Мельчук [1] ввел понятие лекси-ческой функции, развил понятия синтаксических и семантических валентностей и рассмотрел их в контексте толково-комбинаторного словаря, кото-рый представляет собой языковую модель. Он по-казал, что значения слов соотносятся не непосред-ственно с окружающей действительностью, а с представлениями носителя языка об этой действи-тельности. В.Ш. Рубашкин и Д.Г. Лахути [2] ввели иерархию синтаксических связей для более эффек-тивной работы семантического анализатора. Са-мыми важными являются обязательные ролевые связи, далее идут связи кореференции, затем факультативные ролевые связи и только потом предметно-ассоциативные. Известный лингвист Е.В. Падучева [3] предлагае...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.