Abstract:YARN (Yet Another RussNet) project started in 2013 aims at creating a large open thesaurus for Russian using crowdsourcing. This paper describes synset assembly interface developed within the project -motivation behind it, design, usage scenarios, implementation details, and first experimental results.
“…Russian MWEs English MWEs мировая война (mirovaya voyna) 'world war' world war советский союз (sovetskiy soyuz) 'soviet union' soviet union настоящее время (nastoyashchee vremya) 'present time' feature film чемпионат мира (chempionat mira) 'world cup' binomial name населенный пункт (naselennyy punkt) 'human settlement' world champion водные ресурсы (vodnye resursy) 'water resources' popular culture We adopt Wiktionary as the gold standard dataset for Russian and English due to use of Russian Wiktionary as a data source for WordNet-like resources. The single-word nouns from Wiktionary were used as "raw materials" for the Yet Another RussNet (YARN) project (Braslavski et al, 2014). Comparison of vocabularies in the English and Russian editions of Wiktionary is described in (Krizhanovsky and Smirnov, 2013).…”
We present a domain-independent clusteringbased approach for automatic extraction of multiword expressions (MWEs). The method combines statistical information from a general-purpose corpus and texts from Wikipedia articles. We incorporate association measures via dimensions of data points to cluster MWEs and then compute the ranking score for each MWE based on the closest exemplar assigned to a cluster. Evaluation results, achieved for two languages, show that a combination of association measures gives an improvement in the ranking of MWEs compared with simple counts of cooccurrence frequencies and purely statistical measures.
“…Russian MWEs English MWEs мировая война (mirovaya voyna) 'world war' world war советский союз (sovetskiy soyuz) 'soviet union' soviet union настоящее время (nastoyashchee vremya) 'present time' feature film чемпионат мира (chempionat mira) 'world cup' binomial name населенный пункт (naselennyy punkt) 'human settlement' world champion водные ресурсы (vodnye resursy) 'water resources' popular culture We adopt Wiktionary as the gold standard dataset for Russian and English due to use of Russian Wiktionary as a data source for WordNet-like resources. The single-word nouns from Wiktionary were used as "raw materials" for the Yet Another RussNet (YARN) project (Braslavski et al, 2014). Comparison of vocabularies in the English and Russian editions of Wiktionary is described in (Krizhanovsky and Smirnov, 2013).…”
We present a domain-independent clusteringbased approach for automatic extraction of multiword expressions (MWEs). The method combines statistical information from a general-purpose corpus and texts from Wikipedia articles. We incorporate association measures via dimensions of data points to cluster MWEs and then compute the ranking score for each MWE based on the closest exemplar assigned to a cluster. Evaluation results, achieved for two languages, show that a combination of association measures gives an improvement in the ranking of MWEs compared with simple counts of cooccurrence frequencies and purely statistical measures.
“…Эксперименты проводились с использованием сервиса управления процессом краудсорсинга [28], развёрнутом в СКЦ ИММ УрО РАН 4 . Результаты обоих экспериментов доступны в виде откры-тых данных 5,6 .…”
Section: приложения в компьютерной лингвистикеunclassified
“…Исследование применимости процедуры добавить-удалить-подтвердить про-водилось по материалам открытого электронного тезауруса русского языка Yet Another RussNet [5], поскольку он распространяется на условиях свободной лицен-зии Creative Commons (CC BY-SA), создан при помощи краудсорсинга, и содержит большое количество дублирующих друг друга понятий [5]. В качестве данных для эксперимента использовано подмножество тезауруса, состоящее из ста синсетов, для которых имеется большое количество дубликатов.…”
“…Исследование применимости процедуры род-вид-сопоставить проводилось по материалам открытого электронного тезауруса русского языка Yet Another RussNet [5]. При подготовке данных осуществлялось сопоставление синсетов со словарём предметной области безопасность жизнедеятельности 7 : набор данных для постро-ения родо-видовых отношений состоял из 2271 синсета и 383 кандидатов-отношений.…”
“…Зарубежные исследователи успешно применяют краудсорсинг для построения и разметки языковых ресурсов [2], в том числе лекси-ческих онтологий, словарей тональности и др. Отечественные исследователи при-меняют краудсорсинг преимущественно без денежного вознаграждения участников, вместо этого полагаясь на их альтруизм при построении открытых русскоязычных языковых ресурсов, таких как корпус текстов со снятой неоднозначностью [3], кор-пус текстов для перефразирования [4], электронный тезаурус [5]. В русскоязычной литературе множество участников процесса краудсорсинга получило название тол-па (англ.…”
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.