A Spinning Wheel for YARN: User Interface for a Crowdsourced Thesaurus

Braslavski, Pavel; Ustalov, Dmitry; Mukhin, Mikhail Yu.

doi:10.3115/v1/e14-2026

Cited by 20 publications

(7 citation statements)

References 2 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Russian MWEs English MWEs мировая война (mirovaya voyna) 'world war' world war советский союз (sovetskiy soyuz) 'soviet union' soviet union настоящее время (nastoyashchee vremya) 'present time' feature film чемпионат мира (chempionat mira) 'world cup' binomial name населенный пункт (naselennyy punkt) 'human settlement' world champion водные ресурсы (vodnye resursy) 'water resources' popular culture We adopt Wiktionary as the gold standard dataset for Russian and English due to use of Russian Wiktionary as a data source for WordNet-like resources. The single-word nouns from Wiktionary were used as "raw materials" for the Yet Another RussNet (YARN) project (Braslavski et al, 2014). Comparison of vocabularies in the English and Russian editions of Wiktionary is described in (Krizhanovsky and Smirnov, 2013).…”

Section: Discussionmentioning

confidence: 99%

Clustering-based Approach to Multiword Expression Extraction and Ranking

Tutubalina¹

2015

Proceedings of the 11th Workshop on Multiword Expressions

View full text Add to dashboard Cite

We present a domain-independent clusteringbased approach for automatic extraction of multiword expressions (MWEs). The method combines statistical information from a general-purpose corpus and texts from Wikipedia articles. We incorporate association measures via dimensions of data points to cluster MWEs and then compute the ranking score for each MWE based on the closest exemplar assigned to a cluster. Evaluation results, achieved for two languages, show that a combination of association measures gives an improvement in the ranking of MWEs compared with simple counts of cooccurrence frequencies and purely statistical measures.

show abstract

Section: Discussionmentioning

confidence: 99%

Clustering-based Approach to Multiword Expression Extraction and Ranking

Tutubalina¹

2015

Proceedings of the 11th Workshop on Multiword Expressions

View full text Add to dashboard Cite

show abstract

“…Эксперименты проводились с использованием сервиса управления процессом краудсорсинга [28], развёрнутом в СКЦ ИММ УрО РАН 4 . Результаты обоих экспериментов доступны в виде откры-тых данных 5,6 .…”

Section: приложения в компьютерной лингвистикеunclassified

“…Исследование применимости процедуры добавить-удалить-подтвердить про-водилось по материалам открытого электронного тезауруса русского языка Yet Another RussNet [5], поскольку он распространяется на условиях свободной лицен-зии Creative Commons (CC BY-SA), создан при помощи краудсорсинга, и содержит большое количество дублирующих друг друга понятий [5]. В качестве данных для эксперимента использовано подмножество тезауруса, состоящее из ста синсетов, для которых имеется большое количество дубликатов.…”

Section: In(c) = {Y Ar→c } причём H(c)∩h(y Ar→c ) = Pk(y Ar→c ) =unclassified

“…Исследование применимости процедуры род-вид-сопоставить проводилось по материалам открытого электронного тезауруса русского языка Yet Another RussNet [5]. При подготовке данных осуществлялось сопоставление синсетов со словарём предметной области безопасность жизнедеятельности 7 : набор данных для постро-ения родо-видовых отношений состоял из 2271 синсета и 383 кандидатов-отношений.…”

Section: построение родо-видовых отношенийunclassified

“…Зарубежные исследователи успешно применяют краудсорсинг для построения и разметки языковых ресурсов [2], в том числе лекси-ческих онтологий, словарей тональности и др. Отечественные исследователи при-меняют краудсорсинг преимущественно без денежного вознаграждения участников, вместо этого полагаясь на их альтруизм при построении открытых русскоязычных языковых ресурсов, таких как корпус текстов со снятой неоднозначностью [3], кор-пус текстов для перефразирования [4], электронный тезаурус [5]. В русскоязычной литературе множество участников процесса краудсорсинга получило название тол-па (англ.…”

Section: Introductionunclassified

See 2 more Smart Citations