Estimating term domain relevance through term frequency, disjoint corpora frequency - tf-dcf

Lopes, Lucelene; Fernandes, Paulo; Vieira, Renata

doi:10.1016/j.knosys.2015.12.015

Cited by 20 publications

(15 citation statements)

References 12 publications

Supporting

Mentioning

Contrasting

Unclassified

Order By: Relevance

“…Метод TF-IDF (Term Frequency -Inverse Document Frequency) [6] ориентирован на извлечение часто используе-мых слов, к которым относятся ключевые слова, и плохо извлекает редкие термины. Вообще говоря, контрастный подход очень популярен среди исследователей, и на его базе разработано множество разно-образных техник извлечения терминов [7,8].…”

Section: состояние проблемы и текущие исследованияunclassified

Ролевой Подход К Автоматическому Извлечению Фактов Из Естественно-Языковых Китайских Текстов

Бессмертный¹,

Bessmertnyy²,

Юй³

et al. 2017

ППС

View full text Add to dashboard Cite

(Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (ИТМО), Кронверкский просп., 49, г. Санкт-Петербург, 197101, Россия) В работе обсуждается проблема извлечения фактов из китайских текстов. Китайский язык достаточно сложен для машинной обработки, что обусловлено отсутствием пробелов между словами и многозначно-стью иероглифов, поэтому синтаксический анализ текстов невозможен без семантического анализа, поскольку любое сочетание иероглифов может быть интерпретировано неоднозначно. Существующие статистические методы сегментации предложений на слова и синтаксического анализа не обладают до-статочной полнотой и точностью, вследствие чего многофазный процесс (сегментация фраз, синтаксиче-ский анализ, извлечение фактов) приводит к накоплению ошибок.В статье предлагается ролевой подход к выявлению членов предложения на основе служебных слов, предлогов и послелогов, а также достаточно ограниченного словаря. Эти служебные слова и символы позволяют не только сегментировать последовательности символов, но и выявлять роли слов, а значит, и части речи в предложении. Даже такой небольшой набор слов позволяет в большинстве случаев успешно выявлять роль слов в предложении, в частности, имена собственные, существительные, глаго-лы, что делает возможным извлечение из текстов сущностей, а также фактов в виде субъект-предикат-объект. Проведенные на реальных текстах эксперименты показывают удовлетворительные результаты даже при ограниченном словаре. Предложенный подход демонстрирует высокую скорость, поскольку отсутствуют синтаксический разбор и сегментация фраз, использующие переборные методы.Ключевые слова: извлечение фактов, китайский язык, ролевой подход, анализ текстов, словарь, сег-ментация предложений, поверхностный синтаксический анализ, частеречный анализ.Извлечение фактов из китайских текстов (Chinese Open Relation Extraction, CORE) в последние годы является предметом исследования многих авторов. Разработки, предназначенные для алфавитных язы-ков, такие как TextRunner [1], не подходят для китайского языка в силу его особенностей. В китайском языке отсутствуют пробелы между словами, почти любое сочетание иероглифов может быть интерпре-тировано тем или иным способом, а выбор варианта сегментации обычно делается на основе контекста. Из этого следует, что сегментация предложений в китайском языке неотделима от семантического ана-лиза, что существенно усложняет задачу автоматической сегментации фраз. Схожая ситуация наблюда-ется в языках, широко использующих сложные слова. Например, немецкое слово Süsswasserkrokodil мо-жет быть интерпретировано как Süsswasser-krokodil (пресноводный крокодил) или Süss-wasserkrokodil (сладкий водяной крокодил).Вторая проблема обусловлена полисемией иероглифов, каждый из которых может иметь десятки смыслов и быть разным членом предложения, в результате чего многозначность устраняется лишь после анализа всего текста. Аналогичная проблема существует и в других языках, но в значительно меньшем масштабе.Третья проблема вызвана тем, что, нес...

show abstract

Section: состояние проблемы и текущие исследованияunclassified

Ролевой Подход К Автоматическому Извлечению Фактов Из Естественно-Языковых Китайских Текстов

Бессмертный¹,

Bessmertnyy²,

Юй³

et al. 2017

ППС

View full text Add to dashboard Cite

show abstract

“…The candidate target terms for our classification task were taken from the publicly available keylist of Hebrew Wikipedia entries 6 . Since many of these tens of thousands entries, such as person names and place names, were not suitable as target terms, we first filtered them by Hebrew Named Entity Recognition 7 and manually.…”

Section: Evaluation Settingmentioning

confidence: 99%

“…On June 16th 2014, Version 7.0 of Unicode standard was released 6 , adding 2,834 new characters and including, finally, the Linear A character set.…”

Section: Unicode Linear a Characters Setmentioning

confidence: 99%

“…Our lexicon named Collex.LA (Mehler et al, 2015) consists both of manually created lexicon entries as well as of automatically extracted entries from several freely available Web resources, in particular AGFL (Koster and Verbruggen, 2002), LemLat (Passerotti, 2004), Perseus Digital Library (Smith et al, 2000), Whitaker word list 4 , Thomisticum 5 (Busa, 1980;McGilivray et al, 2009), Ramminger word list 6 , and several others. In total it consists of 8 347 062 word forms, 119 595 lemmas and 104 905 superlemmas.…”

Section: Lexiconmentioning

confidence: 99%

See 1 more Smart Citation

Proceedings of the 9th SIGHUM Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH)

2015

View full text Add to dashboard Cite

“…Наконец, еще одна проблема, не свойственная другим языкам, -это отсутствие заимствованных слов, включая имена собственные. Процесс извлечения информации из китайских текстов обычно включает в себя следующие фазы: сегментацию слов (word segmentation) [2,3], выявление частей речи (lexical processing) [4], извлечение терминов [5,6], поверхностный синтаксический анализ (shallow parsing) [7], семантический анализ (domain knowledge analysis). Особенности китайского языка диктуют широкое вовлечение контекста во все перечисленные фазы, вследствие чего даже сегментация слов должна делаться с учетом семантики.…”

unclassified

A method of automatic open relation extraction from Chinese texts

Yu¹

2018

Naučno-teh. vestn. inf. tehnol. meh. opt.

View full text Add to dashboard Cite

В работе исследована проблема извлечения открытых отношений в форме субъект-предикат-объект из китайских текстов. В отличие от общепринятых многофазных методов, включающих сегментацию слов, частеречный и синтаксический анализ, предлагается ролевой подход к выявлению членов предложения без предварительного разбиения последовательности иероглифов на отдельные слова. В основе подхода лежит использование служебных слов, предлогов и послелогов в качестве признаков частей речи и членов предложения. В сочетании со словарем небольшого размера этого достаточно для извлечения фактов по запросу. Проведенные эксперименты на реальном техническом тексте показывают удовлетворительные результаты, сопоставимые с традиционным подходом. Ключевые слова извлечение фактов, китайский язык, ролевой подход, анализ текстов, словарь, сегментация предложений, частеречный анализ

show abstract

Estimating term domain relevance through term frequency, disjoint corpora frequency - tf-dcf

Cited by 20 publications

References 12 publications

Ролевой Подход К Автоматическому Извлечению Фактов Из Естественно-Языковых Китайских Текстов

Ролевой Подход К Автоматическому Извлечению Фактов Из Естественно-Языковых Китайских Текстов

Proceedings of the 9th SIGHUM Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH)

A method of automatic open relation extraction from Chinese texts

Contact Info

Product

Resources

About