V.A. SVIATNYI scite author profile

V.A. SVIATNYI

2Publications

0Citation Statements Received

0Citation Statements Given

How they've been cited

How they cite others

Affiliations

Publications

Order By: Most citations

Extraction of Notions and Concepts From Nl Texts on the Basis of Association Measures

Haiduk¹,

SVIATNYI²

2020

NVDNTU

View full text Add to dashboard Cite

Мета: порівняльний аналіз мір асоціації, а також оцінка якості вилучення понять і концептів з корпусу текстів шляхом бінарної класифікації на підставі мір асоціації. Методика: Розглянуто наступні підходи до бінарної класифікації: на підставі порівняння ймовірностей приналежності пари слів класам "поняття і концепти" та "інші біграми", а також на підставі порівняння ймовірності приналежності біграми класу "поняття і концепти" з деяким пороговим значенням. Розрахунок ймовірності приналежності біграми до того чи іншого класу виконувався на підставі значення певної міри асоціації та апроксимованих методом KDE (Kernel Density Estimation) емпіричних функцій густини ймовірності для випадкових величин, представлених значеннями даної міри для біграм з двох класів навчальної вибірки. Розрахунок порогових значень ймовірностей для кожної з мір асоціації виконувався згідно з формалізованим авторським підходом. Оцінка якості класифікації виконувалася на підставі таких критеріїв як точність, повнота та F_1-мера. Результати: При розгляді значень міри асоціації в межах одного класу як випадкової величини, було встановлено, що визначення характеру розподілу в більшості випадків викликає труднощі (відхилення нульової гіпотези за результатами χ^2-тесту для основних відомих розподілів), що дає підстави для використання методу KDE. Показано, що використання апроксимованої методом KDE функції густини ймовірності дозволяє в окремих випадках підвищити значення F_1-міри більш ніж в два рази, в порівнянні з апроксимацією гаусіаною. Встановлено, що класифікація біграм на підставі порівняння ймовірностей приналежності пари слів кожному з класів дає значення F_1-міри в 1,5-2 рази більше, ніж в разі порогової класифікації. Відзначено, що в контексті виділення понять і концептів, першорядним є не стільки значення міри асоціації для окремої біграми, скільки характер статистичного розподілу значень міри у вибірці. Наукова новизна: запропоновано два підходи до бінарної класифікації пар слів з метою виділення понять і концептів з текстів. Виконано оцінку якості кожного з підходів, в залежності від використовуваної міри асоціації. Практична значимість: запропоновані підходи до виділення понять і концептів можуть бути корисні в контексті автоматизації добування інформації зі слабоструктурованих текстових джерел (автоматизоване формування онтологій, баз знань тощо). Ключові слова: виділення понять та концептів; колокації; міри асоціації; класифікація; міра Міколова, функція логарифмічної правдоподібності; метод KDE.

show abstract

Оцінка Точності Виділення Концептів І Понять На Основі Мір Асоціації

Haiduk¹,

Shevchenko²,

SVIATNYI³

2023

ППММ

View full text Add to dashboard Cite

В роботі наведено результати оцінки якості двійкової класифікації пар слів (біграм) на підставі різних мір асоціації, в ході якої виконувався поділ біграм на класи «концепти і поняття» та «інші біграми». Показано, що звичайне ранжування об’єктів на підставі значень мір асоціації, з подальшим застосуванням порогової фільтрації (або відбором фіксованої кількості перших елементів сортованого списку), дозволяє отримати лише деяку вершину рейтингу, але не дозволяє досягти ефективного вирішення задачі класифікації. Запропонований авторами підхід заснований на пороговій фільтрації не значень міри асоціації, але ймовірності приналежності біграми класу «концепти і поняття» при заданому значенні міри асоціації. Вказана ймовірність розраховується на підставі значень функцій густини ймовірності (ФГЙ), що відповідають розподілам міри асоціації як випадкової величини в обох класах. Побудову емпіричних ФГЙ виконано шляхом аналізу розміченої навчальної вибірки. Визначення порогового значення ймовірності зведено до вирішення одновимірної задачі оптимізації, в ході якої максимізується відношення кількості об’єктів, ідентифікованих як «концепти і поняття», до кількості об’єктів, віднесених до класу «інші біграми». Визначення характеру статистичного розподілу більшості розглянутих мір асоціації викликає труднощі (відхилення нульової гіпотези для основних відомих розподілів за результатами

show abstract

scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.

Contact Info

hi@scite.ai

10624 S. Eastern Ave., Ste. A-614

Henderson, NV 89052, USA

Blog Terms and Conditions API Terms Privacy Policy Contact Cookie Preferences Do Not Sell or Share My Personal Information

Made with 💙 for researchers

Part of the Research Solutions Family.

V.A. SVIATNYI

Extraction of Notions and Concepts From Nl Texts on the Basis of Association Measures

Оцінка Точності Виділення Концептів І Понять На Основі Мір Асоціації

Contact Info

Product

Resources

About