Мета: порівняльний аналіз мір асоціації, а також оцінка якості вилучення понять і концептів з корпусу текстів шляхом бінарної класифікації на підставі мір асоціації. Методика: Розглянуто наступні підходи до бінарної класифікації: на підставі порівняння ймовірностей приналежності пари слів класам "поняття і концепти" та "інші біграми", а також на підставі порівняння ймовірності приналежності біграми класу "поняття і концепти" з деяким пороговим значенням. Розрахунок ймовірності приналежності біграми до того чи іншого класу виконувався на підставі значення певної міри асоціації та апроксимованих методом KDE (Kernel Density Estimation) емпіричних функцій густини ймовірності для випадкових величин, представлених значеннями даної міри для біграм з двох класів навчальної вибірки. Розрахунок порогових значень ймовірностей для кожної з мір асоціації виконувався згідно з формалізованим авторським підходом. Оцінка якості класифікації виконувалася на підставі таких критеріїв як точність, повнота та F_1-мера. Результати: При розгляді значень міри асоціації в межах одного класу як випадкової величини, було встановлено, що визначення характеру розподілу в більшості випадків викликає труднощі (відхилення нульової гіпотези за результатами χ^2-тесту для основних відомих розподілів), що дає підстави для використання методу KDE. Показано, що використання апроксимованої методом KDE функції густини ймовірності дозволяє в окремих випадках підвищити значення F_1-міри більш ніж в два рази, в порівнянні з апроксимацією гаусіаною. Встановлено, що класифікація біграм на підставі порівняння ймовірностей приналежності пари слів кожному з класів дає значення F_1-міри в 1,5-2 рази більше, ніж в разі порогової класифікації. Відзначено, що в контексті виділення понять і концептів, першорядним є не стільки значення міри асоціації для окремої біграми, скільки характер статистичного розподілу значень міри у вибірці. Наукова новизна: запропоновано два підходи до бінарної класифікації пар слів з метою виділення понять і концептів з текстів. Виконано оцінку якості кожного з підходів, в залежності від використовуваної міри асоціації. Практична значимість: запропоновані підходи до виділення понять і концептів можуть бути корисні в контексті автоматизації добування інформації зі слабоструктурованих текстових джерел (автоматизоване формування онтологій, баз знань тощо). Ключові слова: виділення понять та концептів; колокації; міри асоціації; класифікація; міра Міколова, функція логарифмічної правдоподібності; метод KDE.
В роботі наведено результати оцінки якості двійкової класифікації пар слів (біграм) на підставі різних мір асоціації, в ході якої виконувався поділ біграм на класи «концепти і поняття» та «інші біграми». Показано, що звичайне ранжування об’єктів на підставі значень мір асоціації, з подальшим застосуванням порогової фільтрації (або відбором фіксованої кількості перших елементів сортованого списку), дозволяє отримати лише деяку вершину рейтингу, але не дозволяє досягти ефективного вирішення задачі класифікації. Запропонований авторами підхід заснований на пороговій фільтрації не значень міри асоціації, але ймовірності приналежності біграми класу «концепти і поняття» при заданому значенні міри асоціації. Вказана ймовірність розраховується на підставі значень функцій густини ймовірності (ФГЙ), що відповідають розподілам міри асоціації як випадкової величини в обох класах. Побудову емпіричних ФГЙ виконано шляхом аналізу розміченої навчальної вибірки. Визначення порогового значення ймовірності зведено до вирішення одновимірної задачі оптимізації, в ході якої максимізується відношення кількості об’єктів, ідентифікованих як «концепти і поняття», до кількості об’єктів, віднесених до класу «інші біграми». Визначення характеру статистичного розподілу більшості розглянутих мір асоціації викликає труднощі (відхилення нульової гіпотези для основних відомих розподілів за результатами
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.