Дослiджується проблема розробки ефективного способу визначення авторства текстiв (на матерiалi публiкацiй вiдомих українських журналiстiв). Бiльшiсть наявних методiв потребують попередньої обробки тексту, що тягне за собою новi витрати при розв'язаннi поставленої задачi. У випадку, коли кiлькiсть можливих авторiв можна мiнiмiзувати, такий пiдхiд є часто надлишковим. Ще одним недолiком наявних пiдходiв є те, що переважна бiльшiсть їх застосовувалися до iншомовних текстiв i не враховували особливостей української мови. Тому було вирiшено розробити пiдхiд, що дозволяє визначити автора тексту українською мовою без попередньої обробки та дає високi результати точностi, а також встановити, якi типи штучних нейронних мереж забезпечують мiнiмальну похибку для українських публiцистiв. Розроблений метод використовує багатошаровий персептрон прямого поширення, алгоритм навчання з учителем, векторизацiю HashingVectoriser, оптимiзатор Adam. Визначено, що при невеликiй кiлькостi iтерацiй (4-5 iтерацiй) навчання штучної нейронної мережi отримується досить висока точнiсть визначення авторства публiцистичних текстiв та досить мале значення похибки. Використано бiльше 1000 фрагментiв текстiв трьох українських авторiв. У результатi проведених експериментiв було встановлено, що застосовування розробленого пiдходу до розв'язання поставленої задачi дає змогу досягти досить високих результатiв. У текстах, що мiстять не менше 500 символiв, точнiсть сягає 91 %, а максимальна кiлькiсть iтерацiй навчання штучної нейронної мережi при цьому не перевищує 15. Такi результати досягнутi насамперед завдяки ефективному пiдбору методу векторизацiї на пiдготовчому етапi та структури штучної нейронної мережi Ключовi слова: визначення авторства, аналiз тексту, штучнi нейроннi мережi, багатошаровий персептрон, векторизацiя тексту
TfidVectorizer. Проведені дослідження засвідчили, що всі розглядувані підходи найбільш ефективно розрізняють офіційно-ділові тексти, що пояснюється їх найбільшою стандартизованістю. Особливо ефективно розрізняються науковий та офіційно-діловий стилі. Найменшу точність розглядувані методи показують при визначенні стильової приналежності, коли одним зі стилів є публіцистичний. Найбільш ефективним підходом для визначення стильової приналежності виявилось поєднання методу векторизації tfidVectorizer та обох архітектур штучних нейронних мереж Support Vector Machines. На попередньому етапі для збільшення ефективності використовувався стемінг слів. У текстах, що містять не менше 500 символів, такий підхід допоміг забезпечити точність 94-98%, а час для навчання штучної нейронної мережі при цьому не перевищує одну секунду на комп'ютерах стандартної на цей час конфігурації. За допомогою бібліотеки Lime наведено візуалізацію дослідження роботи штучної нейронної мережі, що є надзвичайно важливим емпіричним матеріалом для фахівців-філологів для проведення подальшого лінгвістичного аналізу.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.