Дослiджується проблема розробки ефективного способу визначення авторства текстiв (на матерiалi публiкацiй вiдомих українських журналiстiв). Бiльшiсть наявних методiв потребують попередньої обробки тексту, що тягне за собою новi витрати при розв'язаннi поставленої задачi. У випадку, коли кiлькiсть можливих авторiв можна мiнiмiзувати, такий пiдхiд є часто надлишковим. Ще одним недолiком наявних пiдходiв є те, що переважна бiльшiсть їх застосовувалися до iншомовних текстiв i не враховували особливостей української мови. Тому було вирiшено розробити пiдхiд, що дозволяє визначити автора тексту українською мовою без попередньої обробки та дає високi результати точностi, а також встановити, якi типи штучних нейронних мереж забезпечують мiнiмальну похибку для українських публiцистiв. Розроблений метод використовує багатошаровий персептрон прямого поширення, алгоритм навчання з учителем, векторизацiю HashingVectoriser, оптимiзатор Adam. Визначено, що при невеликiй кiлькостi iтерацiй (4-5 iтерацiй) навчання штучної нейронної мережi отримується досить висока точнiсть визначення авторства публiцистичних текстiв та досить мале значення похибки. Використано бiльше 1000 фрагментiв текстiв трьох українських авторiв. У результатi проведених експериментiв було встановлено, що застосовування розробленого пiдходу до розв'язання поставленої задачi дає змогу досягти досить високих результатiв. У текстах, що мiстять не менше 500 символiв, точнiсть сягає 91 %, а максимальна кiлькiсть iтерацiй навчання штучної нейронної мережi при цьому не перевищує 15. Такi результати досягнутi насамперед завдяки ефективному пiдбору методу векторизацiї на пiдготовчому етапi та структури штучної нейронної мережi Ключовi слова: визначення авторства, аналiз тексту, штучнi нейроннi мережi, багатошаровий персептрон, векторизацiя тексту
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.