В статье рассмотрены существующие подходы к реализации вопросно-ответных систем, готовые ре-шения, которые могли бы использоваться в качестве основы, выявлены их достоинства и недостатки, предложены альтернативные подходы к построению системы, представлена их функциональная структу-ра. Предложена математическая модель решения задачи, приведены результаты экспериментов в услови-ях ограниченного объема семантически размеченного корпуса для сравнения качества работы альтерна-тивных решений.Ключевые слова: вопросно-ответная система, QAS, семантико-синтаксический анализатор, SRL, семантически размеченный корпус.Современные поисковые системы обеспечивают выдачу множества разных типов информации в виде веб-страниц, документов, изображений, видео, новостей и карт, но до сих пор не в состоянии в полной мере распознавать запросы на естественном языке и формировать ответы в соответствующем формате. Подобных запросов, согласно проведенным поисковой системой Яндекс исследованиям [1], задается по-рядка полутора миллионов в день, что составляет более 1 % от общего ежедневного потока запросов. Как результат подобных запросов -список релевантных ссылок, по которым пользователю предстоит осуществить дополнительный поиск информации, что является неоптимальным вариантом с точки зре-ния затраченных пользователем времени и ресурсов. В связи с этим в последнее время наблюдается смещение акцентов в сторону использования интеллектуальных систем поиска информации, каковыми считаются вопросно-ответные системы.Вопросно-ответная система (QA) в общем случае представляет собой информационную систему, ак-кумулирующую в себе комплекс справочных и интеллектуальных систем, использующих естественно-языковой интерфейс. На вход QA-системе формируется вопрос на естественном языке, обработав кото-рый, система генерирует естественно-языковой ответ. В качестве источников данных система использует как локальные хранилища, так и глобальную сеть Интернет.В настоящий момент известные реализации вопросно-ответных систем имеют показатель качества работы ниже 60 %. Оценка качества работы таких систем осуществляется на тестовых данных, разрабо-танных обществом экспертов и представленных в виде фрагмента текста, вопроса по этому тексту и предполагаемого ответа. В случае, если система по запросу выдает результат, не соответствующий пред-полагаемому ответу, результат не засчитывается.В 2012 году проводились соревнования по качеству работы вопросно-ответных систем в области биомедицины, наилучший результат (с точностью 55 %) показала система [2]. Отечественных систем, способных составить конкуренцию зарубежным системам по качеству работы, на данный момент не су-ществует.Проблема усугубляется тем, что как таковая задача установки семантических ролей для русского языка не поставлена в отличие от английского, где подготовлена существенная база аннотированных текстов, как следствие -отсутствие полноценного корпуса с семантической разметкой. Поэтому решение поставленных задач должно подтолкнуть к развитию отечественных подходов к автоматической обра-ботке текста и увели...
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.