1 Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (Университет ИТМО), Кронверкский просп., 49, г. Санкт-Петербург, 197101, Россия Статья посвящена проблеме извлечения схемы данных из конечной точки доступа SPARQL. Схема данных необ-ходима для написания запросов и поиска информации, а также для оптимизации выполнения запросов.В данной работе рассмотрены существующие методы для извлечения схем, отмечены плюсы и минусы каждого из них. Для разработки собственного метода дано определение схемы данных, под которой в данной работе принято считать словарь всех триплетов, где предикатами являются все фиксированные предикаты из пространства имен RDFS, а также триплеты, которые логически следуют из датасета в соответствии с семантикой RDFS, кроме являю-щихся элементами известных словарей (RDF, RDFS, Void, OWL, XML Schema, XSD). Элементы схемы из конечной точки доступа SPARQL будут извлекаться с помощью правил RDFS.В работе используются не все правила семантики RDFS, так как, согласно принятому определению схемы данных, не все правила возвращают элементы схемы.В статье подробно описан разработанный метод, представлена его архитектура. Для работы с правилами логиче-ского вывода используется система управления бизнес-правилами Drools. В работе отмечены плюсы и минусы создан-ного метода, показавшего ожидаемые результаты тестирования. Отмечено, что количество классов и свойств может быть различным у опубликованной и полученной разработанным методом схем. Это обусловлено лишь тем, что раз-работанный метод использует правила RDF.Тестирование показало, что авторский метод не полностью покрывает СД, но вполне работоспособен.
Ключевые слова: Semantic Web, linked data, sparql endpoint, owl, схема данных, набор данных, датасет.На данный момент существует большое количе-ство датасетов (http://www.meloda.org/dataset-defini tion/), пригодных для повторного использования. Однако информация о том, какая используется схема данных (СД), не всегда доступна. Эта инфор-мация важна для разработчиков, так как СД отра-жает структуру данных, знание которой необхо-димо для написания запросов и поиска информа-ции.Большинство хранилищ датасетов (триплсто-ров) хранят СД для оптимизации выполнения за-просов, однако на данный момент не существует универсального инструмента и средств для ее из-влечения с помощью стандартных программных интерфейсов SPARQL endpoint (http://semanticweb. org/wiki/SPARQL_endpoint.html). Многие разра-ботчики не поддерживают СД в актуальном состо-янии, а это приводит к тому, что не все классы и свойства описаны в СД. Указанная проблема и бу-дет решаться в данной работе.С помощью разработанного авторами мето-да будут извлекаться из датасета все классы и свойства, которые должны принадлежать схеме RDFS [1]. Метод для извлечения схемы опирается на стандарт RDF 1.1 Semantics и представленные в нем стандартные правила для извлечения схемы. В данной работе не используется семантика OWL. СД извлекается из конечной точки SPARQL (SPARQL endpoint) только посредством SPARQL-зап...