Аннотация. При заполнении полей профиля в различных интернет-сервисах пользователи зачастую по ошибке или преднамеренно не указывают значения некоторых демографических атрибутов, таких как пол, возраст, семейное положение, уровень образования, религиозные и политические взгляды. Вместе с тем, информация об атрибутах пользователей позволяет существенно повысить эффективность систем рекомендации, интернет-маркетинга и других приложений, предполагающих персонализацию результатов. В статье предлагается метод автоматического определения демографических атрибутов пользователей социального сервиса микроблогов Twitter по текстам их сообщений и другой доступной информации из профилей. Метод основан на алгоритме машинного обучения, его отличительными особенностями являются полностью автоматическое построение исходного набора данных для обучения и тестирования, а также поддержка широкого набора языков и демографических атрибутов. Экспериментальные исследования показали высокое качество результатов определения пола, возраста и семейного положения пользователя для наиболее популярных языков: английского, русского, немецкого, французского, итальянского и испанского. Кроме того, для английского языка поддерживается также определение уровня образования, а также религиозных и политических взглядов пользователя.Ключевые слова: демографические характеристики; демографические атрибуты; социальные сети; микроблоги; обработка текстов на естественном языке; анализ содержимого; компьютерная лингвистика; машинное обучение. ВведениеВ связи с увеличением количества пользователей интернета, а также появлением новых средств для обмена информацией, количество свободно 1 Работа выполнена при финансовой поддержке Минобрнауки Российской Федерации по государственному контракту от 10.10.2013 г. № 14.514.11.4111 в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы» 180 доступных персональных данных (включая текстовые сообщения) постоянно растёт. Учитывая склонность пользователей интернета к анонимности, актуальны методы частичной идентификации авторов сообщений по значениям их демографических атрибутов. В частности, в системах интернет-маркетинга и рекомендаций особую важность представляет определение демографических атрибутов пользователя для таргетированного продвижения товаров и услуг в группах пользователей с одинаковыми значениями атрибутов. Помимо интернет-сервисов, такие социо-демографические характеристики находят применение в различных дисциплинах: социология, психология, криминология, экономика, управление персоналом и др. Демографические атрибуты можно условно разделить на категориальные (пол, национальность, раса, семейное положение, уровень образования, профессия, трудоустроенность, религиозные и политические взгляды) и численные (возраст, уровень доходов). Условность разделения связана с тем, что значения численного атрибута можно отобразить в набор категорий и в дальнейшем рассматривать этот атрибут как категориальный. В частности, значения возраста ...
Аннотация. Статья представляет собой обзор основных алгоритмов, использующихся в системах рекомендаций. Рассмотрены методы коллаборативной фильтрации, методы, анализирующие содержимое объектов и методы, использующие базы знаний. Все рассматриваемые методы имеют свои недостатки. В статье рассмотрено, какими способами можно комбинировать методы построения рекомендаций, чтобы избавиться от этих недостатков.Ключевые слова: система рекомендаций, коллаборативная фильтрация, базы знаний, гибридная система рекомендаций ВведениеОчень часто человек выбирает, какие новые фильмы посмотреть, какую новую музыку послушать, какие товары купить в интернет-магазине. Это совсем не простая задача, потому что он имеет в распоряжении лишь названия, краткие описания доступных фильмов или товаров, и, может быть, советы друзей и знакомых. Имея столь малое количество информации, очень трудно определить, понравится ли конкретный фильм, песня или товар данному человеку. Задача усложняется еще и тем, что объектов, из которых приходится выбирать, очень много. Поэтому в сети Интернет широко распространены системы рекомендаций, помогающие пользователю решить задачу выбора песен, фильмов, товаров. Системы рекомендаций позволяют пользователю выбрать среди всех доступных объектов именно те, которые будут ему интересны. Эти системы обрабатывают информацию о различных объектах, а также о том, какие пользователи какие объекты купили, посмотрели, послушали и т.д. Примерами таких сервисов являются last.fm, hunch.com, youtube.com и другие. Имея эти данные и алгоритмы, которые будут рассмотрены в данной работе, можно быстро и качественно отфильтровать самые подходящие конкретному пользователю объекты. Кроме того, есть системы, которые рекомендуют других пользователей, имеющих схожие интересы, или потенциальных знакомых. Как правило, это
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
customersupport@researchsolutions.com
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.