|
Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)
Методы построения социо-демографических профилей пользователей сети Интернет
А. Г. Гомзинab, С. Д. Кузнецовacb a Московский государственный университет имени М.В. Ломоносова
b Институт системного программирования РАН
c Московский физико-технический институт (государственный университет)
Аннотация:
Работа посвящена методам построения социально-демографического профиля пользователей Интернета. Примерами демографических атрибутов являются пол, возраст, политические и религиозные взгляды, район проживания, состояние отношений с другими людьми. Эта работа представляет собой обзор методов, которые обнаруживают демографические атрибуты из профиля пользователя и сообщений. Большинство известных работ посвящены выявлению пола. Возраст, политические взгляды и области также интересуют исследователей.
Самыми популярными источниками данных для извлечения демографических атрибутов являются социальные сети, такие как Facebook, Twitter, Youtube.
Большинство решений основано на машинном обучении с учителем. Машинное обучение позволяет найти целевые значения (демографические атрибуты) в зависимости от входных данных и использовать их, чтобы предсказать значение целевого атрибута для новых данных. в работе анализируются следующие шаги решения задачи: сбор данных, извлечение признаков, отбор информативных признаков, методы обучения классификаторов, оценка качества.
Исследования используют различные виды данных, чтобы предсказать демографические атрибуты. Самым популярным источником данных является текст. Последовательности слов (п-граммы), части речи, смайлики, особенности относящиеся к конкретным ресурсам (например, @ и # в Twitter) извлекаются и используются в качестве входных данных для алгоритмов машинного обучения. Социальные графы также используются в качестве исходных данных. Сообщества пользователей, которые автоматически извлекаются из социального графа пользователем в качестве признаков для прогнозирования атрибутов. Текстовые данные дает много возможностей. Алгоритмы выбора признаков необходимы для снижения признакового пространства.
В статье исследуются функции выбора, классификации и регрессии алгоритмы, показатели оценки.
Ключевые слова:
демографические атрибуты, демографические характеристики, социальные сети, обработка текстов на естественном языке, машинное обучение.
Образец цитирования:
А. Г. Гомзин, С. Д. Кузнецов, “Методы построения социо-демографических профилей пользователей сети Интернет”, Труды ИСП РАН, 27:4 (2015), 129–144
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/tisp167 https://www.mathnet.ru/rus/tisp/v27/i4/p129
|
|