Научно-технические ведомости Санкт-Петербургского политехнического университета. Информатика. Телекоммуникации. Управление
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика, телекоммуникации и управление:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Научно-технические ведомости Санкт-Петербургского политехнического университета. Информатика. Телекоммуникации. Управление, 2019, том 12, выпуск 3, страницы 7–24
DOI: https://doi.org/10.18721/JCSTCS.12301
(Mi ntitu239)
 

Информационные технологии

Оценка состояния транспортных магистралей Северо-Западного федерального округа с использованием анализа тональности отзывов пользователей сети Интернет

Я. А. Селиверстовa, К. В. Никитинb, Н. В. Шаталоваa, А. А. Киселевc

a Институт проблем транспорта им. Н.С. Соломенко Российской академии наук
b Санкт-Петербургский политехнический университет Петра Великого
c Санкт-Петербургская государственная художественно-промышленная академия им. А.Л. Штиглица
Аннотация: В результате анализа выявлено, что социальные сети, тематические сообщества, транспортные порталы являются источником актуальной информации о дорожно-транспортной обстановке. В статье рассмотрена задача анализа состояния транспортных магистралей Северо-Западного федерального округа по отзывам, размещенным в web-пространстве. Для решения этой задачи разработана система автоматической классификации отзывов на основе тонового классификатора. Проведен анализ библиотек с открытым исходным кодом для тематического сбора и анализа данных. Осуществлена разработка краулера с использованием фреймворка Scrapy на языке Python3 и собраны отзывы с сайта http://autostrada.info/ru. Рассмотрены методы векторизации и лемматизации текстов и их реализация в библиотеке Scikit-Learn: Bag-of-Words, N-gram, CountVectorizer и TF-IDF Vectorizer. Для классификации применялся наивный байесовский алгоритм и модель линейного классификатора с оптимизацией стохастического градиентного спуска. В качестве обучающей выборки использована база размеченных отзывов с ресурса Twitter. Проведено обучение классификатора, в ходе которого использована стратегия кросс-валидации и метод ShuffleSplit. Проведено тестирование и сравнение результатов тоновой классификации на разных классификаторах. По результатам валидации лучшей оказалась линейная модель со схемой N-gram и векторизатором TF-IDF. В ходе апробации разработанной системы проведен сбор и анализ отзывов, относящихся к качеству транспортных сетей Северо-Западного федерального округа. На основе результатов произведена цветовая разметка дорог, отражающая наглядность результатов исследования. Сделаны выводы и определены перспективы дальнейшего развития данного исследования.
Ключевые слова: автоматический анализ текстов, краулеры, классификация текстов, интеллектуальные транспортные системы, машинное обучение, TF-IDF, N-gram, наивный байесовский алгоритм, линейный классификатор, анализ тональности.
Финансовая поддержка Номер гранта
Министерство науки и высшего образования Российской Федерации АААА-А19-119032590097-6
Исследование выполнено в рамках государственного задания Минобрнауки России НИОКТР "Разработка теоретических основ организации сложных когнитивных транспортных систем". Регистрационный номер: АААА-А19-119032590097-6.
Поступила в редакцию: 30.06.2019
Тип публикации: Статья
УДК: 004.8, 004.62, 007.5 , 51-74, 510.67, 656
Образец цитирования: Я. А. Селиверстов, К. В. Никитин, Н. В. Шаталова, А. А. Киселев, “Оценка состояния транспортных магистралей Северо-Западного федерального округа с использованием анализа тональности отзывов пользователей сети Интернет”, Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление, 12:3 (2019), 7–24
Цитирование в формате AMSBIB
\RBibitem{SelNikSha19}
\by Я.~А.~Селиверстов, К.~В.~Никитин, Н.~В.~Шаталова, А.~А.~Киселев
\paper Оценка состояния транспортных магистралей Северо-Западного федерального округа с использованием анализа тональности отзывов пользователей сети Интернет
\jour Научно-технические ведомости СПбГПУ. Информатика. Телекоммуникации. Управление
\yr 2019
\vol 12
\issue 3
\pages 7--24
\mathnet{http://mi.mathnet.ru/ntitu239}
\crossref{https://doi.org/10.18721/JCSTCS.12301}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/ntitu239
  • https://www.mathnet.ru/rus/ntitu/v12/i3/p7
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика, телекоммуникации и управление
    Статистика просмотров:
    Страница аннотации:154
    PDF полного текста:231
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025