Информатика и автоматизация
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Информатика и автоматизация, 2025, выпуск 24, том 4, страницы 1114–1156
DOI: https://doi.org/10.15622/ia.24.4.5
(Mi trspy1393)
 

Искусственный интеллект, инженерия данных и знаний

Повышение репрезентативности обучающего набора данных за счет пространственной балансировки

А. Г. Лосев, И. Е. Попов, А. С. Резникова

Волгоградский государственный университет
Аннотация: В работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансированность, свойственная малым наборам данных, негативно влияет на качество работы алгоритмов. С целью их устранения в машинном обучении разработаны некоторые методы синтеза данных, дополняющие имеющийся набор и уравнивающие количество объектов каждого из классов. Однако такие методы не всегда решают проблему недостаточной репрезентативности. В данной статье предлагается метод построения репрезентативного обучающего набора данных за счет задания распределения, в наибольшей степени соответствующего действительности. Распределение формируется по каждому признаку в пределах информативных областей. Информативные области содержат характерные значения признаков, наиболее значимые для различения классов объектов. Предложенный метод построения областей основан на идее поэтапного расширения, сопровождающегося ростом информативности областей. При этом под информативностью понимается мера, отражающая то, насколько хорошо с помощью рассматриваемой области можно разделить объекты различных классов. С целью формирования дополняющего набора данных разработан метод генерации. В результате его применения дополняющий набор данных объединяется с исходным и образует в информативной области указанное распределение. Это распределение может быть задано либо на основе экспертных знаний о предметной области, если известно истинное распределение, либо получено в результате вычислительных экспериментов, направленных на поиск наиболее эффективного варианта. Применимость метода продемонстрирована на примере решения задачи определения уровня температурных аномалий молочных желёз. Показано, что для рассматриваемых температурных признаков характерно нормальное распределение. Повышение репрезентативности обучающего набора позволило обучить классический алгоритм классификации – логистическую регрессию – с точностью, сопоставимой с многослойной нейронной сетью. Такой подход к формированию обучающего набора данных открывает возможность создания более прозрачных и интерпретируемых систем искусственного интеллекта.
Ключевые слова: машинное обучение, малые наборы данных, репрезентативность данных, синтез данных, нейронные сети, логистическая регрессия.
Финансовая поддержка Номер гранта
Российский научный фонд 25-21-00330
Исследование выполнено за счет гранта Российского научного фонда № 25-21-00330, https://rscf.ru/project/25-21-00330/.
Поступила в редакцию: 26.03.2025
Тип публикации: Статья
УДК: 004.85
Образец цитирования: А. Г. Лосев, И. Е. Попов, А. С. Резникова, “Повышение репрезентативности обучающего набора данных за счет пространственной балансировки”, Информатика и автоматизация, 24:4 (2025), 1114–1156
Цитирование в формате AMSBIB
\RBibitem{LosPopRez25}
\by А.~Г.~Лосев, И.~Е.~Попов, А.~С.~Резникова
\paper Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
\jour Информатика и автоматизация
\yr 2025
\vol 24
\issue 4
\pages 1114--1156
\mathnet{http://mi.mathnet.ru/trspy1393}
\crossref{https://doi.org/10.15622/ia.24.4.5}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/trspy1393
  • https://www.mathnet.ru/rus/trspy/v24/i4/p1114
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Информатика и автоматизация
    Статистика просмотров:
    Страница аннотации:15
    PDF полного текста:9
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2026