Семинары
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Календарь
Поиск
Регистрация семинара

RSS
Ближайшие семинары




Математика ИИ
25 ноября 2025 г. 17:00, г. Москва, Сколковский институт науки и технологий (Сколтех). Большой бульвар 30, стр. 1
 


Вычислительный оптимальный транспорт и генеративное моделирование для задач перевода изображений из одного домена в другой

Д. Селиханович

Аннотация: Задача перевода изображений из одного домена в другой - это задача машинного обучения, в которой по заданным множествам из двух доменов изображений необходимо построить отображение из одного домена в другой домен со свойством обобщаемости на новые данные. Эта задача имеет много практических применений в задачах компьютерного зрения, например, редактирование, улучшение и синтез изображений. Её современные решения, достигающие высокой реалистичности, используют генеративные модели. Из них наиболее известными стали генеративные состязательные сети (ГСС). Однако, ГСС имеют несколько существенных недостатков для решения данной задачи в непарной постановке. Диссертация предлагает методологию оценки баланса между реалистичностью и сохранением контента входного изображений для ГСС, которая показывает, что хороший баланс для этих моделей требует тщательного подбора гиперпараметров функции ошибки и больших вычислительных ресурсов. Для решения указанных проблем разрабатывается новый алгоритм на основе вычисления оптимальных транспортных (ОТ) отображений для задачи Монжа с использованием глубоких нейронных сетей. Численные эксперименты показывают, что предложенный алгоритм достигает лучшего баланса между реалистичностью и сохранением контента входного изображения без необходимости подбора гиперпараметров функции ошибки по сравнению с ГСС в задачах перевода стиля и синтеза объектов. Мотивируясь свойством разнообразия, которое улучшает реалистичность для ГСС в мультимодальных задачах перевода изображений из одного домена в другой, работа предлагает новую регуляризацию на основе ядерной дисперсии, которая стимулирует ОТ отображения быть стохастичными. Применение предложенного регуляризатора к модели вычисления оптимального транспорта приводит к лучшим результатам по сравнению со стохастичными ГСС в непарных задачах перевода изображений из одного домена в другой. Наконец, диссертация рассматривает другой подход к разнообразию для отображений доменов изображений - энтройную регуляризацию к задаче ОТ и задачу моста Шрёдингера (МШ). Существующие модели на основе МШ для непарных задач перевода изображений из одного домена в другой имеют ограниченные практичные применения из-за необходимости в симуляции десятков или сотен итеративных диффузионных шагов. Недавно была предложена теоретическая процедура Дискретного Итеративного Марковского Обучения (ИМО) для обучения модели МШ в дискретном времени между произвольными парами доменов, которая в теории уменьшает количество итеративных шагов для симуляции. В диссертации предлагается эффективная имплементация теоретической процедуры Д-ИМО для решения задачи МШ с помощью состязательного обучения в применении к непарным задачам перевода изображений из одного домена в другой. Численные результаты показывают, что предложенная имплементация улучшает реалистичность итоговых изображений по сравнению с результатами ИМО алгоритма в непрерывном времени, а также использует только четыре итеративных шага для процесса генерации вместо сотен.

Website: https://vc.skoltech.ru/b/ele-pyk-eib-06r

* Аудитория R3-2007 (для студентов и сотрудников Сколтеха)
 
  Обратная связь:
 Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025