|
|
Математика ИИ
25 ноября 2025 г. 17:00, г. Москва, Сколковский институт науки и технологий (Сколтех). Большой бульвар 30, стр. 1
|
|
|
|
|
|
|
Вычислительный оптимальный транспорт и генеративное
моделирование для задач перевода изображений из одного
домена в другой
Д. Селиханович |
|
Аннотация:
Задача перевода изображений из одного домена в другой -
это задача машинного обучения, в которой по заданным множествам из
двух доменов изображений необходимо построить отображение из одного домена в другой домен со свойством обобщаемости на новые данные.
Эта задача имеет много практических применений в задачах компьютерного зрения, например, редактирование, улучшение и синтез изображений.
Её современные решения, достигающие высокой реалистичности, используют генеративные модели. Из них наиболее известными стали генеративные
состязательные сети (ГСС). Однако, ГСС имеют несколько существенных
недостатков для решения данной задачи в непарной постановке. Диссертация предлагает методологию оценки баланса между реалистичностью и
сохранением контента входного изображений для ГСС, которая показывает, что хороший баланс для этих моделей требует тщательного подбора
гиперпараметров функции ошибки и больших вычислительных ресурсов.
Для решения указанных проблем разрабатывается новый алгоритм на основе вычисления оптимальных транспортных (ОТ) отображений для задачи Монжа с использованием глубоких нейронных сетей. Численные эксперименты показывают, что предложенный алгоритм достигает лучшего
баланса между реалистичностью и сохранением контента входного изображения без необходимости подбора гиперпараметров функции ошибки по
сравнению с ГСС в задачах перевода стиля и синтеза объектов. Мотивируясь свойством разнообразия, которое улучшает реалистичность для ГСС в
мультимодальных задачах перевода изображений из одного домена в другой, работа предлагает новую регуляризацию на основе ядерной дисперсии, которая стимулирует ОТ отображения быть стохастичными. Применение предложенного регуляризатора к модели вычисления оптимального
транспорта приводит к лучшим результатам по сравнению со стохастичными ГСС в непарных задачах перевода изображений из одного домена в
другой. Наконец, диссертация рассматривает другой подход к разнообразию для отображений доменов изображений - энтройную регуляризацию к
задаче ОТ и задачу моста Шрёдингера (МШ). Существующие модели на
основе МШ для непарных задач перевода изображений из одного домена в
другой имеют ограниченные практичные применения из-за необходимости
в симуляции десятков или сотен итеративных диффузионных шагов. Недавно была предложена теоретическая процедура Дискретного Итеративного
Марковского Обучения (ИМО) для обучения модели МШ в дискретном времени между произвольными парами доменов, которая в теории уменьшает
количество итеративных шагов для симуляции. В диссертации предлагается эффективная имплементация теоретической процедуры Д-ИМО для
решения задачи МШ с помощью состязательного обучения в применении к
непарным задачам перевода изображений из одного домена в другой. Численные результаты показывают, что предложенная имплементация улучшает реалистичность итоговых изображений по сравнению с результатами
ИМО алгоритма в непрерывном времени, а также использует только четыре
итеративных шага для процесса генерации вместо сотен.
Website:
https://vc.skoltech.ru/b/ele-pyk-eib-06r
* Аудитория R3-2007 (для студентов и сотрудников Сколтеха) |
|