|
|
Семинар научно-учебной лаборатории прикладной геометрии и топологии
10 октября 2019 г. 18:10–19:30, г. Москва, Покровский бульвар, 11, корпус G, аудитория G00
|
|
|
|
|
|
|
Алгоритм UMAP как алгоритм топологического анализа данных
Д. Н. Тяпкин |
|
Аннотация:
Алгоритмы понижения размерности – достаточно популярное направление современного Machine Learning. Формально задачу можно построить так: дано облако точек в пространстве большой размерности (к примеру, 200), необходимо построить некоторую “достаточно хорошую” проекцию в маломерное (к примеру, в размерность 2) пространство.
В определении “достаточной хорошести” скрываются главные проблемы. Есть два подхода, в первом алгоритм пытается сохранить структуру глобальных расстояний между точками, а во втором – какие-то локальные особенности данных, к примеру, пустоты или, наоборот, кластера.
Алгоритм UMAP относится ко второй категории и пытается сохранить локальные особенности облака точек, притом основная идея строится вокруг построения так называемых неявных (fuzzy) симплициальных комплексов в разных размерностях и оптимизации некоторого расстояния между ними.
На семинаре мы обсудим этот алгоритм и математические идеи, на которых он основан, а также рассмотрим примеры его работы на некоторых данных.
|
|