Аннотация:
Мы рассмотрим численные методы решения некорректно поставленных задач стохастического матричного разложения, используемые в вероятностном тематическом моделировании текстовых коллекций. Разберём примеры формализации и комбинирования моделей. Я расскажу о проекте с открытым кодом BigARTM и нескольких прикладных задачах, которые мы решаем с его помощью. В заключение затронем несколько открытых проблем, связанных с вопросами единственности, устойчивости, полноты, сходимости и вычислительной сложности алгоритмов тематического моделирования больших текстовых коллекций.