Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2020, том 32, выпуск 4, страницы 189–202
DOI: https://doi.org/10.15514/ISPRAS-2020-32(4)-14
(Mi tisp534)
 

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Использование синтетических данных для тонкой настройки моделей сегментации документов

О. В. Беляеваa, А. И. Перминовb, И. С. Козловa

a Институт системного программирования им. В.П. Иванникова РАН
b Московский государственный университет имени М.В. Ломоносова
Список литературы:
Аннотация: В рамках задачи автоматического анализа документов мы решаем задачу сегментации изображений документов DLA (Document Layout Analysis). Целью работы является сегментация изображений документов в условиях ограниченного набора реальных данных и использование для обучения искусственно созданных данных. В качестве данных рассматривается PDF-документы сканированных договоров, коммерческих предложений и технических заданий без текстового слоя. В работе мы обучаем известную высокоуровневую модель FasterRCNN сегментировать текстовые блоки, таблицы, печати и подписи на изображениях рассматриваемых данных. Работа направлена на генерацию синтетических данных схожих с реальными. Это обусловлено потребностью модели в большом наборе данных для обучения и высокой трудозатратностью их подготовки. В работе приведено описание этапа постобработки для устранения артефактов, полученных в результате сегментации. В работе приводится тестирование и сравнение качества модели, обученной на разных наборах данных (с/без синтетических данных, малом/большом наборе реальных данных, с/без этапа постобработки). В итоге мы показываем, что генерация синтетических данных и использование постобработки увеличивает качество модели при малом обучающем наборе реальных данных.
Ключевые слова: анализ физической структуры документа, сегментация документа, анализ макета документа, обнаружение объектов на изображении, тонкая настройка модели, активное обучение.
Тип публикации: Статья
Образец цитирования: О. В. Беляева, А. И. Перминов, И. С. Козлов, “Использование синтетических данных для тонкой настройки моделей сегментации документов”, Труды ИСП РАН, 32:4 (2020), 189–202
Цитирование в формате AMSBIB
\RBibitem{BelPerKoz20}
\by О.~В.~Беляева, А.~И.~Перминов, И.~С.~Козлов
\paper Использование синтетических данных для тонкой настройки моделей сегментации документов
\jour Труды ИСП РАН
\yr 2020
\vol 32
\issue 4
\pages 189--202
\mathnet{http://mi.mathnet.ru/tisp534}
\crossref{https://doi.org/10.15514/ISPRAS-2020-32(4)-14}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp534
  • https://www.mathnet.ru/rus/tisp/v32/i4/p189
  • Эта публикация цитируется в следующих 3 статьяx:
    Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025