О. В. Беляева, А. И. Перминов, И. С. Козлов, “Использование синтетических данных для тонкой настройки моделей сегментации документов”, Труды ИСП РАН, 32:4 (2020), 189

Труды института системного программирования РАН

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Труды института системного программирования РАН, 2020, том 32, выпуск 4, страницы 189–202
DOI: https://doi.org/10.15514/ISPRAS-2020-32(4)-14 (Mi tisp534)

Эта публикация цитируется в 3 научных статьях (всего в 3 статьях)

Использование синтетических данных для тонкой настройки моделей сегментации документов

О. В. Беляева^a, А. И. Перминов^b, И. С. Козлов^a

^a Институт системного программирования им. В.П. Иванникова РАН
^b Московский государственный университет имени М.В. Ломоносова

PDF полного текста (729 kB) Список цитирования (3)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.15514/ISPRAS-2020-32(4)-14

Аннотация: В рамках задачи автоматического анализа документов мы решаем задачу сегментации изображений документов DLA (Document Layout Analysis). Целью работы является сегментация изображений документов в условиях ограниченного набора реальных данных и использование для обучения искусственно созданных данных. В качестве данных рассматривается PDF-документы сканированных договоров, коммерческих предложений и технических заданий без текстового слоя. В работе мы обучаем известную высокоуровневую модель FasterRCNN сегментировать текстовые блоки, таблицы, печати и подписи на изображениях рассматриваемых данных. Работа направлена на генерацию синтетических данных схожих с реальными. Это обусловлено потребностью модели в большом наборе данных для обучения и высокой трудозатратностью их подготовки. В работе приведено описание этапа постобработки для устранения артефактов, полученных в результате сегментации. В работе приводится тестирование и сравнение качества модели, обученной на разных наборах данных (с/без синтетических данных, малом/большом наборе реальных данных, с/без этапа постобработки). В итоге мы показываем, что генерация синтетических данных и использование постобработки увеличивает качество модели при малом обучающем наборе реальных данных.

Ключевые слова: анализ физической структуры документа, сегментация документа, анализ макета документа, обнаружение объектов на изображении, тонкая настройка модели, активное обучение.

Тип публикации: Статья

Образец цитирования: О. В. Беляева, А. И. Перминов, И. С. Козлов, “Использование синтетических данных для тонкой настройки моделей сегментации документов”, Труды ИСП РАН, 32:4 (2020), 189–202

Цитирование в формате AMSBIB

\RBibitem{BelPerKoz20}

\by О.~В.~Беляева, А.~И.~Перминов, И.~С.~Козлов

\paper Использование синтетических данных для тонкой настройки моделей сегментации документов

\jour Труды ИСП РАН

\yr 2020

\vol 32

\issue 4

\pages 189--202

\mathnet{http://mi.mathnet.ru/tisp534}

\crossref{https://doi.org/10.15514/ISPRAS-2020-32(4)-14}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/tisp534

https://www.mathnet.ru/rus/tisp/v32/i4/p189

Эта публикация цитируется в следующих 3 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Труды института системного программирования РАН

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы