Труды института системного программирования РАН
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Труды ИСП РАН:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Труды института системного программирования РАН, 2023, том 35, выпуск 6, страницы 157–166
DOI: https://doi.org/10.15514/ISPRAS-2023-35(6)-9
(Mi tisp838)
 

Классификация текста растрового документа по признаку начертания

Д. Е. Копыловab, А. А. Михайловab

a Институт динамики систем и теории управления имени В.М. Матросова Сибирского отделения Российской академии наук
b Институт системного программирования им. В.П. Иванникова РАН
Аннотация: При выделении логической структуры документов используются ряд свойств, одним из которых является полужирное начертание слов текста. Полужирным начертанием в документах часто выделяют заголовки, определяемые слова, названия колонок в таблицах. В данной работе предложен метод классификации текста по жирности начертания, который состоит из последовательности шагов. На первом шаге проводится бинаризация всего изображения. Целью данного шага является разделение пикселей изображения на пиксели текста и фона. Вторым шагом проводится оценка каждого слова. В качестве результата возвращается величина, характеризующая толщину основного штриха символа в данном слове. На последнем шаге проводится кластеризация оценок на два кластера: жирный текст и обычный. Предложенный метод был реализован и протестирован на трех наборах данных, исходный код опубликован в открытом репозитории.
Ключевые слова: анализ документов, растровые документы, классификация текста
Тип публикации: Статья
Образец цитирования: Д. Е. Копылов, А. А. Михайлов, “Классификация текста растрового документа по признаку начертания”, Труды ИСП РАН, 35:6 (2023), 157–166
Цитирование в формате AMSBIB
\RBibitem{KopMik23}
\by Д.~Е.~Копылов, А.~А.~Михайлов
\paper Классификация текста растрового документа по признаку начертания
\jour Труды ИСП РАН
\yr 2023
\vol 35
\issue 6
\pages 157--166
\mathnet{http://mi.mathnet.ru/tisp838}
\crossref{https://doi.org/10.15514/ISPRAS-2023-35(6)-9}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/tisp838
  • https://www.mathnet.ru/rus/tisp/v35/i6/p157
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Труды института системного программирования РАН
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2025