RUS  ENG ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB
Общая информация
Последний выпуск
Архив
Правила для авторов

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Компьютерная оптика:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Компьютерная оптика, 2016, том 40, выпуск 4, страницы 572–582 (Mi co252)  

АНАЛИЗ ДАННЫХ

Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов

Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов

Новгородский государственный университет имени Ярослава Мудрого, Великий Новгород, Россия

Аннотация: Статья посвящена взаимосвязанным проблемам выделения единиц знаний из множества (корпуса) тематических текстов и отбора текстов в корпус анализом релевантности исходной фразе. Данные проблемы актуальны для построения систем обработки, анализа, оценивания и понимания информации. Конечной практической целью является поиск наиболее рационального варианта передачи смысла средствами заданного естественного языка для последующей фиксации фрагментов знаний в тезаурусе и онтологии предметной области. При этом релевантность текста по описываемому фрагменту знания (включая формы выражения в языке) определяется суммарной численной оценкой силы связи встречающихся в его фразах сочетаний слов исходной фразы. В настоящей работе рассматриваются известные варианты такой оценки и особенности их использования для выделения составляющих образа исходной фразы в виде слов и их сочетаний в текстах при формировании тематического текстового корпуса. По сравнению с поиском совокупностей указанных составляющих на синтаксически размеченном текстовом корпусе, предложенный в работе метод отбора текстов позволяет в среднем в 15 раз сократить выход фраз, не релевантных исходной ни по описываемому фрагменту знания, ни по языковым формам его выражения.

Ключевые слова: распознавание образов, интеллектуальный анализ данных, теория информации, тест открытой формы, языковое представление экспертных знаний, контекстно-зависимое аннотирование, поисковое ранжирование документов.

Финансовая поддержка Номер гранта
Министерство образования и науки Российской Федерации
Российский фонд фундаментальных исследований 16-01-00004_а
Работа выполнена при поддержке Министерства образования и науки РФ (базовая часть госзадания), а также гранта РФФИ (№16-01-00004).


DOI: https://doi.org/10.18287/2412-6179-2016-40-4-572-582

Полный текст: PDF файл (278 kB)
Полный текст: http://www.computeroptics.smr.ru/.../400417.html
Список литературы: PDF файл   HTML файл

Тип публикации: Статья
Поступила в редакцию: 14.04.2016
Принята в печать:01.07.2016

Образец цитирования: Д. В. Михайлов, А. П. Козлов, Г. М. Емельянов, “Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов”, Компьютерная оптика, 40:4 (2016), 572–582

Цитирование в формате AMSBIB
\RBibitem{MikKozEme16}
\by Д.~В.~Михайлов, А.~П.~Козлов, Г.~М.~Емельянов
\paper Выделение знаний, языковых форм их выражения и оценка эффективности формирования множества тематических текстов
\jour Компьютерная оптика
\yr 2016
\vol 40
\issue 4
\pages 572--582
\mathnet{http://mi.mathnet.ru/co252}
\crossref{https://doi.org/10.18287/2412-6179-2016-40-4-572-582}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/co252
  • http://mi.mathnet.ru/rus/co/v40/i4/p572

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles
  • Компьютерная оптика
    Просмотров:
    Эта страница:77
    Полный текст:31
    Литература:14
     
    Обратная связь:
     Пользовательское соглашение  Регистрация  Логотипы © Математический институт им. В. А. Стеклова РАН, 2020