RUS  ENG ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ЛИЧНЫЙ КАБИНЕТ
Общая информация
Последний выпуск
Архив
Правила для авторов
Загрузить рукопись

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Программные системы: теория и приложения:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Программные системы: теория и приложения, 2018, том 9, выпуск 4, страницы 561–578 (Mi ps328)  

Математические основы программирования

Stable assessment of the quality of similarity algorithms of character strings and their normalizations

[Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций]

S. V. Znamenskij

Ailamazyan Program Systems Institute of Russian Academy of Sciences

Аннотация: Выбор средств поиска скрытой общности в данных новой природы требует устойчивых и воспроизводимых сравнительных оценок качества абстрактных алгоритмов близости символьных строк. Обычные оценка на основе искусственно сгенерированных или вручную размеченных тестов существенно разнятся, надёжнее оценивая метод этой искусственной генерации по отношению к алгоритмам сходства, а оценки на базе данных пользователей не могут быть точно воспроизведены.
Предложена простая, прозрачная, объективная и воспроизводимая численная оценка качества метрики на строках. Используются параллельные тексты переводов книг на разные языки. Качество меры оценивается процентом ошибок в возможных различных попытках определения перевода данного абзаца среди двух абзацев книги на другом языке, один из которых действительно является переводом. Устойчивость оценок верифицируется независимостью от выбора книги и пары языков.
Численный эксперимент устойчиво отранжировал по качеству абстрактные алгоритмы сравнения символьных строк и показал сильную зависимость от выбора нормализации.

Ключевые слова и фразы: сходство строк, анализ данных, метрика подобия, метрика расстояния, числовая оценка, оценка качества.

DOI: https://doi.org/10.25209/2079-3316-2018-9-4-561-578

Полный текст: PDF файл (3914 kB)
Список литературы: PDF файл   HTML файл

Тип публикации: Статья
УДК: 519.652.3
Поступила в редакцию: 17.04.2018
03.12.2018
Подписана в печать : 28.12.2018
Язык публикации: английский

Образец цитирования: S. V. Znamenskij, “Stable assessment of the quality of similarity algorithms of character strings and their normalizations”, Программные системы: теория и приложения, 9:4 (2018), 561–578

Цитирование в формате AMSBIB
\RBibitem{Zna18}
\by S.~V.~Znamenskij
\paper Stable assessment of the quality of similarity algorithms
of character strings and their normalizations
\jour Программные системы: теория и приложения
\yr 2018
\vol 9
\issue 4
\pages 561--578
\mathnet{http://mi.mathnet.ru/ps328}
\crossref{https://doi.org/10.25209/2079-3316-2018-9-4-561-578}


Образцы ссылок на эту страницу:
  • http://mi.mathnet.ru/ps328
  • http://mi.mathnet.ru/rus/ps/v9/i4/p561

    ОТПРАВИТЬ: VKontakte.ru FaceBook Twitter Mail.ru Livejournal Memori.ru


    Citing articles on Google Scholar: Russian citations, English citations
    Related articles on Google Scholar: Russian articles, English articles
    Перевод статьи
  • Программные системы: теория и приложения
    Просмотров:
    Эта страница:13
    Полный текст:9

     
    Обратная связь:
     Пользовательское соглашение  Регистрация  Логотипы © Математический институт им. В. А. Стеклова РАН, 2019