|
Программные системы: теория и приложения, 2018, том 9, выпуск 4, страницы 561–578
(Mi ps328)
|
|
|
|
Математические основы программирования
Stable assessment of the quality of similarity algorithms
of character strings and their normalizations
[Устойчивая оценка качества алгоритмов сходства символьных строк и их нормализаций]
S. V. Znamenskij Ailamazyan Program Systems Institute of Russian Academy of Sciences
Аннотация:
Выбор средств поиска скрытой общности в данных новой природы требует устойчивых и воспроизводимых сравнительных оценок качества абстрактных алгоритмов близости символьных строк. Обычные оценка на основе искусственно сгенерированных или вручную размеченных тестов существенно разнятся, надёжнее оценивая метод этой искусственной генерации по отношению к алгоритмам сходства, а оценки на базе данных пользователей не могут быть точно воспроизведены.
Предложена простая, прозрачная, объективная и воспроизводимая численная оценка качества метрики на строках. Используются параллельные тексты переводов книг на разные языки. Качество меры оценивается процентом ошибок в возможных различных попытках определения перевода данного абзаца среди двух абзацев книги на другом языке, один из которых действительно является переводом. Устойчивость оценок верифицируется независимостью от выбора книги и пары языков.
Численный эксперимент устойчиво отранжировал по качеству абстрактные алгоритмы сравнения символьных строк и показал сильную зависимость от выбора нормализации.
Ключевые слова и фразы:
сходство строк, анализ данных, метрика подобия, метрика расстояния, числовая оценка, оценка качества.
DOI:
https://doi.org/10.25209/2079-3316-2018-9-4-561-578
Полный текст:
PDF файл (3914 kB)
Список литературы:
PDF файл
HTML файл
Тип публикации:
Статья
УДК:
519.652.3 Поступила в редакцию: 17.04.2018 03.12.2018 Подписана в печать : 28.12.2018
Язык публикации: английский
Образец цитирования:
S. V. Znamenskij, “Stable assessment of the quality of similarity algorithms
of character strings and their normalizations”, Программные системы: теория и приложения, 9:4 (2018), 561–578
Цитирование в формате AMSBIB
\RBibitem{Zna18}
\by S.~V.~Znamenskij
\paper Stable assessment of the quality of similarity algorithms
of character strings and their normalizations
\jour Программные системы: теория и приложения
\yr 2018
\vol 9
\issue 4
\pages 561--578
\mathnet{http://mi.mathnet.ru/ps328}
\crossref{https://doi.org/10.25209/2079-3316-2018-9-4-561-578}
Образцы ссылок на эту страницу:
http://mi.mathnet.ru/ps328 http://mi.mathnet.ru/rus/ps/v9/i4/p561
Citing articles on Google Scholar:
Russian citations,
English citations
Related articles on Google Scholar:
Russian articles,
English articles
Перевод статьи
|
Просмотров: |
Эта страница: | 76 | Полный текст: | 33 | Литература: | 9 |
|