Математическая биология и биоинформатика
RUS  ENG    ЖУРНАЛЫ   ПЕРСОНАЛИИ   ОРГАНИЗАЦИИ   КОНФЕРЕНЦИИ   СЕМИНАРЫ   ВИДЕОТЕКА   ПАКЕТ AMSBIB  
Общая информация
Последний выпуск
Архив
Импакт-фактор

Поиск публикаций
Поиск ссылок

RSS
Последний выпуск
Текущие выпуски
Архивные выпуски
Что такое RSS



Матем. биология и биоинформ.:
Год:
Том:
Выпуск:
Страница:
Найти






Персональный вход:
Логин:
Пароль:
Запомнить пароль
Войти
Забыли пароль?
Регистрация


Математическая биология и биоинформатика, 2025, том 20, выпуск 2, страницы 320–347
DOI: https://doi.org/10.17537/2025.20.320
(Mi mbb596)
 

Биоинформатика

Алгоритм вычисления $P$-значения числа вхождений образцов в случайной последовательности. Минимизация графа перекрытий

Е. И. Фурлетова

Институт математических проблем биологии РАН— филиал ИПМ им. М.В. Келдыша РАН, Пущино, Россия
Аннотация: Разработан алгоритм MinSufPref для нахождения вероятности ($P$-значения) обнаружения $S$ вхождений слов из набора $\mathcal{H}$ в случайной последовательности длины $N$. $P$-значение широко используется в компьютерных науках в качестве критерия для отбора слов-образцов определенного вида. В частности, в биоинформатике при поиске функциональных фрагментов в биологических последовательностях. Предложенный алгоритм основан на ранее разработанном алгоритме SufPref для вычисления точного $P$-значения. Алгоритм SufPref использует для вычислений граф перекрытий, вершины которого соответствуют словам из $\mathcal{H}$ и их перекрытиям. Ограничения SufPref состоят в том, что он допускает лишь наборы, состоящие из слов одинаковой длины, а также в ряде случаев не применим для наборов, состоящих из большого числа слов. В данной работе алгоритм расширен на наборы, состоящие из слов произвольных длин, с ограничением в том, что ни одно слово не должно быть фрагментом другого слова. Кроме того, на множестве префиксов слов из $\mathcal{H}$ введено отношение $\overset{R}\sim$ -эквивалентности, граф перекрытий минимизирован относительно этого отношения. Пространственная и временная сложности основной части работы алгоритма MinSufPref линейны по числу вершин и ребер минимизированного графа перекрытий. Временная сложность алгоритма не зависит от размера алфавита и длин слов в наборе. Проведены компьютерные эксперименты, которые показали высокую эффективность MinSufPref по сравнению с другими алгоритмами.
Ключевые слова: $P$-значение, вхождение образцов, перекрытие слов, автомат Ахо-Корасик, минимизация конечного автомата.
Материал поступил в редакцию 21.06.2025, 27.07.2025, опубликован 12.08.2025
Реферативные базы данных:
Тип публикации: Статья
Образец цитирования: Е. И. Фурлетова, “Алгоритм вычисления $P$-значения числа вхождений образцов в случайной последовательности. Минимизация графа перекрытий”, Матем. биология и биоинформ., 20:2 (2025), 320–347
Цитирование в формате AMSBIB
\RBibitem{Fur25}
\by Е.~И.~Фурлетова
\paper Алгоритм вычисления $P$-значения числа вхождений образцов в случайной последовательности. Минимизация графа перекрытий
\jour Матем. биология и биоинформ.
\yr 2025
\vol 20
\issue 2
\pages 320--347
\mathnet{http://mi.mathnet.ru/mbb596}
\crossref{https://doi.org/10.17537/2025.20.320}
\elib{https://elibrary.ru/item.asp?id=88945954}
Образцы ссылок на эту страницу:
  • https://www.mathnet.ru/rus/mbb596
  • https://www.mathnet.ru/rus/mbb/v20/i2/p320
  • Citing articles in Google Scholar: Russian citations, English citations
    Related articles in Google Scholar: Russian articles, English articles
    Статистика просмотров:
    Страница аннотации:83
    PDF полного текста:45
     
      Обратная связь:
     Пользовательское соглашение  Регистрация посетителей портала  Логотипы © Математический институт им. В. А. Стеклова РАН, 2026