А. Г. Бородинов, В. В. Манойлов, И. В. Заруцкий, А. И. Петров, В. Е. Курочкин, А. С. Сараев, “Машинное обучение в задачах base-calling для методов секвенирования нового поколения”, Информатика и автоматизация, 21:3 (2022), 572

Информатика и автоматизация

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Информатика и автоматизация:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Информатика и автоматизация, 2022, выпуск 21, том 3, страницы 572–603
DOI: https://doi.org/10.15622/ia.21.3.5 (Mi trspy1201)

Эта публикация цитируется в 1 научной статье (всего в 1 статье)

Искусственный интеллект, инженерия данных и знаний

Машинное обучение в задачах base-calling для методов секвенирования нового поколения

А. Г. Бородинов^a, В. В. Манойлов^b, И. В. Заруцкий^b, А. И. Петров^b, В. Е. Курочкин^b, А. С. Сараев^b

^a АО "Научные приборы"
^b Институт аналитического приборостроения Российской академии наук (ИАП РАН)

PDF полного текста (1503 kB) Список цитирования (1)

DOI: https://doi.org/10.15622/ia.21.3.5

URL: http://ia.spcras.ru/index.php/sp/article/download/15293/15089

Аннотация: Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.

Ключевые слова: секвенирование нового поколения, base-calling, биоинформатика, машинное обучение.

Финансовая поддержка	Номер гранта
Министерство науки и высшего образования Российской Федерации	122032300337-4
Работа выполнена в рамках государственного задания Министерства науки и высшего образования номер гос. регистрации 122032300337-4 от 23.03.22.

Поступила в редакцию: 05.04.2022

Тип публикации: Статья

УДК: 543.07

Образец цитирования: А. Г. Бородинов, В. В. Манойлов, И. В. Заруцкий, А. И. Петров, В. Е. Курочкин, А. С. Сараев, “Машинное обучение в задачах base-calling для методов секвенирования нового поколения”, Информатика и автоматизация, 21:3 (2022), 572–603

Цитирование в формате AMSBIB

\RBibitem{BorManZar22}

\by А.~Г.~Бородинов, В.~В.~Манойлов, И.~В.~Заруцкий, А.~И.~Петров, В.~Е.~Курочкин, А.~С.~Сараев

\paper Машинное обучение в задачах base-calling для методов секвенирования нового поколения

\jour Информатика и автоматизация

\yr 2022

\vol 21

\issue 3

\pages 572--603

\mathnet{http://mi.mathnet.ru/trspy1201}

\crossref{https://doi.org/10.15622/ia.21.3.5}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/trspy1201

https://www.mathnet.ru/rus/trspy/v21/i3/p572

Эта публикация цитируется в следующих 1 статьяx:

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы