|
Эта публикация цитируется в 1 научной статье (всего в 1 статье)
Искусственный интеллект, инженерия данных и знаний
Машинное обучение в задачах base-calling для методов секвенирования нового поколения
А. Г. Бородиновa, В. В. Манойловb, И. В. Заруцкийb, А. И. Петровb, В. Е. Курочкинb, А. С. Сараевb a АО "Научные приборы"
b Институт аналитического приборостроения Российской академии наук (ИАП РАН)
Аннотация:
Развитие технологий секвенирования следующего поколения (NGS) внесло существенный вклад в тенденции снижения затрат и получения массивных данных секвенирования. В Институте аналитического приборостроения РАН разрабатывается аппаратно-программный комплекс (АПК) для расшифровки последовательности нуклеиновых кислот методом массового параллельного секвенирования (Нанофор СПС). Алгоритмы обработки изображений, входящие в состав АПК, играют существенную роль в решении задач расшифровки генома. Финальной частью такого предварительного анализа сырых данных является процесс base-calling. Base-calling — это процесс определения нуклеотидного основания, которое генерирует соответствующее значение интенсивности в каналах флуоресценции для различных длин волн на кадрах изображения проточной ячейки для различных циклов секвенирования методом синтеза. Приведен обширный анализ различных подходов к решению задач base-calling и сводка распространенных процедур, доступных для платформы Illumina. Рассмотрены различные химические процессы, включенные в технологию секвенирования методом синтеза, вызывающие смещения в значениях регистрируемых интенсивностей, включая эффекты фазирование / префазирование (phasing/prephasing), затухания сигнала (signal decay) и перекрестные помехи (cross-talk). Определена обобщённая модель, в рамках которой рассматриваются возможные реализации. Рассмотрены возможные подходы машинного обучения (machine learning) для создания и оценки моделей, реализующих этап обработки base-calling. Подходы ML принимают различные формы, включая обучение без учителя (unsupervised), обучение с ча-стичным привлечением учителя (semi-supervised), обучение с учителем (supervised). В работе показана возможность применения различных алгоритмов машинного обучения на основе платформы Scikit-learn. Отдельной важной задачей является оптимальное выделение признаков, выделенных в обнаруженных кластерах на проточной ячейке для машинного обучения. Наконец, на ряде данных секвенирования для приборов MiSeq Illumina и Нанофор СПС показана перспективность метода машинного обучения для решения задачи base-calling.
Ключевые слова:
секвенирование нового поколения, base-calling, биоинформатика, машинное обучение.
Поступила в редакцию: 05.04.2022
Образец цитирования:
А. Г. Бородинов, В. В. Манойлов, И. В. Заруцкий, А. И. Петров, В. Е. Курочкин, А. С. Сараев, “Машинное обучение в задачах base-calling для методов секвенирования нового поколения”, Информатика и автоматизация, 21:3 (2022), 572–603
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy1201 https://www.mathnet.ru/rus/trspy/v21/i3/p572
|
|