1 / 19

Обработка данных секвенирования следующего поколения в один клик

Обработка данных секвенирования следующего поколения в один клик. Афанасьев Андрей, Генеральный директор iBinom. Проблемы текущих решений. Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов. Задача.

audra
Télécharger la présentation

Обработка данных секвенирования следующего поколения в один клик

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей,Генеральный директор iBinom

  2. Проблемы текущих решений • Сложная установка • Сложная настройка • Медленная работа • Плохая воспроизводимость результатов • Плохая визуализация результатов

  3. Задача Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей: • Простой интерфейс • Минимум настроек • Высокая скорость работы и воспроизводимость результатов • Высокая точность

  4. Технические сложности • Алгоритмическая сложностьи ресурсоемкость (до 1000 CPU*h на анализ) • Большой объем входных данных (1-500 Гб) • Разные форматы данных FastQ(длины ридов, качество в phred33/phred64) • Обеспечение безопасности передачи и хранения данных

  5. Подход • Фильтрация ридов по качеству • Картирование • Фильтрация по таргетным регионам • Поиск SNP и коротких indel • Аннотация • Сортировка по патогенностии формирование отчета

  6. Реализация • Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость) • Хранение данных в S3 • Картирование BWA-MEM • Референс hg19 GRCh37.p13 assembly, ver. 73.37 • КоллингSamTools • Аннотация SnpEff • Собственная оценка патогенности –ibinomscore

  7. Выравнивание(симулированные данные)

  8. Коллинг

  9. Коллинг

  10. iBinom Score • Машинное обучение с помощью алгоритма градиентного бустинга • Обучающая выборка: • Патогенные: записи из dbsnp c clinvarclinicalsignificance = pathogenic • Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях

  11. iBinom Score Точность: 93.44% Полнота: 90.96% F-measure: 92.18% Обучение по базам и скорам: 1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.

  12. Использование iBinom 1. Поддерживается любой FASTQ файл, включая архивы .gz, кроме colorspace 2. Встроенный тримминг адаптеров 3. Можно объединять несколько файлов в один образец 4. Можно скачать vcf-файл (в формате v.4.1) 5. Для передачи используется шифрованное соединение https

  13. Планы • Система подбора болезней(по симптомам, по списку генов, по списку болезней) • Ветвление пайплайна(например, выравнивание TMAP для IonTorrent) 3. Переделка и упрощение интерфейса программы

  14. Приглашаем к сотрудничеству! a@ibinom.com

More Related