Lundi 25 novembre 2019 14h00-16h00

Salle TD 9.02, Bâtiment 9 Université de Montpellier –Campus Triolet

La dernière décennie a vu une augmentation spectaculaire de la quantité de données de séquençage produites pour disséquer la biologie et les maladies humaines. Cependant, le nombre de découvertes cliniquement exploitables produites à partir de celles-ci est remarquablement faible. Une vision pessimiste considérerait que seuls les 59 gènes désignés par l’American College of Medical Genetics peuvent faire l’objet d’une action médicale. Rétrospectivement, ce résultat n’est pas surprenant dans la mesure où de nombreuses composantes génétiques de la maladie humaine consistent en une interaction d’un grand nombre de petites variations. Cependant, la plupart des études sont de petite taille et n’ont donc pas une puissance statistique suffisante pour déduire ces interactions. La difficulté de mettre en place des études cliniques avec de grandes cohortes est encore aggravée par des obstacles informatiques majeurs à leur exploitation. Ces données sont volumineuses, sensibles et hétérogènes. En conséquence, elles ne peuvent pas circuler librement entre les laboratoires de recherche, elles sont difficiles à analyser avec les logiciels actuellement disponibles et les données provenant de différentes études sont difficiles à intégrer.

Dans ce séminaire, je montrerai comment nous utilisons les approches basées sur les k-mer pour traiter de multiples problèmes liés à l’utilisation et à l’interprétation des données de séquençage relatives à la santé. Plus précisément, comment ajuster des techniques simples d’apprentissage automatique pour mieux explorer les données de séquençage sans exiger de génome de référence, comment mettre en œuvre des techniques de réduction de dimension pour faciliter l’intégration de données provenant de sources multiples, comment mettre en œuvre des stratégies d’indexation pour stocker des versions plus compactes des données de séquençage et enfin, comment générer un logiciel permettant d’échanger facilement entre des groupes de recherche des parties spécifiques de données de séquençage pertinentes pourla maladie. Ces données sont fortement compressées et préservent l’anonymat du patient.

William Ritchie est responsable de l’équipe Intelligence artificielle et régulation génique à l’Institut de Génétique Humaine (IGH). Le laboratoire recherche des opportunités dans les données de biologie médicale et fondamentale où la théorie de l’information et l’apprentissage automatique peuvent avoir un impact substantiel. Notre objectif est passé de l’analyse des ARN non codants tels que les microARN et des ARN conservant l’intron à une analyse plus globale des données omiques des patients.