Lundi 16 novembre 2020
14h00 – 15h30
Webinaire Zoom

Anonymisation des données omiques à l’aide des k-mers

pour tirer le meilleur parti de ces vastes ensembles de données complexes générés, les chercheurs doivent travailler ensemble pour atteindre l’objectif ultime de traduire ces données en résultats cliniquement exploitables dont les patients pourraient directement bénéficier1. Cependant, « à mesure que l’utilité des données augmente, la confidentialité diminue » et ceci est d’autant plus vrai pour les données génétiques2,3. Aujourd’hui, les plus grands enjeux, voire freins, du partage de données sont à la fois juridique, (bio)éthique, informationnelle et politique4–7. Deux solutions se profilent afin de minimiser le risque d’atteinte à la vie privée : d’abord limiter et contrôler l’accès aux bases de données2.

C’est actuellement l’approche majoritaire, mais, bien que l’accès soit théoriquement accessible à la plupart des scientifiques universitaires, la procédure pour l’obtenir est longue. La seconde solution est celle du contrôle de la sensibilité des données partagées (par opposition au contrôle de la « sensibilité » de l’utilisateur)2. L’on réduit alors les risques associés au partage en supprimant ou masquant les données permettant l’identification d’un individu. C’est l’anonymisation. La question que l’on peut alors se poser est la suivante : à quel point une donnée anonyme est-elle anonyme ?8–12 Une étude récente13 a montré qu’à partir de données de séquençage d’ARN, il était possible de retrouver le génotype d’un individu au sein d’une base de génomes. Une autre14, décrit une méthode statistique permettant de retrouver des génotypes individuels à partir d’un mélange d’échantillons d’ADN. L’anonymisation des données est actuellement peu standardisée et leur sensibilité est difficilement évaluable.

Comment anonymiser les données génétiques de manière efficace et irréversible tout en gardant l’information nécessaire à son traitement ? Afin d’anonymiser les données, l’utilisation des matrices de k-mers15 (séquences nucléotidiques de longueur k) sera proposée.

Webinaire Zoom : https://umontpellier-fr.zoom.us/j/85813807839

Pour toute question, s’adresser à Paul Bastide