Nature UE
Crédits ECTS 3
Volume horaire total 31
Volume horaire CM 9
Volume horaire TD 4
Volume horaire TP 18

Pré-requis

Bases de Unix/Linux, connexion, navigation rapide dans le système de fichiers Avoir des connaissances dans un langage de programmation, ex. Python, Bash.

Objectifs

• Initiation au travail d’équipe • Comprendre le principe et savoir utiliser des outils bio-informatiques dédiés à l’analyse de séquences • Apprendre à construire une chaine de traitement efficace • Utiliser une sélection de langages de programmation utilisés en bioinformatique (R, Bash) • Développer un sens critique par exemple en appliquant des analyses statistiques • Développer une méthode d’analyse et une argumentation scientifique

Contenu

• Ce module vise à apprendre aux étudiants comment manipuler et traiter de très gros volumes de données, tels que ceux qui dépassent les capacités actuelles des systèmes de calcul pour biologistes (e.g. Galaxy), tout en maximisant les moyens de calcul à disposition pour produire rapidement des résultats.
• A l'issue de ce module, les étudiants auront la capacité d'évaluer ce qu'est un jeu de données NGS, d'évaluer les moyens de calculs dont ils auront besoin pour atteindre les objectifs scientifiques dans les délais demandés. Les étudiant travailleront seuls sur leur problème, mais en équipe opérationnelle. La communication et l'entre-aide entre étudiants est encouragée au cours des TP.


Cours magistraux (8h)
LA DONNÉE NGS
I sources, débits, volumes
II structures et informations
III transport, stockage, sécurisation
LE LANGAGE DE SCRIPT
I origines
II interactions avec le système
III en choisir un... ou plusieurs
LES FLUX DE DONNÉES EN ACTIONS
I production
II transformation
III analyse et calculs
IV archivage des résultats
V de la plomberie virtuelle
LA GESTION AUTOMATISÉE DES FLUX
I les temps relatifs du traitement de l'information
II processus et cpu
III entrées et sorties
IV maximiser l'usage des moyens de calcul
V architecturer le traitement
VI La "scalabilité", du prototype à la production
Travaux Dirigés (4h)
PRODUIRE DES RÉSULTATS EXPLOITABLES
I un "cahier de manip" en bio-informatique
II stocker les résultats et/ou les procédures ?
III reprendre un calcul partiel
IV penser calcul reproductible
Travaux pratiques (18h)
RNASEQ ET EXPRESSION DIFFERENTIELLE DE GENES
I Nettoyer à haut débit les données brutes, adapteurs/primers, nucléotides anonymes, poly-A, complexité, longueur, appairage, contaminations.
II Évaluer la qualité de l'information retenue, fastqc.
III Positionner les séquences sur une référence, mapping haut débit.
IV Design expérimental et puissance statistique, facteurs, profondeur, répétitions et FDR.
V Détecter les gènes différentiels et inférer une décision.
VI Enrichir l'interprétation par regroupement fonctionnel des gènes exprimés, GSEA.

Appartient à

Informations complémentaires

• Initiation au travail d’équipe • Comprendre le principe et savoir utiliser des outils bio-informatiques dédiés à l’analyse de séquences • Apprendre à construire une chaine de traitement efficace • Utiliser une sélection de langages de programmation utilisés en bioinformatique (R, Bash) • Développer un sens critique par exemple en appliquant des analyses statistiques • Développer une méthode d’analyse et une argumentation scientifique