Genomic scale identification of microRNAs associated with stress responses and development in wheat

Cours BIF7002 Genomic scale identification of microRNAs associated with stress responses and development in wheat Identification à l’échelle génomique des microARNs associés à la réponse au stress et au développement chez le blé Mickael Leclercq

Importance de l’étude • Impliqués dans un grand nombre de fonctions physiologiques essentielles (Croissance, apoptose, métabolisme…) • Chez l'Homme, les microARNs réguleraient l'expression d'au moins un tiers des gènes • Exemple de maladie impliquant les miRNAs : La survenue d'un infarctus du myocarde entraîne un relargage de microARNs dans la circulation et leur dosage pourrait être un marqueur biologique d'infarctus

Importance de l’étude • MicroARNs dérégulés semblent être à l'origine, directement ou indirectement d'un grand nombre de tumeurs cancéreuses • Il semble exister des voies de carcinogenèse spécifiques à des facteurs de risques, d’où l'intérêt des microARNs comme marqueurs de diagnostique et pronostique. • Un même microARNs semble pouvoir être tantôt oncogène, tantôt au contraire contribuer à la suppression tumorale

Importance de l’étude • Chez le blé, nombreux facteurs de transcription participant à la régulation de la tolérance identifiés, mais fonction inconnue. • Lien entre les facteurs de transcription et les miRNAs, recoupement au niveau des cibles (gènes) • Amélioration des outils de recherche de miRNAs à grande échelle • Etude de la réaction du blé (nourriture de base) face à des stress, dans un but de préservation et adaptation à un nouveau milieu.

miRNA function in plants

Plan de présentation • Partie I : Introduction • Partie II: Design expérimental • Traitement des plantes • Extraction des microARNs • Production des cDNAs • Séquençage • Partie III: Analyses bioinformatiques • Mapping • Recherche des précurseurs • Prédictions des miRNAs • Filtrage • Identification des gènes cibles • Partie IV: Validation expérimentale

Types d’ARNs RNAs involved in protein synthesis Parasitic RNAs RNAs involved in post-transcriptional modification or DNA replication

Types d’ARNs (suite) RNAs involved in post-transcriptional modification or DNA replication

microARNs • Découverts en 1993 dans C. elegans • Formellement appelés microARNs en 2001 • Stockés sur miRbase et PMRD • Conservés entre les espèces au cours de l’évolution • Des milliers de microARNs ont été répertoriés chez les eucaryotes • Chaque miRNA peut réguler des centaines de gènes • Localisés autant dans les introns que les exons, ainsi que dans les régions intergéniques. • Molécules simple brin de 15-35 nucléotides (majorité entre 19 et 24)

Biogenèse des microARNs • Gènes miRNA transcrits seuls ou en groupe • La structure des Pri-miRNAs en tige boucle est propice au clivage par des nucléases (Drosha) • le pré-microARN est exporté du noyau grace à une exportine • Il est ensuite reconnu par l’enzyme Dicer (DCL1), clive le pré-microARN produit une molécule double brins. • un des deux brins est sélectionné comme étant le microARNmature. Cette sélection est basée sur l’énergie libre de liaison des nucléotides à leurs extrémités 5’ • Le microARN mature sera associé au complexe protéique RISC qui le conduit à sa cible

Objectifs • Identification de nouveaux microRNAs associés au stress abiotiques • Identification et étude des gènes cibles des microRNAs impliqués dans les processus: • Développement (Clair) • Vernalisation et tolérance au froid (Clair) • Réponse au froid (Bounty) • Réponse à la salinité (Clair) • Réponse et Tolérance à l’aluminium (Bounty et Atlas) Vernalisation : période de froid subit par la plante ou la graine et nécessaire pour la faire passer du stade végétatif au stade reproductif (floraison)

Traitement des plantes Extraction et purification des miARNs Préparation des Banques de cDNAs Séquençage par SOLiD Analyses bioinformatiques Validation expérimentale Caractérisation fonctionnelle Design expérimental

Normales conditions Stress conditions Vegetative phase (L1, L6) Cold (L2, L7) Reproductive phase (L3) Salt (L4, L5) Aluminum (L8, L9, L10) Plants tolérants et non tolérants (Clair, Bounty, Atlas)

Les 10 librairies produites: Clair tolérant : • L 1 : phase végétative (non traitées au froid) • L 2 : traitées au froid (effet de la vernalisation) • L 3 : phase reproductive après vernalisation • L 4 : Salinité Feuilles • L 5 : Salinité Racines Bounty non tolérant : • L6: phase végétative (non traitées au froid) • L 7: traitées au froid (effet du froid) • L 8: traitées à l’aluminium Atlas Tolérant : • L9: non traitées à l’aluminium • L10: traitées à l’aluminium

Traitement des plantes Extraction et purification des miARNs Préparation des Banques de cDNAs Séquençage par SOLiD Analyses bioinformatiques Validation expérimentale Caractérisation fonctionnelle Extraction des Small RNAs (200 pb) Purification des miRNAs (18-40 pb) Quantification par spectro nanodrope et bioanalyseur

Traitement des plantes Extraction et purification des miARNs Préparation des Banques de cDNAs Séquençage par SOLiD Analyses bioinformatiques Validation expérimentale Caractérisation fonctionnelle Barecode 1 (SOLiD PCR Primer): CTGCCCCGGGTTCCTCATTCTCTAAGCCCCTGCTGTACGGCCAAGGCG 10 barecodes

Purification de cDNAs sur gel de polyacrylamide cDNA Amplifié Adaptors ligués amplifiés Adaptors non utilisés et /PrimersPCR

Traitement des plantes Extraction et purification des miARNs Préparation des Banques de cDNAs Séquençage par SOLiD Analyses bioinformatiques Validation expérimentale Caractérisation fonctionnelle • Amplification des librairies par qPCR • quantification • Combinaison des 10 librairies (0.5 pmole) • Emulsion PCR • Clean up • Sequencing

Traitement des plantes Extraction et purification des miARNs Préparation des Banques de cDNAs Séquençage par SOLiD Analyses bioinformatiques Validation expérimentale Caractérisation fonctionnelle Basées sur les caractéristiques structurales

Prédiction et caractérisation des miRNAs et leurs cibles • Nécessite des outils bioinformatiques • Basé sur des critères bien établis à la base des propriétés biologiques des miARNs et de leurs cibles: • Séquence: complémentarité parfaite entre le microRNA et sa cible • Structure thermodynamique duplexe microRNA-cible pour déterminer son énergie (doit s’ajuster pour la formation du complexe) • Conservation des séquences et de leurs motifs au cours de l’évolution des espèces • Taux de succès des prédictions difficile à déterminer • Nécessité de valider par des expérimentations

Localisation • Majorité sont codés par une partie du génome et ils peuvent parfois se retrouver sur plusieurs loci • Les régions intergéniques • Les régions introniques des gènes codants • Groupés dans les transcrits polycistroniques (rares)

Structure primaire • Longueur du miRNA • Structure secondaire précurseur • Énergie libre: • - rôle d’ancrage sur les cibles • Efficacité d’appariement: • (Appariements parfaits avec des mésappariements de un ou deux nucléotides) Prédiction des microARNs et cibles

Structure secondaire MiRNA : partie d’une hélice continue Unpaired bases miRNA: max 5 hernie: 2 Maximum G.U pairs: maximum 5 Unpaired bases miRNA duplexe: max 5 Paired bases : minimum 15 Energielibre: - maximum -30 Kcal/mol - minimum -5 kcal/mol Contenu en GC et valeur entropique (stabilité énergétique)

Recherche

MAQ SHRIMP RNA2MAP Bioscope Mapping RNAfold Folding miPred HHMMiR Prediction

Mapping - Effectué avec SHRIMP, MAQ, Bioscope et RNA2Map: • SHRIMP : Limites au niveau de la taille des reads mappés (>=24 only): résultats extraits, traités et prédits par HmmiR et MiPred • mapReads : Difficultés de localiser les adapters, limité à la recherche de tailles comprises entre 19 et 23 avec des mismatchs fixes (résultats partiels) • Bioscope : Logiciel propriétaire ABSOLID, procuration complexe (résultats non traités, on ne peux exploiter que les séquences communes avec les autres programmes: Diagramme Venn) • RNA2Map: résultats extraits, traités et prédits par MiPred seulement (difficultés avec HmmiR) • Les différents programmes ne détectent pas les mêmes séquences: Combinaison des résultats des 4 programmes

SHRIMP • Taux de mapping 3% (>24nt) • Mapping contre les EST du blé (1.7 M de séquences) • Avant mapping : 89.1 M de séquences couleur (64 M uniques) • Après mapping et extraction : 113.7 M de séquences nucléotidiques (dû aux multiples hits) précurtrices

Predictions (avec résultats de SHRIMP) • Outils de prédiction de miRNAs: • HHMMiR (Kadri et al., 2009) • Modèles de Markov cachés hiérarchiques • modèle statistique probabiliste dans lequel le système modélisé est supposé être un processus markovien de paramètres inconnus. • Prédiction en absence de conservation dans d’autres espèces • ExtractHairpins en fonction des statistiques de mirBase • miPred (Jiang et al., 2007) • Distingue en 3 catégories : faux miRNA, Vrai miRNA, Pseudo miRNA • Random Forest Prediction Model (Arbres de décision), outil d'aide à la décision et à l'exploration de données, algorithme d’apprentissage

Résultats • HHMMiR : • Après prédiction : 49.7 M • Après vérification de la présence du smallRNA dans la hairpin : 7 M • miPred : • Après prédiction : 2.1 M • Après vérification de la présence du smallRNA dans la hairpin : 0.9 M

Analyses et Filtrages • Trop de miRNAs prédits • Filtrage : Paramètres basés sur MiRBase et PMRD

Pertinence d’utiliser les 2 prédicteurs

Résultats mapping SHRIMP Wheat miRNAs size distribution After filtering = After prediction of mirnas

Total numbers of miRNAs founds in different libraries

Distribution of wheat conserved miRNAs according to miRNAs databases • A total of 214 families are found (168 are not shown). Only those found at least once in both databases are represented (46). • In PMRD, 85 wheatmembers spread in 70 families, 103 families are detected in all plant species, thus 33 new families for the Wheat. • In miRbase, 32 wheat members spread in 31 families, 137 families were detected in all organisms, thus 106 new families for the Wheat.

199 375 234 170 447 19 32 miRbase 1441 395 2780 269 2641 31 85 PMRD Conserved miRNAs in monocots and dicots species • 4 to 60% in PMRD and 12 to 74% of miRNAs in miRbase are conserved between monocots and dicots.

Abundance (>3 times) of conserved miRNA in response to Cold, salinity, aluminum, in leaves and roots at different developmental stages.

Features of a newly identified miRNA

RNA2Map • Distribution size • Matrice distribution dans les 10 librairies • Faible de taux de mapping (3-4%) • Avant mapping : 89.1M séquences (64 M uniques) • Après mapping et extraction : 1.2 Milliard séquences précurtrices

Résultats mapping RNA2MAP (exemplesur la lib 1) Distribution Total Beads 0 mismatches 14034 ( 0.02%) 1 mismatches 96818 ( 0.15%) 110852 ( 0.17%) 2 mismatches 494151 ( 0.77%) 605003 ( 0.95%) 3 mismatches 1299596 ( 2.04%) 1904599 ( 2.98%) 4 mismatches 2123019 ( 3.33%) 4027618 ( 6.31%) 5 mismatches 2348014 ( 3.68%) 6375632 ( 9.99%) 6 mismatches 2743088 ( 4.30%) 9118720 ( 14.29%) Uniquely Placed Beads 0 mismatches 2154 ( 0.00%) 1 mismatches 3128 ( 0.00%) 5282 ( 0.01%) 2 mismatches 9598 ( 0.02%) 14880 ( 0.02%) 3 mismatches 13917 ( 0.02%) 28797 ( 0.05%) 4 mismatches 28189 ( 0.04%) 56986 ( 0.09%) 5 mismatches 75454 ( 0.12%) 132440 ( 0.21%) 6 mismatches 259340 ( 0.41%) 391780 ( 0.61%)

Matrice distribution mapping RNA2MAP

Length distribution for the 10 Library (ratio of the total)

Comparaison des mappeurs

Base frequencies in mirnas by position in mapReads, bioscope and rna2map(length=20) Mac = mapReads Plus de CG que de AT pour une longueur de 20

Base frequencies in mirnas by position for bioscope, SHRIMP and rna2map(length=33) Plus de CG que de AT avec rna2map, inverse pour bioscope (fréquences plus regroupées). Shrimp différent des deux autres, forte proportion de A Conclusion : Les mappeurs ne détectent pas les mêmes choses !

Genomic scale identification of microRNAs associated with stress responses and development in wheat