Publié le 27 août 2021–Mis à jour le 7 septembre 2021
Dans la molécule d’ADN, porteuse de l’information génétique, la formation de structures secondaires de type G-quadruplexes (ou G4) peut entraîner l'instabilité du génome en créant des mutations. Ces G4 sont actuellement testés comme cible thérapeutique car des molécules stabilisatrices de ces structures pourraient réguler négativement la transcription ou bloquer l'allongement des télomères (les extrémités des chromosomes) dans les cellules cancéreuses. Une récente étude, portée par des scientifiques de l’Unité de biologie moléculaire, cellulaire et du développement du Centre de biologie intégrative de Toulouse (MCD-CBI – CNRS/UT3 Paul Sabatier) et parue récemment dans la revue PLoS Computational Biology, démontre que l’on peut prédire avec précision à l’aide du nouveau logiciel DeepG4 les régions du génome où se forment les G4 dans les lignées cellulaires, tissus et cancers.
L'ADN est une molécule porteuse d'informations génétiques et présente dans toutes les cellules vivantes. En 1953, Watson et Crick décrivaient pour la première fois la structure de l’ADN en forme de double hélice. Cependant, d'autres structures d'ADN ont été identifiées plus tard, et les scientifiques se sont intéressés plus particulièrement au G-quadruplexe, communément appelé G4. Le G4 est une structure secondaire de l’ADN à quatre brins, qui repose sur des appariements de bases de type Hoogsteen formant un plateau de quatre résidus de guanine (G), également appelé « quartet ». L’empilement parallèle et ininterrompu d’au moins deux quartets, intercalés par un cation monovalent (sodium ou potassium) stabilisant la structure, constitue le G4.
La formation de telles structures G4 dans les cellules peut perturber les mécanismes de transcription et de réplication de l’ADN et peut donc entraîner l'instabilité du génome en créant des mutations, des délétions et en stimulant des événements de recombinaison. De plus, les G4 régulent l’expression de nombreux oncogènes, des gènes cruciaux pour le développement des cancers, et bloquent également l'allongement des télomères dans les cellules cancéreuses. D'ailleurs, les structures G4 sont actuellement testées comme cible thérapeutique potentielle pour réguler négativement la transcription ou bloquer l'allongement des télomères dans les cellules cancéreuses.
Dans cet article, les scientifiques proposent une nouvelle approche computationnelle, nommée DeepG4, qui vise à prédire grâce à l'intelligence artificielle, les régions G4 se formant spécifiquement dans un type cellulaire à partir de la séquence d'ADN et de l'accessibilité (ou ouverture) de la chromatine. Cette approche bioinformatique a été développée à l’aide de données d’entraînement génomiques (régions G4 cartographiées à la fois in vitro et in vivo dans un type cellulaire donné). DeepG4 met en œuvre un type d’algorithme appelé réseau de neurones convolutifs et basé sur la séquence d’ADN (enchaînement de lettres A, T, G ou C), ainsi que sur la mesure de l’accessibilité de la chromatine. À cette fin, DeepG4 exploite le contexte génomique du G4 (une région de 201 bases) qui comprend la séquence potentielle de formation du G4, mais également d'autres motifs d'ADN pouvant jouer un rôle dans l'activité du G4. De plus, l'ajout dans le modèle des données concernant l'accessibilité de la chromatine, qui sont publiquement disponibles pour la plupart des lignées cellulaires, des tissus et des cancers, permet de prédire spécifiquement les régions G4 qui sont actives en fonction d’un type cellulaire particulier.
Les résultats montrent que DeepG4 présente une excellente précision pour prédire les régions où se forment les G4 (aire sous la courbe ROC > 0,98), jusqu’à même identifier des motifs d'ADN clés qui sont prédictifs de ces régions. Parmi ceux-ci, les scientifiques ont trouvé des motifs spécifiques ressemblant au motif connu des G4, mais aussi de façon assez surprenante, ils ont découvert de nombreux motifs de liaison à des facteurs de transcription qui pourraient jouer un rôle direct ou indirect dans l’activation ou l'inhibition de la formation des G4. Enfin, les scientifiques ont utilisé ce nouvel algorithme pour identifier les régions G4 se formant dans de nombreux cancers, et ont ainsi abouti à la cartographie de nombreuses cibles thérapeutiques potentielles des cancers.
Contact :Raphaël Mourad, enseignant-chercheur UT3 Paul Sabatier
Unité de biologie moléculaire, cellulaire et du développement du Centre de Biologie Intégrative de Toulouse – MCD-CBI – CNRS/UT3 Paul Sabatier