Offre de thèse
Modélisation structurale atomistique des complexes ARN-protéine flexibles par méthodes computationnelles hybrides
Date limite de candidature
09-05-2025
Date de début de contrat
01-10-2025
Directeur de thèse
CHAUVOT DE BEAUCHENE Isaure
Encadrement
I. Chauvot de Beauchene assurera l'encadrement de thèse. Des réunions hebdomadaires avec le doctorant seront tenue, en plus de l'encadrement continue, pour s'assurer de l'avancement du projet, discuter d'éventuelles difficultés, et guider le doctorant dans sa proposition de solutions. Le doctorant présentera ses résultats 2 fois par an en séminaires d'équipe. Le doctorant sera régulièrement envoyé en formations (écoles d'été, workshop, cours de master...) pour compléter sa formation sur des sujets nécessaires a la thèse, selon son cursus initial.i
Type de contrat
école doctorale
équipe
CAPSIDcontexte
----- Biologie et enjeux des ARN Les ARN sont des polymères de nucléotides pouvant se replier sur eux-même. L'appariement de leurs bases variables (U, A, C, G), qui forme des motifs ‘double-brin' ou ‘simple brin', constitue la structure 2D de l'ARN, qui conditionne fortement ses conformations 3D. Les ARN assurent une grande diversité de fonctions cellulaires, comme la régulation des gènes, l'épissage et la réponse au stress cellulaire. Cette diversité provient d'une part de la capacité de l'ARN à changer de conformation 3D, voire de structure 2D, dans différents contextes, d'autre part à se lier de façon plus ou moins sélective à de nombreuses familles de protéine. En outre, la relative innocuité de l'ARN et la spécificité que peuvent atteindre leurs interactions en font une molécule clé pour le développement d'ARN thérapeutiques. En particulier, les ARN messagers (ARNm) thérapeutiques constituent une avancée majeure en biotechnologie et en médecine, un exemple notable étant les vaccins à ARN contre le Sars-Cov-2 [1]. ----- Modélisation des interactions ARN-protéine La grande flexibilité de l'ARN, en particulier des zones simple-brin (ARNsb), représente un défi majeur pour la détermination expérimentale de la structure des complexes ARN-protéine, pour leur modélisation informatique et pour leur conception rationnelle. Alors que l'apprentissage profond (deep-learning, DL) a révolutionné la modélisation des complexes protéine-protéine, son application aux complexes ARN-protéine a montré un succès limité. Les principales raisons en sont: (i) la plus grande flexibilité des ARN, donc un plus grand espace conformationnel à explorer, et (ii) le relatif manque de données expérimentales de structures 3D qui en découle (cette flexibilité rendant plus difficile la cristallisation de ces complexes), et qui limite les possibilités d'apprentissage. Ainsi, la récente méthode RosettaFoldNA pour la modélisation protéine-ARN a montré quelques progrès par rapport à l'état de l'art pour les familles d'ARN fortement appariés (les moins flexibles) et bien représentés dans les bases de données, mais échoue dans le cas général. La grande flexibilité de l'ARNsb est citée comme une limitation majeure par les auteurs [2]. Publié il y a quelques mois, AlphaFold3 a encore amélioré l'état de l'art en matière de modélisation des complexes moléculaires basée sur le DL. Cependant, des tests approfondis sur des complexes protéines-ARNsb ont révélé ses limites pour les complexes ARN-protéine [3]. Cette flexibilité limite aussi l'applicabilité aux ARNsb des algorithmes traditionnels de docking, qui modélisent un complexe à partir d'une ou de quelques structures 3D chaque composant. En effet, ils ne peuvent capturer avec précision la plasticité structurelle de l'ARNsb au cours de la liaison avec les protéines, ni échantillonner toutes les conformations possibles de l'ARNsb avant de les docker sur la protéine. ----- Résultats préliminaires de l'équipe d'accueil Au cours des dernières années, l'équipe d'accueil CAPSID au Loria s'est attaquée à ces limites en développant une approche de docking d'ARNsb par fragments. Si l'échantillonnage des conformations 3D possibles d'un ARNsb n'est pas faisable au-delà de quelques nucléotides, elle l'est pour des fragments de sa séquence. Ces conformations peuvent alors être dockées sur la protéine, pour ne retenir que celles compatibles avec l'interaction. Celles-ci sont alors rassemblées sur critères géométriques, par des algorithmes de parcours de graphes, pour former l'ARN complet [4,5,6]. Cette méthode est la seule actuellement capable de produire des modèles protéine-ARNsb à une résolution atomique, si l'on connaît l'identité des nucléotides à l'interface ainsi que des acides aminés conservés à l'interface. Elle constitue une preuve de principe de l'efficacité des approches basées sur les fragments pour l'amarrage protéine-ARN.spécialité
Informatiquelaboratoire
LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications
Mots clés
modélisation moléculaire, bioinformatique structurale
Détail de l'offre
Les ARN jouent un rôle central dans de nombreux processus cellulaires (épissage, régulation, réponse au stress), grâce à leur capacité à adopter une grande variété de structures 3D et à interagir spécifiquement avec des protéines. Cette plasticité rend toutefois leur modélisation structurale particulièrement difficile, notamment pour les régions simple brin (ARNsb), très flexibles.
Les méthodes de modélisation basées sur l'intelligence artificielle ont permis des avancées majeures pour les complexes protéine-protéine, mais restent limitées pour les complexes ARN-protéine, en raison du manque de données structurales et de la diversité conformationnelle des ARN. Les algorithmes de docking classiques, qui assemblent des modèles 3D complets de chaque constituant, échouent également à capter la flexibilité des ARNsb.
L'équipe d'accueil (CAPSID, Loria) a développé une approche originale de modélisation des complexes ARNsb-protéine par assemblage de fragments. Toutes les conformations 3D possibles de chaque fragment sont dockées individuellement sur la surface de la protéine, la qualité de chaque pose est évaluée par une fonction de score, puis les poses géométriquement compatibles sont rassemblées en un ARN complet par des algorithmes de recherche de chemins dans un graphe (figure: https://drive.google.com/file/d/1QNyD9HEgKIixRyXwdoqvTV6vqvm-sjL4/view?usp=sharing). Cette méthode a démontré sa capacité à générer des modèles à résolution atomique dans des cas où certains résidus protéiques à l'interface sont connus, car conservés par l'évolution dans cette famille de protéines) [1,2].
Le projet de cette thèse vise à élargir le champ d'application de cette méthode, en trois axes :
1. L'application d'une contrainte de docking selon les interactions d'empilement entre nucléotides et résidus aromatiques, permettant une présélection de fragments d'ARN dans des orientations favorables.
2. L'amélioration des fonctions de score pour les fragments dockés et pour les modèles complets, respectivement. La première exploitera les structures ARN-protéines disponibles par des approches statistiques et d'apprentissage profond. Le second utilisera le raffinement de tous les atomes par minimisation de l'énergie, à mettre en place avec nos collaborateurs de l'Université d'Utrecht.
3. L'extension aux ARN longs, comprenant des régions simple et double brin, grâce à une bibliothèque de fragments générée par l'outil interne ProtNAff et une stratégie d'assemblage par color-docking développée avec des collaborateurs du LIX.
Ces développements seront d'abord validés sur des complexes ARN-protéine de structure secondaire connue. Le projet s'étendra ensuite aux ARN de structure 2D inconnue, en intégrant progressivement des données expérimentales simulées ou réelles sur la structure 2D et/ l'interface protéique pour améliorer la précision des modèles.
Ce travail apportera une méthode unique de modélisation 3D des interactions ARN-protéine, qui sera rendue librement accessible aux utilisateur, avec des applications potentielles en pharmacie et en biotechnologie, en particulier pour le design et la production d'ARN thérapeutiques.
Keywords
molecular modeling, structural bioinformatics
Subject details
RNA play a central role in many cellular processes (splicing, regulation, stress response), largely thanks to their ability to adopt a wide variety of 3D structures and interact specifically with proteins. This plasticity, essential to the development of RNA therapeutics, however, makes their structural modeling particularly challenging, especially for the highly flexible single-stranded regions (ssRNA). Modeling methods based on artificial intelligence have enabled major advances for protein-protein complexes, but remain limited for RNA-protein complexes, due to the lack of structural data and the conformational diversity of RNA. Conventional docking algorithms, which assemble complete 3D models of each constituent, also fail to capture the flexibility of ssRNA. The host team (CAPSID, Loria) has developed a novel approach to modeling RNA-protein complexes by fragment assembly. All possible 3D conformations of each fragment are individually docked onto the protein surface, the quality of each pose is evaluated by a score function, and the geometrically compatible poses are then assembled into a complete RNA by path-finding algorithms in a graph (figure: https://drive.google.com/file/d/1QNyD9HEgKIixRyXwdoqvTV6vqvm-sjL4/view?…). This method has demonstrated its ability to generate atomically resolved models in cases where certain protein residues at the interface are known, as conserved by evolution in this protein family). The aim of this thesis project is to extend the scope of this method, in three directions: 1. The application of a docking constraint according to stacking interactions between nucleotides and aromatic residues, enabling pre-selection of RNA fragments in favorable orientations. 2. An improvement of the scoring functions for docked fragments and for full models respectively. The first will exploite the available RNA-protein structures by statistical and deep learning approaches. The second will use all-atom refinement by energy minimisation, to be set up with our collaborators at Utrecht University. 3. An extension to long RNAs, combining single- and double-stranded regions, thanks to a library of double-stranded fragments generated by the in-house ProtNAff tool and a color-docking assembly strategy developed with collaborators at the LIX. These developments will first be validated on RNA-protein complexes of known secondary structure. The project will then be extended to RNA with unknown 2D structure, gradually integrating simulated or real experimental data on 2D structure and protein interface (e.g. SHAPE, mutagenesis) to improve model accuracy. This work will provide innovative tools for the prediction of protein-RNA structures, with potential applications in structural biology, biotechnology and medicine, in particular for the design of therapeutic RNA.
Profil du candidat
Le projet est interdisciplinaire: le travail au jour le jour implique beaucoup de programmation sur les représentations atomiques des protéines et des acides nucléiques.
Les candidats doivent avoir un Master dans l'une des disciplines suivantes: sciences computationnelles, (bio)physique, biologie structurale, bioinformatique.
De solides compétences en programmation (préférentiellement Python et / ou C ++) et/ou une connaissance de la biologie structurale sont très souhaitables. Des compétences en mathématiques discrètes et en statistiques seraient appréciées.
Plus important encore, les candidats doivent être motivés pour apprendre dans toutes les disciplines pertinentes pour le projet.
Les candidats doivent parler couramment le français ou l'anglais
Candidate profile
The project is interdisciplinary: the day-to-day work involves a lot of programming on atomic representations of proteins and nucleic acids.
Candidates should have a Master's degree in one of the following disciplines: computational sciences, (bio)physics, structural biology, bioinformatics.
Strong programming skills (preferably Python and/or C ++) and/or knowledge of structural biology are highly desirable. Skills in discrete mathematics and statistics would be appreciated.
Most importantly, candidates must be motivated to learn in all disciplines relevant to the project.
Candidates must be fluent in French or English.
Référence biblio
[1] Johnson, M. R. (2022). Development of mRNA manufacturing for vaccines and therapeutics: mRNA platform requirements and development of a scalable production process to support early phase clinical trials. Translational Research: The Journal of Laboratory and Clinical Medicine, 242, 38–55.
[2] Baek, M., McHugh, R., Anishchenko, I., Jiang, H., Baker, D., & DiMaio, F. (2023). Accurate prediction of protein–nucleic acid complexes using RoseTTAFoldNA. Nature Methods.
[3] Hennig, J. (2025). Structural biology of RNA and protein–RNA complexes after AlphaFold3. ChemBioChem.
[4] Isaure Chauvot de Beauchene , Sjoerd J. de Vries , Martin Zacharias (2016). Fragment-based modelling of single stranded RNA bound to RNA recognition motif proteins. Nucleic Acids Research, 44(10), 4450–4463.
[5] Anna Kravchenko, Sjoerd Jacob de Vries, Malika Smaïl‑Tabbone, Isaure Chauvot de Beauchene (2024). HIPPO: HIstogram-based Pseudo-POtential for scoring protein-ssRNA docking models. BMC Bioinformatics, 25, Article 57.
[6] Taher Yacoub, Roy González-Alemán, Fabrice Leclerc, Isaure Chauvot de Beauchêne, Yann Ponty (2024). Color Coding fortheFragment-Based Docking, Design andEquilibrium Statistics ofProtein-Binding ssRNAs. RECOMB Proceedings
[7] Antoine Moniot,Yann Guermeur,Sjoerd Jacob de Vries,Isaure Chauvot de Beauchene (2022) ProtNAff: protein-bound Nucleic Acid filters and fragment libraries. Bioinformatics.