Du text-lake au knowledge graph : algorithmes frugaux pour cartographier des connaissances (traçabilité, preuves, diachronie)

Offre de thèse

Date limite de candidature

31-08-2026

Date de début de contrat

01-10-2026

Directeur de thèse

LAMIREL Jean-Charles

Encadrement

Co-encadrement assuré par : Guillaume Urbanczyk - CNRS, Institut Jean Lamour – IJL Encadrement TALN et cartographie de l'information au LORIA ; validation et cas d'usage scientifique avec IJL. Accès à l'écosystème ENACT et à multiples ressources de calcul nationales (supercalculateur Jean Zay) et régionales (ROMEO).

Type de contrat

Concours pour un contrat doctoral

Candidater à cette offre

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

SYNALP

contexte

Voir fiche descriptive complète attachée en anglais.

spécialité

Informatique

laboratoire

LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications

Mots clés

TALN/NLP, extraction d'information, désambiguïsation sémantique, graphes de connaissances, cartographie de l'information, IA frugale

Détail de l'offre

Contexte :
Les corpus scientifiques comme les corpus de débat public produisent désormais un effet paradoxal : l'information est abondante, mais la compréhension globale devient difficile. Des propositions importantes circulent sous de multiples formulations, se transforment au fil du temps, changent d'énonciateur et s'appuient sur des preuves parfois contradictoires. Les moteurs de recherche retrouvent des documents sans rendre visible cette dynamique ; les synthèses automatiques restent locales ; et les graphes de connaissances classiques supposent souvent des données déjà structurées.

De quoi s'agit-il, concrètement ?
Le but est de construire une « carte » navigable d'un domaine (ex. un champ scientifique ou médiatique) ou d'un débat : repérer les idées/propositions clés dans un grand ensemble de textes, regrouper les formulations qui disent essentiellement la même chose, relier chaque proposition à ses sources (et, si possible, aux preuves citées), puis suivre l'évolution de ces propositions dans le temps (apparitions, reformulations, controverses, consensus).

Objectifs scientifiques :
Développer et évaluer de nouveaux algorithmes pour transformer des « text-lakes » massifs et non structurés en « knowledge graphs cohérents », auditables et extensibles. La thèse étudiera en particulier des stratégies de désambiguïsation/canonisation (détecter quand deux formulations renvoient à la même proposition), sous contrainte de coût (approches frugales), et la manière dont une ontologie flexible peut permettre (i) une représentation plus optimale malgré (ii) une réduction de la dimensionalité et de (iii) guider la construction du graphe (idées, acteurs, sources, preuves, relations temporelles).

Keywords

NLP, information extraction, semantic disambiguation, knowledge graphs, information mapping, frugal AI

Subject details

Context: Scientific corpora as well as public-debate corpora now produce a paradoxical effect: information is abundant, but gaining an overall understanding is increasingly difficult. Important statements circulate under multiple formulations, evolve over time, change speaker, and rely on evidence that can be contradictory. Search engines retrieve documents without making this dynamic visible; automatic summaries remain local; and traditional knowledge graphs often assume data that is already structured. What does it mean, concretely? The goal is to build a navigable 'map' of a domain (e.g., a scientific field or a media corpus) or a debate: identify key ideas/claims in a large collection of texts, group formulations that essentially express the same claim, link each claim to its sources (and, when possible, to the cited evidence), and track how these claims evolve over time (emergence, rephrasing, controversy, consensus). Scientific objective; Develop and evaluate new algorithms to transform massive, unstructured text-lakes into coherent, auditable, and extensible knowledge graphs. The thesis will focus in particular on disambiguation/canonicalization strategies (detecting when two formulations refer to the same claim) under cost constraints (frugal approaches), and on how a flexible ontology can (i) enable better representations while (ii) reducing dimensionality and (iii) guiding graph construction (ideas, actors, sources, evidence, temporal relations).

Profil du candidat

Profil recherché
• Excellente maîtrise de Python, ou d'outils informatiques équivalents
• Intérêt pour les sciences du langage, le TALN, l'extraction d'information, les représentations sémantiques et/ou les graphes (Neo4j, RDF… appréciés).
• Master (ou équivalent) en lien avec l'informatique / data science / IA.
• Goût pour le traitement de données, l'évaluation méthodique (benchmarks, ablations) et l'écriture scientifique.

Candidate profile

Candidate profile
• Strong command of Python (or equivalent programming tools).
• Interest in linguistics, NLP, information extraction, semantic representations and/or graphs (Neo4j, RDF, etc. appreciated).
• Master's degree (or equivalent) in computer science / data science / AI (or related fields).
• Enjoys data processing, rigorous evaluation (benchmarks, ablations), and scientific writing.

Référence biblio

• Lamirel, J.-C. (2012). A new approach for automatizing the analysis of research topics dynamics: application to optoelectronics research. Scientometrics, vol. 93(1), pages 151-166.
• Lamirel, J.-C. et al. (2014). Federating clustering and labeling capabilities based on feature maximization. Neurocomputing, 147, 136-146.
• Lamirel, J.-C. et al. (2020). An overview of the history of Science of Science in China based on bibliographic and citation data: a new method based on clustering with feature maximization and contrast graphs. Scientometrics.
• Lamirel, J.-C. et al. (2023). The CFMf Topic-Modeling Method Based on Neural Clustering with Feature Maximization: Comparison with LDA. Proceedings of ISSI 2023.
• Hogan, A. et al. (2021) — Knowledge Graphs (survey).
• Reimers & Gurevych (2019) — Sentence-BERT.
• Strubell et al. (2019) — coût énergétique du deep learning en NLP (perspective frugale).
• [Jean Zay] : https://www.cnrs.fr/fr/presse/jean-zay-le-supercalculateur-le-plus-puissant-de-france-pour-la-recherche
• [ROMEO] : https://romeo.univ-reims.fr/welcome