Construction automatique de bases de données pour le domaine médical : Intégration de texte et maintien de la cohérence - Groupe INSA
Thèse Année : 2024

Automated construction of databases for the medical domain : Integrating text and maintaining consistency

Construction automatique de bases de données pour le domaine médical : Intégration de texte et maintien de la cohérence

Résumé

The automatic construction of databases in the medical field represents a major challenge for guaranteeing efficient information management and facilitating decision-making. This research project focuses on the use of graph databases, an approach that offers dynamic representation and efficient querying of data and its topology. Our project explores the convergence between databases and automatic language processing, with two central objectives. In one hand, our focus is on maintaining consistency within graph databases during updates, particularly with incomplete data and specific business rules. Maintaining consistency during updates ensures a uniform level of data quality for all users and facilitates analysis. In a world of constant change, we give priority to updates, which may involve modifying the instance to accommodate new information. But how can we effectively manage these successive updates within a graph database management system? In a second hand, we focus on the integration of information extracted from text documents, a major source of data in the medical field. In particular, we are looking at clinical cases and pharmacovigilance, a crucial area for identifying the risks and adverse effects associated with the use of drugs. But, how can we detect information in texts? How can this unstructured data be efficiently integrated into a graph database? How can it be structured automatically? And finally, what is a valid structure in this context? We are particularly interested in encouraging reproducible research by adopting a transparent and documented approach to enable independent verification and validation of our results.
La construction automatique de bases de données dans le domaine médical représente un défi majeur pour garantir une gestion efficace de l'information et faciliter les prises de décision. Ce projet de recherche se concentre sur l'utilisation des bases de données graphes, une approche qui offre une représentation dynamique et une interrogation efficace des données et en particulier de leur topologie. Notre projet explore la convergence entre les bases de données et le traitement automatique du langage, avec deux objectifs centraux. Tout d'abord, notre attention se porte sur le maintien de la cohérence au sein des bases de données graphes lors des mises à jour, en particulier avec des données incomplètes et des règles métiers spécifiques. Maintenir la cohérence lors des mises à jour permet de garantir un niveau de qualité de données uniforme pour tous les utilisateurs et de faciliter l'analyse. Dans un monde en constante évolution, nous donnons la priorité aux mises à jour, qui peuvent impliquer des modifications de l'instance pour accueillir de nouvelles informations. Mais comment gérer efficacement ces mises à jour successives au sein d'un système de gestion de base de données graphes ? Dans un second temps, nous nous concentrons sur l'intégration des informations extraites de documents textuels, une source de données majeure dans le domaine médical. En particulier, nous examinons les cas cliniques et de pharmacovigilance, un domaine crucial pour identifier les risques et les effets indésirables associés à l'utilisation des médicaments. Comment détecter l'information dans les textes ? Comment intégrer ces données non structurées de manière efficace dans une base de données graphe ? Comment les structurer automatiquement ? Et enfin, qu'est-ce qu'une structure valide dans ce contexte ? On s'intéresse en particulier à favoriser la recherche reproductible en adoptant une démarche transparente et documentée pour permettre la vérification et la validation indépendante de nos résultats.
Fichier principal
Vignette du fichier
2024ORLE1026_va.pdf (1.94 Mo) Télécharger le fichier
Origine Version validée par le jury (STAR)

Dates et versions

tel-04794341 , version 1 (20-11-2024)

Identifiants

  • HAL Id : tel-04794341 , version 1

Citer

Nicolas Hiot. Construction automatique de bases de données pour le domaine médical : Intégration de texte et maintien de la cohérence. Informatique [cs]. Université d'Orléans, 2024. Français. ⟨NNT : 2024ORLE1026⟩. ⟨tel-04794341⟩
0 Consultations
0 Téléchargements

Partager

More