Les dossiers informatisés des patients contiennent un grand nombre d’examens réalisés en dehors de l’hôpital. Ces examens sont très souvent stockés sous forme d’images dans des fichiers PDF ou Word et dans un format non standardisé, ce qui empêche une extraction automatique des données. Le traitement de ces données est indispensable à la prise en charge des patients à l’hôpital. Nous souhaitons développer AMBER, un outil basé sur une nouvelle approche hybride utilisant le traitement de reconnaissance optique de caractères OCR avec le traitement du langage naturel NLP pour identifier et structurer les informations cliniques dans les photocopies numérisées des rapports de biopsies rédigés sous différents formats par plusieurs laboratoires.
Différents modèles d’intelligence artificielle et des méthodes de prétraitement d'image seront testés sur ces documents scannés, y compris ceux pouvant conduire à la création d'un système d’extraction automatique ne nécessitant pas d’annotation manuelle (processus chronophage et couteux).
La performance d’AMBER sera évaluée en comparant les informations extraites automatiquement avec les données collectées manuellement par un médecin spécialiste à partir de rapports de biopsie en fichiers PDF et Word et avec les données collectées dans les cahiers d’observation de plusieurs études cliniques sur le cancer du sein et de la thyroïde.
Notre objectif est de développer un outil qui permettrait une analyse et une structuration automatique rapide et précise des données dans les rapports de biopsie.
Objectif principal :
Développer et valider une nouvelle approche hybride utilisant le traitement de reconnaissance optique de caractères (OCR) et le langage naturel (NLP) pour structurer les données cliniques à partir des rapports de biopsie numérisées.
Objectifs secondaires :
Evaluer les risques d’erreur entre la pratique courante et le système automatique.
Evaluer le gain de temps généré par cet outil versus le recueil manuel de données.
Déterminer la faisabilité et les avantages de la nouvelle approche et la meilleure façon d'intégrer ce système dans un flux de travail clinique quotidien.
Centre Antoine Lacassagne
Population étudiée :
Patients pour lesquels nous disposons d'au moins un compte-rendu de biopsie scanné dans le DPI.
Critères d’inclusion :
Âge ≥ 18 ans
Patient pris en charge pour un cancer du sein ou de la thyroïde au Centre Antoine Lacassagne
Patient ayant réalisé une biopsie en dehors du Centre Antoine Lacassagne
Patient ayant pris connaissance de la note d’information et non opposé au traitement de ses données
Critères de non inclusion :
Patients de moins de 18 ans
Patient incapable de donner son libre consentement
Intérêt public
Centre Antoine Lacassagne
Département d'épidémiologie, de biostatistique et des données de santé (DEBDS)
2 ans après publication scientifique