200 likes | 479 Views
Une base de données de mammographies. Omar Boussaïd Riadh Ben Messaoud. Laboratoire ERIC – Université de Lyon 2 5, avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr. Présentation. DDSM : Digital Database for Screening Mammography
E N D
Une base de données de mammographies Omar Boussaïd Riadh Ben Messaoud Laboratoire ERIC – Université de Lyon 2 5, avenue Pierre Mendès–France 69676, Bron Cedex – France http://eric.univ-lyon2.fr
Présentation • DDSM : Digital Database for Screening Mammography • Un projet supporté par «the Breast Cancer Research Program of the U.S. Army Medical Research and Materiel Command» • Partenaires : • Massachusetts General Hospital • University of South Florida • Sandia National Laboratories • Washington University School of Medicine • Wake Forest University School of Medicine
Objectifs • Mettre des données de mammographies à la disposition de la communauté scientifique. • Contribuer au développement d’algorithmes d’aide à la décision et d’apprentissage dans le domaine médical. • diagnostique et détection automatique de cas cancéreux • La base est disponible à l’adresse : http://marathon.csee.usf.edu/Mammography/Database.html
Description • La base contient 2 604 dossiers de patients. • Un dossier est composé de : • 1 fichier .ics décrivant en format ASCII, les informations générales d’un dossier de patient. • 4 fichiers images .LJPEG (LOSSLESS JPEG) des radios numérisées. Chaque radio présente uneangle de vuedu sein :Left_CC, Left_MLO, Right_CC, Right_MLO(CC: Cranio-Caudal ; MLO: Medio-Latral Oblique). • Pour chaque radio présentant une ou des zones anormales, est associé un fichier .OVERLAY en format ASCII, décrivant une anomalie du sein. • 1 fichier image .16_PGM regroupant les 4 radios et présentant un aperçu rapide pour la visualisation d’un dossier de patient.
Description • Le fichier .ics (Exemple : B-3024-1.ics) ics_version 1.0 filename B-3024-1 DATE_OF_STUDY 2 7 1995 PATIENT_AGE 42 FILM FILM_TYPE REGULAR DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER LUMISYSSELECTED LEFT_CC LINES 4696 PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION 50NON-OVERLAY LEFT_MLO LINES 4688 PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION 50OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE 3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY Anomalie détectée dans la radio B_3024_1.RIGHT_MLO.LJPEG B_3024_1.RIGHT_MLO.OVERLAY
Description Le fichier B_3024_1.RIGHT_MLO.LJPEG
Description Le fichier B_3024_1.RIGHT_MLO.OVERLAY TOTAL_ABNORMALITIES 1 ABNORMALITY 1 LESION_TYPE MASS SHAPE OVAL MARGINS ILL_DEFINED ASSESSMENT 4 SUBTLETY 3 PATHOLOGY MALIGNANTTOTAL_OUTLINES 1 BOUNDARY 1284 4076 0 0 0 0 0 0 0 0 . . . 6 6 6 6 0 0 #
Description • Les dossiers sont disponibles sur un compte FTP • Les dossiers de patients sont classés selon 4 volumes • Normal • Cancer • Benign • Benign without callback • Bilan quantitatif et volumétrie : • 43 volumes • 2 604 fichiers .ics • 2 604 fichiers .16_PGM • 10 416 fichiers images .LJPEG • 4 636 fichiers .OVERLAY Volume total des données : 230,9 Go
Extraction des données • Applicatif de mise à disposition des données de la base DDSM http://eric.univ-lyon2.fr/~gt-fdc/mammo/ • Récupération des données sous forme : Structurée : Base relationnelle (MySql) Semi-structurée : Documents XML Script : SQL
Parseur PHP • Entrées : • Volumes des dossiers à extraire • Format des données de sortie (MySQL, XML, SQL)
Parseur PHP • Étape 1 : • Connexion au compte FTP ftp://figment.csee.usf.edu/pub/DDSM/cases/ • Ouverture des fichiers .ics et .OVERLAY dans les volumes sélectionnés
Parseur PHP • Étape 2 : • Lecture des fichier .ics et .OVERLAY • Extraction des données selon des fonctions de reconnaissance de caractères ics_version 1.0 filename B-3024-1 DATE_OF_STUDY 2 7 1995 PATIENT_AGE 42 FILM FILM_TYPE REGULAR DENSITY 4 DATE_DIGITIZED 7 22 1997 DIGITIZER LUMISYS SELECTED LEFT_CC LINES 4696 PIXELS_PER_LINE 3024 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY LEFT_MLO LINES 4688 PIXELS_PER_LINE 3048 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY RIGHT_CC LINES 4624 PIXELS_PER_LINE 3056 BITS_PER_PIXEL 12 RESOLUTION 50 NON-OVERLAY RIGHT_MLO LINES 4664 PIXELS_PER_LINE 3120 BITS_PER_PIXEL 12 RESOLUTION 50 OVERLAY
Parseur PHP • Étape 3 : • Écriture des données extraites dans le format de données sélectionné (MySQL, XML, SQL) MySQL FTP Parseur PHP XML SQL
Structure de la base MySQL Taille totale de la base : 17,2 Mo • 4647 enregistrements • 14 Mo • 4636 enregistrements • 972 Ko • 10416 enregistrements • 1,67 Mo • 2604 enregistrements • 490 Ko
Extraction des données MySQL FTP Parseur PHP XML SQL
Structure du fichier XML <?xml version="1.0" encoding="ISO-8859-1" ?> <cases> <case> <case_id> 1 </case_id> <case_type> benign </case_type> <ics_version> 1.0 </ics_version> <ics_file_name> A-1123-1.ics </ics_file_name> … <sequence> sequence </sequence> <left_cc> … </left_cc> <left_mlo> … </left_mlo> <right_cc> … </right_cc> <right_mlo> … </right_mlo> </case> </cases>
Extraction des données MySQL FTP Parseur PHP XML SQL
Structure du fichier SQL • Création d’une table : CREATE TABLE IF NOT EXISTS table_mammo ( case_id int(10) NOT NULL AUTO_INCREMENT, case_type varchar(25), ics_version char(3), ics_file_name varchar(50), . . . PRIMARY KEY (case_id)); • Insertion des données dans la table : INSERT INTO table_mammo VALUES ('', 'benign', '1.0', 'C-0029-1.ics', . . . ); INSERT INTO table_mammo VALUES ('', 'benign', '1.0', 'C-0029-2.ics', . . . );
Conclusion • DDSM : une base de données complexes 2 604 dossiers de patients Un volume total de 230,9 Go • Applicatif de mise à disposition des données sur les mammographies : Sélectionner les données à récupérer pour des analysesciblées
Nouvelle adresse du site du GT FDC • http://eric.univ-lyon2.fr/~gt-fdc/