1 / 50

RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin. Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN - Centre François Baclesse – CAEN Lyan HOANG INSERM – U1018 – équipe 9 Institut Gustave Roussy - VILLEJUIF 18 mai 2011. 1- Épidémiologie

floria
Download Presentation

RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN - Centre François Baclesse – CAEN Lyan HOANG INSERM – U1018 – équipe 9 Institut Gustave Roussy - VILLEJUIF 18 mai 2011

  2. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 2

  3. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 3

  4. Définition L’épidémiologie est l'étude de la répartition et des déterminants des évènements de santé. Les 3 branches de l’épidémiologie DESCRIPTIVE : étudier la fréquence et la répartition d'une pathologie dans une population. ETIOLOGIQUE : rechercher les déterminants de cette pathologie. EVALUATIVE : mesurer l'impact d'une politique de santé publique. 1- Épidémiologie CONNAÎTRE Ép. descriptive EVALUER Ép. évaluative COMPRENDRE Ép. étiologique Politique SANTE PUBLIQUE Propositions Hypothèses Actions 4

  5. L’étiologie L’épidémiologie étiologique (ou analytique, ou explicative) permet rechercher une relation entre exposition(s) et pathologie(s). Les enquêtes Enquête exposés / non exposés (cohorte) : comparaison de la survenue d’une pathologie dans le temps, dans des groupes de sujets, tous « sains » à T0, exposés ou non exposés à des facteurs de risque. Enquête Cas-Témoins : comparaison de la fréquence et de l’intensité de l’exposition entre des sujets malades et des sujets « sains ». Objectif L’identification des facteurs de risque permet la mise en place de politiques de santé publique. 1- Épidémiologie : Étiologie 5

  6. 1- Épidémiologie : L’enquête de cohorte Essai randomisé Etude transversale Groupe traité Suivi Patients PopulationT1 Exposition ? État de santé? Population T0 Exposition ? État de santé? Comparaison des résultats Témoin Suivi Répartition au hasard Comparaison Etude cas-témoin Cohorte Patients avec cancer Fumeurs Étude des antécédents Suivi Comparaison des issues Suivi Comparaison des antécédents Conclusions Non fumeurs Étude des antécédents Témoins sans cancer prospective rétrospective 6

  7. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 7

  8. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 8

  9. La population agricole Effets des expositions professionnelles agricoles peu renseignés France 1 million actifs (5-7% des actifs) et 500000 exploitations en France Expositions spécifiques : chimiques (pesticides, engrais, désinfectants…), physiques (ultraviolets, accidents mécaniques…), biologiques (virus animaux, moisissures…). Les pesticides La France se situe au 4ème rang mondial avec une utilisation de près de 80.000 tonnes par an et au 1er rang européen. Quelques hypothèses liens pesticide et santé : risques de cancers (hématologiques), troubles de la reproduction (infertilité, avortements, malformations) maladies neurologiques (maladie de Parkinson, troubles neurocomportementaux,…) 2.1- AGRICAN - Milieu agricole : Contexte 9

  10. 2.1- AGRICAN - Milieu agricole : Études (1) DM : - Outil de saisie (+double saisie) sur Access. 10

  11. 2.1- AGRICAN - Milieu agricole : Études (2) • DM : • Croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer • Formulaire de gestion des contacts (Suivi) sur Access • Nouveau modèle de vidéocodage à envisager 11

  12. 2.1- AGRICAN - Milieu agricole : Études (3) • DM : • contrôles de cohérences (pour validation manuelle) • gestion du "Vidéocodage" • croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer • calculs de mortalité et d'incidence à partir de ces croisements 12

  13. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 13

  14. 2.2- AGRICAN - Méthode : le questionnaire Habitudes de vie Etat de santé Activités agricoles Utilisation des pesticides 14

  15. 2.2- AGRICAN - Méthode : le questionnaire Réception Vidéocodage Contrôles logiciel & manuels Dépouillement + Numérisation + Stockage Envoi Base de données 1er Env + Relance + N° vert Cohérence Recodage (DM) Codage (Cim, Pro) Bulletin d’info Questionnaire Compte rendu aux participants Conception + Test 15

  16. 2.2- AGRICAN - Méthode : les données 16

  17. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 17

  18. 2.3- AGRICAN – Les résultats – La cohorte • 30% de réponse (182 000 personnes) - 5% attendus pour une enquête postale • La participation est plus importante chez les moins de 75 ans, les femmes et dans le Doubs. • Tabac + faible qu’en pop générale • IMC + en surpoids que pop générale 18

  19. 2.3- AGRICAN – Les résultats – La mortalité Liés au tabac Tendance excès 19 * différence significative entre Agrican et la population générale

  20. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 20

  21. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 21

  22. 3.1- E3N – Constitution de la cohorte 22

  23. 3.1- E3N – Constitution de la cohorte • Données prospectives sur état de santé, anthropométrie, • Facteurs reproductifs et hormonaux, mode de vie, alimentation, 23

  24. 3.1- E3N – Constitution de la cohorte • L’étude pilote a commencé en 1989 : 2681 retours de questionnaires • En 1990, la MGEN a envoyé à environ 500 000 personnes nées entre 1925-1950 • 103 089 retours, saisie de l’étiquette pour constituer une base d’adresse. • Le fichier de 500 000 personnes est arrivé 18 mois après 24

  25. 3.1- E3N – Constitution de la cohorte • Couple E3N-MGEN sur les critères : nom, prénom, nom de jeune fille, date de naissance, commune de naissance >> gros problème de discordances entre les saisies de ces 2 bases • Les analyses ne peuvent commencer en 2000 qu’après les travaux de : • vérification des accords • vérification des dates de naissance concordantes entre les déclarations • Ainsi la cohorte fige sa population de 98995 personnes à suivre 25

  26. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 26

  27. 3.2- E3N – Données • Auto-questionnaires tous les 2, 3 ans sur : • État de santé, mode de vie … • Banque du matériel biologique : • 25000 prélèvements sanguin • 50000 kits salives • Fichiers MGEN : • Tous les médicaments prescrits, remboursés • Causes de DC • Compte-rendu anatomopathologiques de cancer • Mammographies du sein • Suivi de tous les contacts avec : • Les participantes (questionnaires, mailings, documents médicaux…) • Les médecins (une base d’environ 35000) 27

  28. 3.2.1- E3N – Questionnaires • Volume important (≈ 10 caisses / jr) • Ouverture • Tri des questionnaires • Petits mots • Étiquettes d’identification à enlever éventuellement • Rayés • Stylo optique pour pouvoir faire les relances au plus vite • Les questionnaires prêts pour numériser 28

  29. 3.2.1- E3N – Questionnaires • Données prospectives sur état de santé, anthropométrie, • Facteurs reproductifs et hormonaux, mode de vie, alimentation, … • Questionnaires spécifiques, comme les fractures, déclin cognitif, exposoleil … 29

  30. 3.2.2- E3N – Questionnaires - Facteurs hormonaux 30

  31. 3.2.2- E3N – Questionnaires • Structure des données – Gel des tables à analyser • Les répertoires • Les dictionnaires des variables 31

  32. 3.2.3- E3N – Questionnaires - Le Qr alimentaire • Partie quantitative : 8 repas avec • la fréquence de consommation de chaque d’aliment, • la quantité consommée à chaque repas… • Partie qualitative : • type d’aliment, • mode de cuisson, • régime … 32

  33. 3.2.3- E3N – Questionnaires - Le Qr alimentaire • Corrections de la 1ère partie du questionnaire : Transformation des lettres des photos en quantités, en prenant en compte les photos multiples, transformation des fréquences mensuelles en fréquences hebdomadaires, correction des arrondis et des valeurs aberrantes pour les quantités, création d’un compteur permettant de calculer le nombre d’aliments consommés pour chaque personne… • Corrections de la 2nde partie du questionnaire : Convertir la photo en quantité numérique, vérification des cohérences, internes aux blocs, convertir les tableaux qualitatifs en codes, uniformiser les déclarations, décisions pour les multicochages, décomposition des aliments  • Calcul des apports alimentaires Quantification des aliments consommés par repas et par jour, quantification des aliments consommés par jour (sans distinction des repas, classification des aliments consommés (groupes EPIC), calcul des apports en nutriments par jour et par femme 33

  34. 3.2.3- E3N – Questionnaires - Le Qr alimentaire 34

  35. 3.2.4- E3N – MGEN • Fichiers trimestriels de la population de départ en 1990 : • Coordonnées, statut vital • Consommations médicales : médicaments, hospitalisations, actes … • Médecins, établissements hospitaliers … • Les macro SAS sont traitées à chaque réception de ces fichiers (importants de taille) • Des macro SAS sont aussi créées pour extraire les données, par exemple : toutes les personnes qui ont consommé les médicaments traitant l’asthme (en croisant avec la base Thériaque) 35

  36. 3.2.5- E3N – Les cas de cancer • Toutes les notions concernant le cancer sont ajoutées dans la base de K : • Auto-déclaration ( partie cancer, motifs d’hospitalisations, autres maladies) • Causes de décès • Par la famille • Dans les documents médicaux 36

  37. 3.2.5- E3N – Les cas de cancer • Comptes rendus anatomopathologiques (CRA) à récupérer : • Saisir les médecins fournis dans les questionnaires • Créer un couple femme-médecin • Mailing au médecin 37

  38. 3.2.5- E3N – Les cas de cancer • Codage des CRA reçus 38

  39. 3.2.6- E3N – Suivi des contacts • Tableau de bord pour connaitre chaque contact avec les participantes (ACCESS) 39

  40. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 40

  41. 4.1- Vidéocodage LAD : Lecture Automatique de Documents A partir de la numérisation et de la reconnaissance de caractères, elle permet de récupérer les informations de documents papiers sur des fichiers informatiques en limitant l’intervention humaine. C’est une Alternative à la saisie pour les grandes quantités de Qr et de variables. Logiciel : B-Wize (=ICR) développé par EMC 41

  42. 4.1- Vidéocodage Stockage Numérisation Lecture OCR + contrôles Validation manuelle Enregistrement Fichiers Préparation des documents 42

  43. Avant : Le modèle Ancres Champs Contrôles Pendant : Le workflow (étapes de production) : Numérisation (10-20) Identification des pages et du code individu (30-40) Lecture des données par le logiciel (60) Si erreur envoi en validation manuelle (70) Transfert des données vers des fichiers (80) Après : Les bases et les images Traitements sur les données exportées Consultation des images Accès aux bases du logiciel 4.1- Vidéocodage 43

  44. 4.1- Vidéocodage – Le modèle Barre d’outils Répertoire des objets Support du modèle Vert = Champ Jaune = Ancre Explorateur Propriétés de l’objet 44

  45. 4.1- Vidéocodage – La validation manuelle Commentaire Zone de saisie du champ Lecture directe de l’image Lecture du champ sur l’image Lecture des données recueillies Vert = Champ validé Progression du lot Bleu ciel = champ en cours de contrôle (Bleu = champ en attente de contrôle) 45

  46. 4.1- Vidéocodage – Avantages et inconvénients • Coût d’acquisition très élevé • Lecture automatique des documents, commence à délivrer un retour sur investissement intéressant au dessus de 500 doc/jour avec comme condition une densité élevée de données pour chaque doc. • Scan : rythme de 800 questionnaires de 2 feuilles par heure (soit 3 semaines pour 84 000 questionnaires de 4 pages) • Correction à l’écran des informations mal reconnues par l’automate (55 qst de 4 pages / heure, soit 10 personnes-mois) • Documents consultables en ligne • Consultation des questionnaires : • Évite de trier et ranger les questionnaires • Évite d’aller chercher les questionnaires papiers • Libére la place de stockage des papiers 46

  47. 4.1- Vidéocodage – Les perspectives • Avec l’évolution informatique : l’ancien ne peut plus être déployé sur de nouveaux environnements. • Le changement de plateforme est en cours à E3N. Nous devons prendre 2 pro logiciels pour remplacer : InputAccel et Documentum. • Avec la nouvelle plateforme : • Transfert de tous les anciens questionnaires • numérisation tous nos documents papiers : CRA de K de plus de 21 000 personnes (4 grands armoires), consentements … • Nouveaux questionnaires de suivi (le premier sera fin de cette année) 47

  48. 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 48

  49. Suivi dans le temps La mise à jour non stop des données Vérification des déclarations à travers les questionnaires Structure et organisation des données : Quelle donnée choisir parmi tant ? Quelle table de donnée utiliser dans une analyse ou une autre ? 4.2- Problématiques en Data Management 49

  50. Choix de logiciels adaptés Formulaires de Saisie sur Access (+ qq requêtes) (?) Vidéocodage sur Bwize (?) Requêtes / contrôles / gestion des bases / calculs sur SAS Sources externes Collecte Croisements des bases sans identifiant commun Validation des données Identification des erreurs de remplissage des répondants Recodages / contrôles de cohérence Sécurisation / pérennité / dynamisation des bases Suivi des individus Changements adresse, décès, perdus de vue Gestion de 180 000 individus Seulement 50% de questionnaires validés depuis 2008 : échn 10% pr analyse Temps de chargement Stockage sur une base MySQL 4.2- Problématiques en Data Management 50

More Related