680 likes | 850 Views
BASES DE DONNEES EN RECHERCHE CLINIQUE une approche méthodologique Valérie JOURNOT INSERM U593 – CMG ANRS - Bordeaux. sommaire. la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion. sommaire.
E N D
BASES DE DONNEESEN RECHERCHE CLINIQUE une approche méthodologique Valérie JOURNOTINSERM U593 – CMG ANRS - Bordeaux
sommaire la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion
sommaire la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion
la recherche clinique définition définition activité médicale (au lit du malade) souvent expérimentale mais pas toujours portant sur l'être humain visant à améliorerla prise de décision clinique à toutes les étapes : diagnostic, pronostic, traitement, coût
la recherche clinique objectifs les différents objectifs progrès scientifique autorisation de mise sur le marché (AMM) médecine fondée sur les faits (evidence-based medicine) qualité et véracité de l'information lutte contre les maladies rares les questions de recherche anomalie sujet malade ? diagnostic tests diagnostiques fiables et valides ? pronostic conséquences de la maladie ? traitement progression de la maladie sous traitement ? prévention diagnostic & traitement progression ? cause déterminants de la maladie ? mécanismes physiopathologiques ? coût coût de la prise en charge ?
la recherche clinique méthodes méthodes de l'épidémiologie recherche clinique = épidémiologie clinique essai randomisé cohorte prospective cohorte rétrospective enquête cas - témoins enquête transversale essai randomisé comparaison de groupes à exposition contrôlée spécifique de la recherche clinique incontournable pour l'AMM niveaudepreuve
la recherche clinique méthodes les grands principes méthodologiques travailler sur un échantillon de la population éventuellement, contrôler (imposer) l'exposition surveiller dans le temps selon un calendrier pré déterminé recueillir de façon appropriée les données appropriées appliquer les méthodes statistiques appropriées importance du protocole référence pour toute l'étude ! méfiez-vous du simple bon sens ! les méthodes appropriées ne sont souvent pas intuitives évitez les initiatives hors protocole contactez plutôt l'équipe de recherche clinique
sommaire la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion
les bases de données définition & objectifs définition un ou plusieurs tables de données informatisées comportant différentes variables tables et variables sont ordonnées selon des règles objectifs permettre la collecte et le stockage des données faciliter les contrôles et les interrogations de la base garantir la fiabilité et la sécurité des données
les bases de données synonymes aujourd'hui variantes théorie des BdD table fichier relation variable colonne, champ attribut observation ligne, enregistrement tuple donnée valeur, observation donnée identifiants clé interrogation requête, query requête bornes domaine (var.quantit.) thésaurus codage domaine (var. qualit.) thésaurus dictionnaire de codage demande de querycorrection
les bases de données format des tables format des tables texte (.txt), Word (.doc), Excel (.xls), Access (.mdb), DBase (.dba), Oracle (.dbf), SQL Server (.mdf), SAS (.sas7dbat) tous les logiciels ne se valent pas ! mais ce n'est pas le logiciel qui fait la base ordonnancement 1 donnée = 1 variable x 1 enregistrement plusieurs variables dans une même table plusieurs tables dans une même base cet ordonnancement obéit à des règles pour optimiser la place en mémoire la facilité de recherche de l'information la correction des données
les bases de données logiciels le logiciel généraliste par excellence, Excel c'est un "tableur" : il fait des tableaux disponibilité : MS-Pack Office facilité de prise en main multi fonctionnalité les SGBD système de gestion de bases de données le plus accessible : MS-Access du MS-Pack Office Pro les "professionnels" : Oracle, SQL Server,… toujours préférer un vrai SGBD
les bases de données logiciels MS-Access : les qualités largement disponible (MS-Pack Office Pro) prise en main intuitive fonctionne en clique-bouton utilisation optimale avec des notions sur la théorie (ou la pratique) des bases de données les fonctionnalités d'Access MS-Access : les faiblesses moins puissant que les SGBD professionnels moins fiable pour grosses bases ou interrogations complexes
sommaire la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion
la réglementation Loi n°88-1138, dite loi Huriet-SérusclatLoi n°2004-806 relative à la Politique de Santé Publique rien sur la gestion des données base nationale des recherches accessible au public BPC - ICH E6 personnes avec qualification appropriée système avec respect des exigences en termes de complétude, exactitude, fiabilité, et performance souhaitée Procédures Opératoires Standard (POS = SOP) traçabilité des corrections contrôle des accès aux données liste des personnes autorisées à corriger les données sauvegardes de la base maintien de l'insu
la réglementation Loi Informatiques et Liberté loi générale sur l'informatisation des données droit d'accès, de modification, de retrait signature d'un consentement non nécessaire sauf pour données sensibles déclaration simplifiée un seul dossier pour plusieurs études un avenant par étude méthodologie de référence MR-01déclaration de conformité à la MR-01 données des personnes participant à une recherche biomédicale investigateurs et professionnels
la réglementation RFUEC initiative du Réseau Français des Unités d'Essais Cliniques référentiel : 16 fiches à ce jour aucune recommandation liste d'aspects à considérer lors de la définition du circuit-Data management -Saisie des données -Circuit des données -Contrôles informatisés-Elaboration d'un cahier d'observation -Gestion des demandes de correction-Gestion de la liste de randomisation -Corrections -Inclusion, randomisation -Nettoyage pour analyse finale -Masque de saisie -Gel de la base -Gestion du cahier d'observation -Stockage, sauvegarde, archivage au centre de gestion -Gestion en ligne des essais,-Codage cahier d'observation électronique
la réglementation BPCDM initiative de la Society for Clinical Data Management non reconnu par les autorités guide : 141 pages sur les activités de data management-Data Acquisition -Dictionary Management -Data Privacy -Safety Data Management-Electronic Data Capture Principles & Reporting -CRF Printing and Vendor Selection -SAE Data Reconciliation -Preparation and Preservation of CRF -Measuring Data Quality Completion Guidelines -Assuring Data Quality -CDM Presentation at Investigator Meetings -Database Closure -Data Storage -Clinical Data Archiving -Database Validation, Programming & Standards -Training -Data Entry and Data Processing -Vendor Management -Laboratory and Other External Data -Metrics for Clinical Trials
sommaire la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion
les bases de données circuit des données monitorage sites investigateurs fiches vérificationcodagecorrections collecte desdonnées fiches corrigées data management atelier de saisie erreurs - corrections import contrôles saisie statisticien import analysesstatistiques demandes de correction corrections
les bases de données circuit des données vérifications "manuelles" ou "visuelles" vérifier la cohérence des données repérer des aberrations mais l'erreur est humaine, la fatigue s'installe… vérifications informatiques intégrité présence obligatoire : vide vs non vide format : caractère vs numérique taille : nombre de caractères, nombre de décimales variables quantitative : entre les bornes variable qualitative : dans le thésaurus cohérence sexe vs b-HCG, technique CV vs seuil, diagnostic vs trt,… rien ne vaut un ordinateur pour calculer sans erreur !
les bases de données circuit des données place centrale de la base stocker les données les acquérir les conserver dans le temps pouvoir les utiliser plus tard permettre les contrôles et les interrogations de la base permettre la détection des erreurs permettre les corrections sans rajouter d'erreur permettre les interrogations sans erreur assurer la fiabilité des données assurer leur pérennité lors des traitements informatisés assurer la sécurité des données contrôler l'accès logique à la base contrôler l'accès physique aux machines
sommaire la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion
les formes normales données superflues
les formes normales redondance des données
les formes normales anomalie de modification
les formes normales anomalie de suppression
les formes normales anomalie d'insertion XXX
les formes normales plusieurs données dans une seule variable
les formes normales données de même nature dans plusieurs variables
les formes normales ordonnancement des données dans les tables quelles tables ? dans quelles tables ranger les variables ? quels identifiants pour chaque observation ? quelles relations entre identifiants de tables différentes ?
les formes normales une table est en 1ère forme normale (1NF) si aucune variable ne contient plus d'une donnée
les formes normales une table est en 2ème forme normale (2NF) si elle est en 1NF toutes les variables (sauf identifiants) sont déterminées de façon certaine si les identifiants sont connus
les formes normales une table est en 3ème forme normale (3NF) si elle est en 2NF il n'y a aucune variable (hors identifiants) déterminée de façon certaine si une autre variable est connue
les formes normales hypothèse sous-jacente toutes les données sont connues et déjà dans la base ainsi, on peut corriger les écarts aux formes normales en pratique les données sont inconnues lors de la création de la base ordonner les données en imaginant ce qui pourrait se passer une seule donnée par variable séparer dans des tables différentes les données de cardinalité différente 1 observ. / patient sexe 1 observ. / patient X visite poids 1 observ. / patient X événement nature 1 observ. / patient x événement x traitement imputabilité définir des identifiants uniques numéro séquentiel ou combinaison de variables
les formes normales N 1 1 1 N N DCIspécialitéDCI REPERTOIREfournisseuradresse COMMANDEspécialitéfournisseurprix unitairequantité CONTRE INDICATIONSspécialitécontre indication
les formes normales 1 N N 1 N
les formes normales 1 N N 1 N
les formes normales RANDOMISATIONn°centren°patientcode lettresgrp rando PATIENTn°centren°patientcode lettressexedate naissancegp transmissiontaille VISITEn°centren°patientcode lettrespoidschangt événements ?changt ARV ? 1 1 1 N DECESn°décèsn°centren°patientcode lettresdatelien VIHcause ppalecause 2re 1 EVENEMENTSn°événementn°centren°patientcode lettresnaturedatelien VIH ?lien ARV ? IMPUTABILITEn°événementARV 1 N N variantes n°centre + n°patient ou n°centre_patient regrouper PATIENT, RANDOMISATION et DECES causes de décès à part
sommaire la recherche clinique les bases de données la réglementation le circuit des données les formes normales du questionnaire à la base conclusion
le questionnaire le format plan linéaireidentifiantsquestion 1question 2…question 50 plan à entrées multiplesinclusion événements traitementsidentifiants identifiants identifiantsquestion 1.1 question 2.1 question 3.1question 1.2 question 2.2 question 3.2… … …question 1.10 question 2.5 question 3.7