190 likes | 351 Views
Calidad de datos: detección y corrección. I Taller sobre calidad en bases de datos sobre biodiversidad 13-14 septiembre 2007. Madrid. Francisco Pando Unidad de Coordinación GBIF-España. Guión. Conceptos Ciclo de vida de los datos y detección
E N D
Calidad de datos: detección y corrección I Taller sobre calidad en bases de datos sobre biodiversidad 13-14 septiembre 2007. Madrid. Francisco Pando Unidad de Coordinación GBIF-España
Guión • Conceptos • Ciclo de vida de los datos y detección • Introducción de datos: interpretar, distorsionar, errar • Captura de errores: validación y detección • Diseño de base de datos y gestión de errores • Virtualidad y realidad en las BBDD • Casos • La casa por los cimientos. Un ejemplo de Eslovenia
Ciclo de vida de los datos y detección Chapman, A. D. 2005. Principles of Data Quality, version 1.0. Report for GBIF
Introducción de datos: interpretar, distorsionar, errar Una base de datos debe conciliar dos requisitos en extremo irreconciliables: • Representar la realidad • Que la información se encuentre, se pueda comparar y analizar ( estandarizar y normalizar interpretar) Estándares (o referencias) explícitos usados con consistencia
Componentes de la validación Validación = detectar y corregir: • Inexactitudes • Falta de datos • Potenciales errores (datos no razonables) La validación trata de garantizar la veracidad del registro
Captura de errores: validación y detección • Validación: asegura que los datos se corresponden con el objeto. Incluye también el control de inexactitudes y pérdida de datos
Procedimiento • Establecer procedimientos que no conlleven pérdida de datos • Las reglas de normalización deben cubrir todos los casos • Los procedimientos no deben bloquear el progreso del trabajo ante casos no contemplados o dudas
Procedimientos que permita que los errores detectados se corrijan en la base de datos
Por ejemplo: http://data.gbif.org/occurrences/76377384/ Proporcionar al usuario la posibilidad de reportar errores o comentarios
Diseño de base de datos y gestión de errores • Diseños normalizados de bases de datos
Diseño de base de datos y gestión de errores • Recomendación: distintos formatos de la misma información debe calcularse de un campo a otro para su uso específico y no duplicar la información en campos paralelos Campo UTM: 30TUF345871 Campo UTM: 30TUF345871 Campo UTM10: 30TUF38 … Y si.. Campo UTM: 30TUF345871 Campo UTM10: 30TUF31 Campo UTM: 30TUF38 temporal calculado
Virtualidad y realidad en las BBDD Cuestión para debatir ¿Debe el objeto reflejar toda la información acumulada a partir del el? por ejemplo: ref. al Genbank, nombre de la camisa (Bot.) o de colección (Zool.)
Casos (1) “Misma especie, misma localidad, al mismo sobre” ¡no hacer en casa!
Casos (2) “Las malas identificaciones son errores que se han de corregir [i.e. eliminar]” ¡no hacer en casa!
Casos(3) Herbar 3.4 Herbar 3.5
Para terminar:La casa por los cimientos: Un ejemplo de Eslovenia