290 likes | 431 Views
Comp. Científica aplic. a la caract. del aire urbano, téc. GIS…. Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB. Trazabilidad. Es de importancia porque: existen datos en diferentes formas a lo largo del entorno, y
E N D
Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB
Trazabilidad • Es de importancia porque: • existen datos en diferentes formas a lo largo del entorno, y • los datos fluyen de un estado a otro. • Los datos fluyen: • Dentro del sistema de origen • Del sistema de origen al almacén de datos • Del almacén de datos al entorno de análisis del usuario final • A lo largo de ese flujo los datos son constantemente transformados y recalculados
Trazabilidad • El flujo de datos es representativo del proceso de transformación.
Trazabilidad • En el momento del análisis puede ser necesario o al menos de utilidad disponer de la traza del flujo y transformaciones sufridas por los datos a través del sistema. • Para saber si los datos que se están usando en el análisis son correctos. • El usuario final puede tener interés en examinar la traza de los datos.
Trazabilidad • Un ejemplo (sobre un tema de actualidad) podría ser el siguiente: • A fin de hacer ciertas estimaciones y/o tomar ciertas decisiones, el usuario final necesita conocer el dato de la inflación real en el mes de septiembre. • Dispone de dos valores: • La inflación calculada por el IndeK -20% • La inflación informada por economistas de la oposición +300% • ¿cuál es el valor correcto? • ¿alguno de los dos? • ¿ninguno?
Trazabilidad • Al disponer de la traza correspondiente a ambos índices, el incluso el acceso a los datos de origen, se pudo saber que: • El IndeK calculó la inflación (deflación) en base al precio de los blazers de invierno. • En septiembre salieron a liquidación con un 20% de descuento. • Los economistas de la oposición calcularon la inflación en base al precio del tomate. • Aumentó de $5 a $15 en un mes. • La trazabilidad permite evaluar la calidad de la información final.
Trazabilidad • Tres aspectos importantes: • Los datos que fueron usados para conformar los datos que han arribado al entorno de análisis del usuario final. • El linaje (o los ancestros) de los datos que arriban. • Los algoritmos y transformaciones que por los que han pasado los datos hasta llegar al entorno analítico del usuario.
Trazabilidad Linaje • Camino que han recorrido los datos hasta llegar al entorno analítico del usuario final. • Implica hacer un seguimiento de los distintos nombres asignados a el o los datos de interés, en distintas etapas del camino.
Trazabilidad Algoritmos y transformaciones • A medida que los datos pasan de una etapa a otra del DW, los mismos pueden ser recalculados o afectados por la lógica. • Este aspecto de la trazabilidad implica conocer las operaciones o transformaciones realizadas en cada etapa.
Trazabilidad Evolución temporal de los algoritmos • Es normal y natural que los algoritmos vayan cambiando con el tiempo. • Es importante llevar un registro del período de tiempo en que se aplicó cada forma de cálculo.
Trazabilidad Velocidad de recuperación de los datos • Otro aspecto importante de la trazabilidad es la velocidad (o la demora admisible) con que los datos de origen deben estar disponibles para el análisis. • ¿Tiempo “real”? aproximadamente en 3 o 4 segundos • ¿Es admisible una cierta relajación? 30 min, 2 hs, .... • Puede haber ciertos casos en que se requiera disponer de los datos en tiempo real • hay que justificar el mayor costo y complejidad del sistema.
Trazabilidad Elementos sujetos a trazabilidad • Implementar la trazabilidad implica dedicar una importante cantidad de recursos a tal fin. • Cuantos más elementos de información estén sujetos a trazabilidad mayores serán el costo y esfuerzo requeridos. • Hay que determinar que variables realmente presentan requisitos de trazabilidad.
Visualización no estructurada • La visualización es un componente de la Inteligencia de Negocios (BI: Business Intelligence). • Business Intelligence: • estrategias y herramientas … • enfocadas a la administración y creación de conocimiento … • mediante el análisis de datos existentes en la organización. • Características de la BI: • Accesibilidad a la información independientemente del origen • Apoyo en la toma de decisiones herramientas de análisis • Orientación al usuario final sin grandes conocimientos técnicos
Visualización no estructurada • Algunos componentes de la BI: • Multidimensionalidad La información se encuentra en: • hojas de cálculo • bases de datos • documentos de texto • archivos de powerpoint, pdf, etc. • e-mails • etc. • es necesario poder reunir esta información dispersa (incluso en distintos sectores de la organización) a fin de extraer datos útiles para el análisis.
Visualización no estructurada • Algunos componentes de la BI: • Minería de datos (Data Mining): • Extraer información y descubrir las relaciones en bases de datos que revelen comportamientos poco evidentes. • Identificar tendencias y comportamientos. • Favorecer la visión para intuir cambios o nuevas tendencias.
Visualización no estructurada • Algunas operaciones típicas de la BI: • Analizar la información en sentido vertical • Analizar la información en sentido transversal • Resumir la información • Los listados son una forma de mostrar resultados, aunque no suelen ser la mejor forma para que el usuario tenga una visión general. • Puede haber datos importantes que queden escondidos.
Visualización no estructurada • A diferencia de los listados, los gráficos permiten identificar una situación y/o una relación de importancia de un golpe de vista.
Visualización no estructurada • Un problema con la visualización es que ésta se aplica básicamente a datos numéricos. • Pero hay una importante cantidad de datos “no estructurados”, en general textuales, que no se pueden introducir directamente a un sistema BI tradicional.
Visualización no estructurada • Los datos estructurados corresponden a la parte formal de la organización. • Los datos no estructurados corresponden a la parte informal de la organización. • Sin embargo, pueden contener mucha información valiosa que es necesario: • recuperar y • aprovechar.
Visualización no estructurada • Un par de ejemplos que pueden clarificar esta idea: • En la industria farmacéutica puede ser necesario reunir información de miles de pruebas clínicas y procesarlas inteligentemente, para evaluar el resultado de un medicamento. • En la industria automotriz, miles de e-mails de usuarios deben ser organizados a fin de conocer que parte de un cierto modelo de automóvil requiere atención.
Visualización no estructurada • Desafíos que se presentan: • Procesar enormes volúmenes de información • Velocidad de procesamiento • Exactitud • Si una persona procesa un documento lo hará detalladamente. Si tiene que procesar un gran volumen de documentos, el grado de exactitud en el conocimiento de cada uno se diluye. • Encontrar relaciones entre documentos • Por ejemplo: que tienen en común los reclamos de vecinos de un sector de la ciudad con actividades reportadas por las plantas industriales. • Necesidad de encontrar muchos elementos • El procesamiento es heurístico. El resultado de una etapa conduce la búsqueda en la siguiente, y así sucesivamente.
Visualización no estructurada ETAPAS • Encontrar y preparar los datos textuales a ser visualizados.
Visualización no estructurada ETAPAS • La preparación de los datos consiste en: • Leer los datos no estructurados desde distintos orígenes (.txt, .doc, .xls, e-mail, etc.) • Buscar los ítems de datos que se necesita visualizar. • En un área de trabajo se disponen palabras e índices • Las palabras son los que se debe visualizar • Los índices contienen el lugar de origen de las palabras
Visualización no estructurada ETAPAS 2. Una vez que las palabras han sido reunidas y procesadas, están listas para ser tratadas por el motor de visualización.
Visualización no estructurada ETAPAS • Dependiendo de sus necesidades, el analista puede: • eliminar palabras • editar palabras • retroceder hasta la raíz de la palabra • contar palabras • establecer un ranking de palabras
Visualización no estructurada ETAPAS • Las palabras e índices son pasados a un SOM (Self Organizing Map) . • Las palabras son presentadas en un ranking, de acuerdo a la cantidad de ocurrencias e importancia de cada una. • El mapa puede ser recorrido y visualizado de diferentes maneras. • - los datos son organizados de acuerdo a los contenidos contenidos dentro de los documentos. • - el SOM establece y muestra las relaciones entre documentos.
Visualización no estructurada ETAPAS • Ejemplo de visualización SOM
Visualización no estructurada ETAPAS • SOM permite efectuar tareas diversas con agilidad: • correlacionar por ejemplo: historias clínicas • analizar en distintos grados de profundidad: • Por ejemplo: • buscar registros de empleados • luego buscar por mujeres empleadas • luego buscar por mujeres empleadas graduadas • luego buscar por mujeres graduadas mayores de 50 años, etc.