1 / 29

Comp. Científica aplic. a la caract. del aire urbano, téc. GIS…

Comp. Científica aplic. a la caract. del aire urbano, téc. GIS…. Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB. Trazabilidad. Es de importancia porque: existen datos en diferentes formas a lo largo del entorno, y

rafi
Download Presentation

Comp. Científica aplic. a la caract. del aire urbano, téc. GIS…

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Comp. Científica aplic. a la caract. del aire urbano, téc. GIS… Trazabilidad y Visualización no estructurada en DW 2.0 Mg. Guillermo Friedrich UTN-FRBB

  2. Trazabilidad • Es de importancia porque: • existen datos en diferentes formas a lo largo del entorno, y • los datos fluyen de un estado a otro. • Los datos fluyen: • Dentro del sistema de origen • Del sistema de origen al almacén de datos • Del almacén de datos al entorno de análisis del usuario final • A lo largo de ese flujo los datos son constantemente transformados y recalculados

  3. Trazabilidad • El flujo de datos es representativo del proceso de transformación.

  4. Trazabilidad • En el momento del análisis puede ser necesario o al menos de utilidad disponer de la traza del flujo y transformaciones sufridas por los datos a través del sistema. • Para saber si los datos que se están usando en el análisis son correctos. • El usuario final puede tener interés en examinar la traza de los datos.

  5. Trazabilidad • Un ejemplo (sobre un tema de actualidad) podría ser el siguiente: • A fin de hacer ciertas estimaciones y/o tomar ciertas decisiones, el usuario final necesita conocer el dato de la inflación real en el mes de septiembre. • Dispone de dos valores: • La inflación calculada por el IndeK  -20% • La inflación informada por economistas de la oposición  +300% • ¿cuál es el valor correcto? • ¿alguno de los dos? • ¿ninguno?

  6. Trazabilidad • Al disponer de la traza correspondiente a ambos índices, el incluso el acceso a los datos de origen, se pudo saber que: • El IndeK calculó la inflación (deflación) en base al precio de los blazers de invierno. • En septiembre salieron a liquidación con un 20% de descuento. • Los economistas de la oposición calcularon la inflación en base al precio del tomate. • Aumentó de $5 a $15 en un mes. • La trazabilidad permite evaluar la calidad de la información final.

  7. Trazabilidad • Tres aspectos importantes: • Los datos que fueron usados para conformar los datos que han arribado al entorno de análisis del usuario final. • El linaje (o los ancestros) de los datos que arriban. • Los algoritmos y transformaciones que por los que han pasado los datos hasta llegar al entorno analítico del usuario.

  8. Trazabilidad  Linaje • Camino que han recorrido los datos hasta llegar al entorno analítico del usuario final. • Implica hacer un seguimiento de los distintos nombres asignados a el o los datos de interés, en distintas etapas del camino.

  9. Trazabilidad  Conocer los valores en el origen

  10. Trazabilidad  Algoritmos y transformaciones • A medida que los datos pasan de una etapa a otra del DW, los mismos pueden ser recalculados o afectados por la lógica. • Este aspecto de la trazabilidad implica conocer las operaciones o transformaciones realizadas en cada etapa.

  11. Trazabilidad  Evolución temporal de los algoritmos • Es normal y natural que los algoritmos vayan cambiando con el tiempo. • Es importante llevar un registro del período de tiempo en que se aplicó cada forma de cálculo.

  12. Trazabilidad  Velocidad de recuperación de los datos • Otro aspecto importante de la trazabilidad es la velocidad (o la demora admisible) con que los datos de origen deben estar disponibles para el análisis. • ¿Tiempo “real”?  aproximadamente en 3 o 4 segundos • ¿Es admisible una cierta relajación?  30 min, 2 hs, .... • Puede haber ciertos casos en que se requiera disponer de los datos en tiempo real  •  hay que justificar el mayor costo y complejidad del sistema.

  13. Trazabilidad  Elementos sujetos a trazabilidad • Implementar la trazabilidad implica dedicar una importante cantidad de recursos a tal fin. • Cuantos más elementos de información estén sujetos a trazabilidad mayores serán el costo y esfuerzo requeridos. • Hay que determinar que variables realmente presentan requisitos de trazabilidad.

  14. Visualización no estructurada • La visualización es un componente de la Inteligencia de Negocios (BI: Business Intelligence). • Business Intelligence: • estrategias y herramientas … • enfocadas a la administración y creación de conocimiento … • mediante el análisis de datos existentes en la organización. • Características de la BI: • Accesibilidad a la información  independientemente del origen • Apoyo en la toma de decisiones  herramientas de análisis • Orientación al usuario final  sin grandes conocimientos técnicos

  15. Visualización no estructurada • Algunos componentes de la BI: • Multidimensionalidad  La información se encuentra en: • hojas de cálculo • bases de datos • documentos de texto • archivos de powerpoint, pdf, etc. • e-mails • etc. •  es necesario poder reunir esta información dispersa (incluso en distintos sectores de la organización) a fin de extraer datos útiles para el análisis.

  16. Visualización no estructurada • Algunos componentes de la BI: • Minería de datos (Data Mining): • Extraer información y descubrir las relaciones en bases de datos que revelen comportamientos poco evidentes. • Identificar tendencias y comportamientos. • Favorecer la visión para intuir cambios o nuevas tendencias.

  17. Visualización no estructurada • Algunas operaciones típicas de la BI: • Analizar la información en sentido vertical • Analizar la información en sentido transversal • Resumir la información • Los listados son una forma de mostrar resultados, aunque no suelen ser la mejor forma para que el usuario tenga una visión general. • Puede haber datos importantes que queden escondidos.

  18. Visualización no estructurada • A diferencia de los listados, los gráficos permiten identificar una situación y/o una relación de importancia de un golpe de vista.

  19. Visualización no estructurada • Un problema con la visualización es que ésta se aplica básicamente a datos numéricos. • Pero hay una importante cantidad de datos “no estructurados”, en general textuales, que no se pueden introducir directamente a un sistema BI tradicional.

  20. Visualización no estructurada • Los datos estructurados corresponden a la parte formal de la organización. • Los datos no estructurados corresponden a la parte informal de la organización. • Sin embargo, pueden contener mucha información valiosa que es necesario: • recuperar y • aprovechar.

  21. Visualización no estructurada • Un par de ejemplos que pueden clarificar esta idea: • En la industria farmacéutica puede ser necesario reunir información de miles de pruebas clínicas y procesarlas inteligentemente, para evaluar el resultado de un medicamento. • En la industria automotriz, miles de e-mails de usuarios deben ser organizados a fin de conocer que parte de un cierto modelo de automóvil requiere atención.

  22. Visualización no estructurada • Desafíos que se presentan: • Procesar enormes volúmenes de información • Velocidad de procesamiento • Exactitud • Si una persona procesa un documento lo hará detalladamente. Si tiene que procesar un gran volumen de documentos, el grado de exactitud en el conocimiento de cada uno se diluye. • Encontrar relaciones entre documentos • Por ejemplo: que tienen en común los reclamos de vecinos de un sector de la ciudad con actividades reportadas por las plantas industriales. • Necesidad de encontrar muchos elementos • El procesamiento es heurístico. El resultado de una etapa conduce la búsqueda en la siguiente, y así sucesivamente.

  23. Visualización no estructurada  ETAPAS • Encontrar y preparar los datos textuales a ser visualizados.

  24. Visualización no estructurada  ETAPAS • La preparación de los datos consiste en: • Leer los datos no estructurados desde distintos orígenes (.txt, .doc, .xls, e-mail, etc.) • Buscar los ítems de datos que se necesita visualizar. • En un área de trabajo se disponen palabras e índices • Las palabras son los que se debe visualizar • Los índices contienen el lugar de origen de las palabras

  25. Visualización no estructurada  ETAPAS 2. Una vez que las palabras han sido reunidas y procesadas, están listas para ser tratadas por el motor de visualización.

  26. Visualización no estructurada  ETAPAS • Dependiendo de sus necesidades, el analista puede: • eliminar palabras • editar palabras • retroceder hasta la raíz de la palabra • contar palabras • establecer un ranking de palabras

  27. Visualización no estructurada  ETAPAS • Las palabras e índices son pasados a un SOM (Self Organizing Map) . • Las palabras son presentadas en un ranking, de acuerdo a la cantidad de ocurrencias e importancia de cada una. • El mapa puede ser recorrido y visualizado de diferentes maneras. • - los datos son organizados de acuerdo a los contenidos contenidos dentro de los documentos. • - el SOM establece y muestra las relaciones entre documentos.

  28. Visualización no estructurada  ETAPAS • Ejemplo de visualización SOM

  29. Visualización no estructurada  ETAPAS • SOM permite efectuar tareas diversas con agilidad: • correlacionar  por ejemplo: historias clínicas • analizar en distintos grados de profundidad: • Por ejemplo: • buscar registros de empleados • luego buscar por mujeres empleadas • luego buscar por mujeres empleadas graduadas • luego buscar por mujeres graduadas mayores de 50 años, etc.

More Related