450 likes | 562 Views
3. LA VIGILANCIA TECNOLÓGICA Herramientas profesionales. Herramientas profesionales. Minería de datos Minería de textos. Estudio Cienciomètrico: Etapas. Formación del corpus de información. Modelización de la información. Análisis de la información. Extracción de resultados.
E N D
Herramientas profesionales • Minería de datos • Minería de textos
Estudio Cienciomètrico: Etapas • Formación del corpus de información • Modelización de la información • Análisis de la información • Extracción de resultados
Data Mining • Minería de datos Información estructurada • Operaciones básicas: - Clasificación - Recuento - Cruces o co-ocurrencias • Otras opciones: Tesauro, sinónimos, aplicaciones gráficas... • Grado de funcionalidad y complejidad
Algunos ejemplos • AUREKA • MATHEO • TETRALOGIE
Matheo Analyzer • Software que permite desarrollar estudios bibliométricos y mapas tecnológicos • La información se importa de bases estructuradas • Manejo e interface amigable
Matheo Analyzer Bases de Estructuradas: Artículos • Science (Social) Citation Index • Chemical Abstracts (Química) • Medline (Medicina) • Compendex (Ingeniería) • Inspec (Electricidad y Electrónica) • Biosis (Ciencias de la Vida) • CINDOC/CSIC (Ciencia y Tecnología...) • ABI-Inform (Gestión Empresarial)
Registro de la base de datos Compendex Plus, del distribuidor DIALOG DIALOG NO: 03917915 El Mothly No: EIP94081363930 Title: Correlation of structure and electric properties of high temperature superconducting wire with its fabrication conditions Corporate source: Inst Metallurgii im. A.A. Bajkova RAN, Moscow, Russia Source: Fizika i Khimiya Obrabothi Materialov N 2 Mar-Apr 1994. p 138-142 Publication year: 1994 CODEN: FKOMAT ISSN: 0015-3214 Language: Russian Document Type: JA; (Journal Article) Treatment code: X; (Experimental); A; (Applications) Abstract: Dependence of high temperature superconducting wire structure and properties on the conditions of thermal and pressure treatment has been studied. The influence of temperature and time of annealing and of cooling rate on critical temperature and current density of superconductor has been found. Descriptors: *Superconductivity; Superconducting materials; Wire; Structure (composition); Heat treatment; Annealing; Cooling; Superconducting transition temperature; Deformation. Identifiers: High temperature superconducting wire; Pressure treatment; Time of annealing; Cooling rate; Current density; Superconducting wire microstructure. El Classification Codes: 712.1 (Semiconducting Materials) 712 (Electronic & Thermionic Materials) Matheo Analyzer
Matheo Analyzer Bases Estructuradas: Patentes www.wipo.int(Oficina Mundial de la Propiedad Intelectual) www.uspto.gov (U.S. Patent and Trademark Office) www.european-patent-office.org (European Patent Office) www.jpo-miti.go.jp (Oficina de Patentes de Japón) www.oepm.es (Oficina Española de Patentes y Marcas) INPADOC (todas las colecciones nacional patentes) URL: www.delphion.com (Delphion)
Importación de datos desde un fichero (txt) • Creación de la “regla de importación” • Recuento simple y creación de diccionarios Pretratamiento • Formas o recuentos simples de campos • Pares o coocurrencia de contenidos de uno o dos campos (simétricos o no) Tratamiento • Histogramas (recuentos simples) • Grafos de relaciones a partir de coocurrencias • Matrices y tabla de coocurrencias Visualización Estructura operativa
Pretratamiento • “Regla de importación”: • Separador de noticias • Separador de campos Mono/Multiforme Mono/Multiinformación • La “Regla de importación” se almacena para poder ser reutilizada en otros análisis
Formas originales Roman, RM (3) Roman RM (2) roman, rm (1) 1. Recuento Sinónimos Roman, RM (*) 2. Recuento Roman, RM (6) Filtros Autores > F (6) Roman, RM (6) López, AJ (5) … Formas resultantes Tratamiento. Formes
Modelos clasificación Expertos Glosarios Diccionarios Agregación + - Estudios Genéricos Señales emergentes Tratamiento. Formes
Tratamiento. Formes Pantalla de control de Formes
Tratamiento. Paires • Ejecución de coocurrencias o cruces del contenido de uno o dos campos. • Posibilidad de seleccionar todo tipo de coocurrencias (campos filtrados creados anteriormente) • Visualización en tabla y mediante grafos de relaciones.
Formas del 2º campo Selección del 1r campo de coocurrencia Formas del 1r campo Frecuencia de coocurrencia Selección del 2º campo de coocurrencia Representación gráfica Tratamiento. Paires
Patentes concedidas por año Visualización. Histogramas Representación de los recuentos simples, tipos: Frecuencia, Rango, Profundidad de indexación. Ejemplo: aplicaciones de los filtros superconductores para altas temperaturas (HTS) en las comunicaciones inalámbricas:
Histogramas. Ejemplo Patentes de empresas líderes Patentes por países
Visualización. Réseau • Representación de las coocurrencias. • 3 conceptos básicos: • Forme: Las formas se indican en recuadros con el número de artículos en que aparecen. • Connectivité: Número de formas con las que contacta una forma (número de flechas que salen de una forma). • Paire: Número de veces que dos formas aparecen juntas (viene dada por el número de encima la flecha). • 3 tipos de grafos: simétricos (un campo con él mismo), asimétricos (campos distintos), condorcet (grupos de noticias homogéneos en relación a un campo) y de propagación (selección de las formas iniciales).
Controles del grafo para filtrar las formas según los tres criterios: Forme, paire y connectivité Visualización. Réseau
Réseau. Ejemplo Redes de colaboración. Réseau simétrico • Ejemplo: aplicaciones de los filtros superconductores para altas temperaturas (HTS) en las comunicaciones inalámbricas.
Coocurrencia Afiliación-Códigos, sin filtrar los campos. Réseau asimétrico. Réseau. Ejemplo
Réseau. Ejemplo Coocurrencia Afiliación-Códigos, con ambos campos filtrados (empresas líderes y códigos más frecuentes). Réseau asimétrico.
Condorcet: grupos homogéneos de noticias en relación al campo Afiliación Visualización. Réseau
Visualización. Matrices • Representación en una matriz de los valores de las coocurrencias. • Tipos de matrices: simétricas, asimétricas, condorcet y metamatriz. • Se pueden ordenar: • Par valeur • Par somme • Ejemplo: aplicaciones de los filtros superconductores para altas temperaturas (HTS) en las comunicaciones inalámbricas.
Matrices. Ejemplo Matriz de coocurrencia: Afiliación-Afiliación
Matrices. Ejemplo Matriz de coocurrencia: Empresas líderes - Año de concesión
Matrices. Ejemplo Metamatriz: empresas líderes en relación a los campos Afiliación, Ciudad y Códigos todos ellos filtrados
Aplicaciones • Los resultados y gráficos permiten obtener una impresión global y una buena aproximación al tema.
Text Mining • Minería de textos Información estructurada y no estructurada • Entiende el lenguaje Módulo semántico, sintáctico y morfológico • Estructura modular/integrada
Text Mining Procesamiento lingüístico: • Análisis léxico y normalización • Palabras compuestas y expresiones como únicas • Palabras vacías • Stemming o Lemmatization (raíz de palabra)
Text Mining: Implementación Extracción Categorización Clustering Funciones Filtering Topic Spotting Summarization
Algunos ejemplos de Text Mining • KNOWLEDGIST • SEMIO • TEXT KNOWLEDGE MINER • TEMIS • …
TEMIS • Extracción de información de cualquier fuente: bases de datos, documentación e informes internos de la empresa, Internet, etc. • Organización de la información e identificación de grupos homogéneos (clusters) • 4 módulos: “Extractor”, “Clusterer”, “Categorizer” y “On-line Minner”. • Tecnología base: Cartuchos
Extracción de la información ¿La empresa dispone ya de una clasificación de su información? No Sí Creación de grupos homogéneos y definición de categorías Introducción de nueva información en la clasificación existente Estructura operativa
Extractor • Análisis morfo-sintáctico • Análisis gramatical y semántico • Multilingüe (inglés, francés, español, alemán, italiano, portugués, holandés) • 200 formatos posibles (XML, word, pdf, html, txt…) • Extrae la información de: artículos, comunicados de prensa, patentes, publicaciones científicas y técnicas, informes internos, documentación jurídica, foros y chat...
Clusterer Servidor de clasificación • Organiza automáticamente los documentos en grupos homogéneos (clusters) • Clasificación y jerarquización Aplicaciones : • Propuesta de un plan de clasificación • Cartografía documental • Análisis de fondos documentales
Ejemplo
Categorizer • Clasifica automáticamente documentos internos: artículos, informes, e-mails, CVs en categorías predefinidas • Aplicación : categorización de fondos documentales, alimentación de bases de conocimiento, rutaje documental • Calidad y fiabilidad: - Funciona a partir de una base de aprendizaje - Cálculo de la similitud a partir de vectores semánticos
Before… …now 10,000 customer reports per month X 100 sampling Automatic Problem Identification Design Department Factory Quality Department Maintenance Daily reporting 90% knowledge lost Feedback Unused data CRM Renault Caso real cedido por TEMIS para su demostración
Before… …now Real time Newsfeed Focused alerts Competitive Information Analyst News Medical Pfizer Bayer Fusion Analyze Licensing Approval genetic disease No personalization Huge amount to read Clasificación NOVARTIS Caso real cedido por TEMIS para su demostración
Text Mining Text Mining: aplicaciones Análisis de Información estructurada KM Vigilancia e Inteligencia CRM Análisis de Información desestructurada RRHH Resúmenes y dossieres