120 likes | 262 Views
STANALYST ayuda para el an á lisis de la informaci ó n. Xavier Polanco CNRS-INIST, France xavier.polanco@inist.fr. Contexto ICyT. Personas autores, investigadores, ingenieros, … Textos publicaciones, p.ej. artículos y patentes Conocimientos en los sujetos o personas en los textos.
E N D
STANALYSTayuda para el análisis de la información Xavier Polanco CNRS-INIST, France xavier.polanco@inist.fr
Contexto ICyT • Personas • autores, investigadores, ingenieros, … • Textos • publicaciones, p.ej. artículos y patentes • Conocimientos • en los sujetos o personas • en los textos II Sem. Intern. 16-18/01/2006
Concepción del sistema • Un sistema informático para facilitar el trabajo humano de análisis de la información en CyT • Análisis automatizado: • estadística descriptiva • Indicadores estadísticos • procesamiento del lenguaje (PAL) & indización automática (textos) • Indicadores lingüísticos et de terminología • clasificación automática • Indicadores temáticos o centros de interés II Sem. Intern. 16-18/01/2006
Descripción del sistema Bases de datos Recursos terminológicos 3 INDIZACION Manual o Automática 4 INFOMETRIA Clasificación y Cartografía 1 CORPUS Interrogación y Datos 2 BIBLIOMETRIA Estadísticas descriptivas Proyecto Acceso e identificación Navigador – Interface usuario II Sem. Intern. 16-18/01/2006
Proyecto en curso: Una nueva versión multibases capaz de explotar las bases SciELO, LILACS, MEDLINE, además de las bases FRANCIS y PASCAL Consorcio: BIREME (Brasil) CAICYT (Argentina) CNRS-INIST (Francia) CONICYT (Chile) RICYT (América) Con el apoyo del Ministère des Affaires Etrangères de France II Sem. Intern. 16-18/01/2006
Ejemplo de la organización del sistema en módulos y de las interfaces de trabajo II Sem. Intern. 16-18/01/2006
Datos: Descripción estadística • Primera etapa, el análisis de los datos • Frecuencia y distribución sobre: • Datos bibliográficos: • Tipos de documentos • Fecha de publicación • Lenguas • País de publicación • Revistas (journals) (ley de Bradford) • Nombre de artículos por revista • País de publicación • Autores y afiliaciones institucionales (ley de Lotka) • Palabras claves (ley de Zipf) II Sem. Intern. 16-18/01/2006
PAL e Indización automática • Reconocimiento de términos en los textos en función de recursos terminológicos • Lematización y etiquetaje • Analizador morfológico-sintáctico (FASTR) • Variación morfológica-sintáctica (coordinación, inserción, permutación) • Indización automática • Control y validación II Sem. Intern. 16-18/01/2006
Clasificación o clustering • Clasificación automática no supervisada a partir de D(n,p) • Dos métodos: • NDOC clasificación no jerárquica (k-means axiales) • SDOC clasificación jerárquica ascendente (co-word analysis) • Cartografía: Mapas (ACP, D/C) II Sem. Intern. 16-18/01/2006
1) D(n,p) 2) A(ij) 3) Ci, i =1…m 4) G(Cm,A(ij)) 5) M(C[d,c]) Y = Densidad X = Centralidad II Sem. Intern. 16-18/01/2006
Analizar ~ Clasificar ~ Ordenar • "Le savant doit ordonner ; on fait la science avec des faits comme une maison avec de pierres ; mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est pas une maison" • Henri Poicaré (1854-1912), La Science et l’hypothèse (1902) II Sem. Intern. 16-18/01/2006
Muchas gracias ¿preguntas? II Sem. Intern. 16-18/01/2006