510 likes | 627 Views
Data Mining. Redes. Fernando Berzal fberzal@decsai.ugr.es http ://elvex.ugr.es/idbis/dm/. Sistemas complejos. constituidos por muchos elementos no idénticos que están conectados por diversas interacciones. REDES. Redes. Redes. Áreas de aplicación
E N D
Data Mining Redes Fernando Berzalfberzal@decsai.ugr.es http://elvex.ugr.es/idbis/dm/
Sistemas complejos constituidos por muchos elementos no idénticos que están conectados por diversas interacciones REDES Redes
Redes Áreas de aplicación • “Cheminformatics”: Compuestos químicos. • “Bioinformatics”: Estructuras proteínicas & bio-pathways • Ingeniería del Software: Análisis de programas… • Análisis de redes de flujo (tráfico, workflow…) • Bases de datos semiestructuradas, p.ej. XML • Gestión del conocimiento: ontologías y redes semánticas • CAD: Diseño de circuitos electrónicos (ICs) • Sistemas de información geográfica & cartografía • Redes sociales, p.ej. Web
Redes Interacciones de la proteína de la levadura from H. Jeong et al Nature 411, 41 (2001)
Redes “La Pirámide de la Complejidad de la Vida” from Z.N. Oltvai and A.-L. Barabasi. Science, 2002
Redes Food Web
Redes Internet
Redes Red social: Coautores
Redes Red social: US Biotech Industry
Redes Red social: FOAF (friend of a friend)
Redes Red social: Estructura de una organización www.orgnet.org
Redes Las redes son grafos • Vértices: Objetos • Puede haber distintos tipos de objetos • Los objetos pueden tener atributos • Los objetos pueden tener etiquetas • Aristas: Enlaces entre objetos • Puede haber distintos tipos de enlaces • Los enlaces pueden tener atributos • Los enlaces pueden ser dirigidos (o no dirigidos) • No se requiere que los enlaces sean binarios
Redes • Redes sociales • Nodos: Individuos • Enlaces: Relaciones sociales (familiares, económicas…) • Redes de telecomunicaciones • Nodos de la red: Ordenadores, routers, satélites • Enlaces: Distintos tipos de medios guiados y no guiados • Redes de transporte • Nodos: Ciudades • Conexiones: Carreteras, vías férreas y rutas aéreas • Ingeniería del Software Software Mining • Nodos: Módulos • Relaciones: Dependencias
Redes: Ejemplos • Coautores • Nodos: Científicos • Enlaces: Artículos escritos conjuntamente
Redes: Ejemplos • Redes de telecomunicaciones • Nodos: Ordenadores, routers, satélites • Enlaces: Distintos tipos de medios guiados y no guiados
GENOMA Interacciones entre proteínas y genes PROTEOMA Interacciones entre proteínas METABOLISMO Reacciones bioquímicas Citrate Cycle Redes: Ejemplos • Redes biológicas
Redes: Ejemplos • Web • Nodos: Documentos • Enlaces entre URLs
Redes • El estudio de redes engloba muchos tipos de redes:sociales, económicas, biológicas, de contenido… • Características de las redes • Gran escala • Evolución continua • Distribución (los nodos “deciden” con quién conectarse) • Interacción sólo a través de los enlaces existentes
Propiedades de las redes Propiedades de interés • Componentes conectados:¿cuántos? ¿de qué tamaño? • Diámetro de la red:Distancia media, peor caso… • Grado de los nodos (degree distribution)y existencia de “hubs” (vértices muy conectados) • Agrupamiento(balance entre conexiones locales y de larga distancia; roles de ambos tipos de conexiones)
Propiedades de las redes Conectividad p.ej. WWW
Sarah Ralph Jane Peter Propiedades de las redes Diámetro de la red p.ej. “small worlds”
Propiedades de las redes Coeficiente de agrupamiento nbr(u) Vecinos de u en el grafo k Número de vecinos de u (i.e. |nbr(u)|) max(u) Número máximo de aristas entre los vecinos de u, p.ej. k*(k-1)/2 Coeficiente de agrupamiento del nodo u:c(u) = (#aristas entre vecinos de u) / max(u) Coeficiente de agrupamiento del grafo G:C = Promedio de c(u) para todos los nodos de G
Propiedades de las redes Coeficiente de agrupamiento k = 4 m = 6 c(u) = 4/6 = 0.66 0 <= c(u) <= 1 Parecido a un clique de los vecinos de u Interpretación: “Mis amigos suelen ser amigos entre sí”
Propiedades de las redes Coeficiente de agrupamiento Algunas redes reales (C>Crand, L<Lrand)C = Clustering CoefficientL = Path Length
Propiedades de las redes Grado de los nodos Distribución Normal Parámetros: Media y desviación
Propiedades de las redes Grado de los nodos Distribución de Poisson Único parámetro: (media y desviación)
Propiedades de las redes Grado de los nodos Distribución de Pareto (“power law”) P(x) ~ 1/x^ Hubs: Un número pequeño de vértices con un grado elevado (fenómeno que no aparece en las distribuciones normales/binomiales/de Poisson)
Propiedades de las redes Grado de los nodos ¿Cómo distinguir entre una distribución y otra? Log-log plot • Pareto: • log(Pr[X = x]) = log(1/xa) = -a log(x) • Lineal, pendiente –a • Normal: • log(Pr[X = x]) = log(a exp(-x2/b)) = log(a) – x2/b • No lineal, cóncava entorno a la media • Poisson: • log(Pr[X = x]) = log(exp(-l) lx/x!) • No lineal
Propiedades de las redes Grado de los nodos aWWWpower law bCoauthorship networks power law withexponential cutoff cPower grid exponential d Social networkgaussian
Modelos de redes Las redes “naturales” suelen tener… • Una (o muy pocas) componentes conexas • Independientemente del tamaño de la red • Un diámetro pequeño (“6 grados de separación”) • Constante, que crece logarítmicamente o que incluso decrece con el tamaño de la red • Un alto grado de agrupamiento (comunidades) • Mucho mayor que el que resultaría de una red aleatoria (y, aún así, con un pequeño diámetro) • Mezcla de conexiones • Conexiones locales y de larga “distancia” ¿ comparten características “universales” ?
Modelos de redes • Random networks (redes aleatorias) • Random-biased networks (redes aleatorias sesgadas) • Small-world networks (“qué pequeño es el mundo”) • Scale-free networks (redes libres de escala) • Hierarchical & modular networks (redes jerárquicas/modulares) • Affiliation networks (redes de afiliación)
Modelos de redes Random Networks Modelo de Erdos & Renyi • Pocas componentes conexas (típicamente una) • Bajo coeficiente de agrupamiento • Distribución de Poisson
Modelos de redes Random Networks Modelo de Erdos & Renyi Componente principal Número de enlaces
Modelos de redes Small-World Networks Modelo de Watts & Strogatz • Pocas componentes conexas (típicamente una) • Diámetro pequeño • Distribución de Poisson • Alto coeficiente de agrupamiento
Modelos de redes Small-World Networks Modelo de Watts & Strogatz Average path length, normalized by system size, plotted as a function of the average number of shortcuts.
Modelos de redes Scale-Free Networks Modelo de Barabasi & Albert • Pocas componentes conexas (típicamente una) • Diámetro pequeño • Distribución de Pareto • Bajo coeficiente de agrupamiento • Hubs Modelo “natural”: • Número variable de nodos: La red va creciendo conforme se añaden nuevos nodos. • Es más probable crear enlaces a nodos que ya tienen muchos enlaces (preferential attachment: “rich get richer”).
Poisson Pareto (power-law) Modelos de redes
Modelos de redes Scale-Free Networks Características • Muestran rasgos de auto-organización en sistemas complejos: Los enlaces no son aleatorios. • Resistentes frente a fallos aleatorios, que pueden causar con facilidad la disrupción de una red aleatoria pero no la de una red libre de escala. • Vulnerables frente a ataques organizados: Los “hubs” son esenciales para mantener la red unida.
Modelos de redes Scale-Free Networks Características
Modelos de redes Hierarchical/Modular Networks • Organización jerárquica • Hubs • Cliques
Modelos de redes Hierarchical/Modular Networks
Modelos de redes Affiliation Networks (redes de afiliación) Grafo bipartido para modelar interacciones sociales:
Modelos de redes Affiliation Networks (redes de afiliación)
Modelos de redes Affiliation Networks (redes de afiliación)
Problemas de interés • Búsquedas en redes (con información local incompleta) • Problemas de difusión:epidemias, contagio social (ideas, modas, productos…) • Análisis de las propiedades de una redp.ej. Robustez
Problemas de interés Desde el punto de vista algorítmico… • Objetos: • Ordenación (“ranking”), • Clasificación y detección de anomalías, • Agrupamiento (detección de grupos) • Identificación de objetos (“entity resolution”). • Enlaces: • Predicción de enlaces • Grafos: • Detección de subgrafos • Clasificación de grafos • Modelos de generación de grafos • …
Bibliografía Redes: Orígenes & Aplicaciones (redes sociales, Web…) • Stanley Milgram: The small world problem. Psychology Today, 2:60-67 (1967) • Phillip W. Anderson: More is different.Science, 177:393-396 (1972) • Mark S. Granovetter: The strength of weak ties.American Journal of Sociology, 78:1360-1380 (1973) • Stanley Wasserman & Katherine Faust: Social Network Analysis: Methods and Applications. Cambridge University Press, 1994 • John P. Scott: Social Network Analysis, 2nd edition.Sage Publications Ltd., 2000. • Andrei Broder, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins & Janet Wiener: Graph structure in the Web. Computer Networks 33:309–320 (2000) • Steven H. Strogatz: Exploring Complex Networks.Nature, 410:268-275 (2001) • Albert-Laszlo Barabasi: Linked: How Everything Is Connected to Everything Else and What It Means. Plume, 2003. ISBN 0452284392 • Duncan J. Watts: Six Degrees: The Science of a Connected Age. W. W. Norton & Company, 2004. ISBN 0393325423 • Jure Leskovec, Jon M. Kleinberg & Christos Faloutsos: Graphs over time: densification laws, shrinking diameters and possible explanations. KDD'2005
Bibliografía Redes: Modelos • Paul Erdös & Alfred Rényi: On the evolution of random graphs.Mathematical Institute of the Hungarian Academy of Sciences, 5:17-61 (1960) reprinted in Duncan, Barabasi & Watts (eds.): “The Structure and Dynamics of Networks” • Ray Solomonoff & Anatol Rapoport: Connectivity of random nets.Bulletin of Mathematical Biophysics, 13:107-117 (1951)reprinted in Duncan, Barabasi & Watts (eds.): “The Structure and Dynamics of Networks” • Duncan J. Watts & Steven H. Strogatz: Collective dynamics of ‘small-world’ networks.Nature, 393:440-442 (1998) • Albert-László Barabási & Réka Albert: Emergence of scaling in random networks.Science, 286:509-512 (1999) • Réka Albert, Hawoong Jeong & Albert-László Barabási: Error and attack tolerance of complex networks. Nature 406:378-382 (2000) • M.E.J. Newman, S.H. Strogatz & D.J. Watts: Random graphs with arbitrary degree distributions and their applications. Physical Review E, 64:026118 (2001) • M.E.J. Newman, S.H. Strogatz & D.J. Watts: Random graphs models of social networks. PNAS 99:2566-2572 (2002) • Erzsébet Ravasz & Albert-László Barabási: Hierarchical organization in complex networks. Physical Review E, 67:026112 (2003) • Mark Newman: The structure and function of complex networks. SIAM Review 45:167-256 (2003)
Bibliografía Búsqueda en redes • Sergey Brin & Lawrence Page: The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, April 1998 • David Gibson, Jon M. Kleinberg & Prabhakar Raghavan: Inferring Web Communities from Link Topology. ACM Conference on Hypertext and Hypermedia, June 1998 • Jon M. Kleinberg: Authoritative sources in a hyperlinked environment. Journal of the ACM, September 1999 • Toby Walsh: Search in a Small World. IJCAI’1999 • Jon M. Kleinberg. Navigation in a Small World. Nature, August 2000. • Jon M. Kleinberg: The small-world phenomenon: An algorithm perspective. STOC’2000 • Scott White & Padhraic Smyth: Algorithms for Estimating Relative Importance in Networks. KDD'2003 • Hanghang Tong & Christos Faloutsos: Center-Piece Subgraphs: Problem Definition and Fast Solutions. KDD'2006 • Alekh Agarwal, Soumen Chakrabarti & Sunny Aggarwal: Learning to Rank Networked Entities. KDD'2006 • Jeffrey Davitz, Jiye Yu, Sugato Basu, David Gutelius & Alexandra Harris: iLink: Search and Routing in Social Networks. KDD'2007.
Bibliografía recomendada • Jiawei Han & Micheline Kamber: Data Mining: Concepts and Techniques [2ª edición], sección 9.2 Addison-Wesley, 2006. ISBN 1-55860-901-3 • Mark Newman, Albert-Laszlo Barabasi & Duncan J. Watts (editors): The Structure and Dynamics of Networks. Princeton University Press, 2006. ISBN 0-691-11357-2