840 likes | 1.18k Views
Taller de métodos cuantitativos Tema: REDES COMPLEJAS. Taller: Redes Complejas. YO: Andrés Moreira amoreira@inf.utfsm.cl “Investigador Joven” Oficina F130, VALPO Horario de Consulta en Stgo: por definir!. ¿De qué se trata?.
E N D
Taller: Redes Complejas • YO: Andrés Moreira • amoreira@inf.utfsm.cl • “Investigador Joven” • Oficina F130, VALPO • Horario de Consulta en Stgo: por definir!
¿De qué se trata? • Propiedades y algoritmos en grafos de “gran tamaño” (aunque no necesariamente). • En general es distinto de lo que se hace en “teoría de grafos” clásica. • Se busca caracterizar la conectividad de un conjunto grande de elementos, para entender como funciona un sistema.
¿De qué se trata? En los últimos 10 años, ha sido una revolución.
¿De qué se trata? El área más explotada han sido las “redes sociales”, pero aparecen en fenómenos muuuuy diversos.
¿De qué se trata? ¿Tiene que ver con otras cosas acá en la escuela? Síp: - Bioinformática - Redes sociales - Extracción de conocimiento - laaargo etc Posibles nexos locales:
De dónde vienen, y qué es lo complejo • Década de los ‘80: movimiento de “vida artificial”. • Simulaciones masivas de autómatas celulares, y modelos basados en agentes. • Se observan muchas cosas “choras”, pero la ciencia es poca. • Mucha herencia de eso subsiste hoy en día en los modelos basados en agentes, en áreas de biología teórica, en algunas heurísticas de IA (ej:hormigas), etc...
De dónde vienen, y qué es lo complejo • Década de los ‘90: auge de los “sistemas complejos” • En cierta medida, es la gente de “vida artificial”, ahora con pantalones largos. • También se recoge la tradición de la cibernética, la mirada “sistémica”, no reduccionista. • Se estudian sistemas que tienen demasiadas partes como para ser estudiados en detalle, pero que son demasiado heterogeneos como para aplicarles física estadística. De ahí lo “complejo”.
De dónde vienen, y qué es lo complejo • “Sistemas complejos” • Hormiguero • Cerebro • Economía • Lenguaje • Tránsito • Sociedad • Ecosistema • Célula • ...
De dónde vienen, y qué es lo complejo • Aparecen temas comunes: • Agentes adaptativos • Sistemas robustos pero flexibles (a veces cercanos al caos) • No lineales • Fenómenos emergentes (cosas “macro” que no se deducen directamente de lo “micro”) • Feedback positivo sobre variaciones aleatorias • Distribuciones según leyes de potencia • Etc.
De dónde vienen, y qué es lo complejo • Problema con los “sistemas complejos” • Los sistemas son tan distintos, que cuesta construir teorías generales. • La cosa se queda un poco en observaciones “al ojímetro” y filosofía, pero poca ciencia dura o aplicable. • Muchos modelos y simulaciones, pero cuesta “poner el dedo” sobre lo que determina los fenómenos interesantes.
De dónde vienen, y qué es lo complejo • A fines de los 90, aparecen las redes. • ¿Por qué no antes? • Recién entonces hubo datos masivos de redes. • Además, a nadie se le había ocurrido poner el énfasis ahí: en la forma en que los elementos de los sistemas están conectados.
Paul Erdös Modelo de Erdös-Renyi Durante décadas el modelo de red aleatoria (que era la forma de pensar en las redes sociales, y redes grandes en general) fue el modelo Erdös-Renyi (1960). • Grafo no dirigido G(n,p) • n nodos. • Pongo una arista entre dos nodos con probabilidad p.
Modelo de Erdös-Renyi p=0, <k>=0 p=0.045, <k>=0.5 p=0.09, <k>=1 p=1, <k>=n=12 Tamaño de la mayor componente conexa: 1 5 11 12 Diámetro de la mayor componente: 0 4 7 1 Distancia promedio entre nodos conectados: - 2 4.2 1
Modelo de Erdös-Renyi • Grado promedio : np. • Distribución de grados: binomial (aprox. Poisson). • E&R demostraron que: • Si np < 1, casi seguramente G(n,p) no tiene componentes conexas de tamaño mayor a O(log n). • Si np = 1, c.s. G(n,p) tiene una componente conexa máxima de tamaño ~ n2/3. Los tamaños de las c.c. siguen una ley de potencia.
Nota: en lo anterior, el "casi seguramente" significa lo siguiente. El grafo G es una variable aleatoria. Que cumpla la propiedad "A" c.s. quiere decir que Modelo de Erdös-Renyi • Si np > 1, c.s. G(n,p) hay una c.c "gigante", O(n), y la siguiente c.c. es O(log n). • Si p > (ln n)/n, c.s. G(n,p) es conexo. Si es <, entonces c.s. no lo es.
Modelo de Erdös-Renyi Durante décadas el modelo ER fue el único que se usó para modelas las redes "reales" (sociales, tecnológicas, biológicas). Principalmente porque no había datos masivos para cotejar; sólo datos muy parciales, de grafos pequeños. Cuando aparecieron datos masivos, se vio que sus características no coincidían con ER. ¿Qué características?
Propiedades de redes • Cosas que se suelen mirar en una red (principales): • Principales: • Distribución de grados • grado promedio, grado máximo... • Distancia promedio y diámetro (distancia máxima) • Nivel de aglomeración (clustering)
. . . X Propiedades de redes • Cosas que se suelen mirar en una red (otras): • Correlaciones de grados (entre vecinos). • Componentes conexas, "comunidades". • Frecuencia de subgrafos (e.g., presencia de cliques).
Propiedades de redes • Salvo que se diga lo contrario, pensamos en grafos simples, no dirigidos, et voilà. • Cuando hay más propiedades, hay otras cosas que mirar. Por ejemplo: • En digrafos, correlación entre grados in/out. • Si hay más de un tipo de nodo, "mezcla" entre los tipos. • En grafos con pesos en las aristas, efecto de eliminar las más "débiles". • Etc, etc...
Distribución de grados • La distribución de grados en ER es una Poisson. • está concentrada en torno a su media • la probabilidad de encontrar un nodo con un grado muy chico o muy grande decae exponencialmente • Hay una "escala" característica en la distribución.
Distribución de grados Lo que se observa en la mayoría de las redes reales es que los grados se distribuyen según una ley de potencia (power law; lineal en log-log): f(k)~k- (por lo general 2 3) • La cola es "pesada" (no decae exponencialmente). • No hay escala característica. Se habla de distribuciones (o redes) "libres de escala" (scale free).
Distribución de grados En algunas (pocas) redes se observa una distribución exponencial: f(k) = e-k • Se ve lineal en log-lineal log f λ k
Distancia promedio • La distancia L entre dos nodos es la longitud del camino más corto entre ellos. • En una malla regular (digamos, un subconjunto conexo de tamaño n, tomado de Zd), <L> ~ n1/d. • En ER, L ~ (log n)/(log k) • Esto coincide con lo observado en la mayoría de las redes reales (efecto "small world”).
Índice(s) de clustering • En muchas redes reales, se observa transitividad: si A y B son vecinos de C, suelen ser vecinos entre sí. • Hay más de una forma de medir esto. Las dos más típicas: • Sea ai la cantidad de posibles triángulos que incluyen al nodo i (si su grado es di, ai=di(di-1)/2). • Sea bi la cantidad de triángulos que incluyen al nodo i. • C(1) = <bi>/<ai> C(2) = <bi/ai> el más usado
1 4 3 2 5 N k Índice(s) de clustering En ER, ambos valen p. Pero no es lo que se suele observar
Small Worlds • Stanley Milgram, 1967: • Experimento de envío de cartas entre desconocidos (de Nebraska a Boston). • La gente tenía que enviarle la carta a alguien con quien se "tuteara". • El 20% de las cartas llegó. • Cantidad promedio de pasos: 5.2.
Small Worlds • "6 grados de separación". • La idea ya es parte del saber "público" (obra de teatro, películas, libros...) • Anecdóticamente, ya estaba ("el mundo es un pañuelo", etc.) • Compatible con ER, así que no causó problemas. • No es exclusivo de la red de amistades humanas:
Small Worlds [M. Newman, 2003]
Otras propiedades Mezcla, cuando hay nodos de más de un tipo: Evaluar dependencia de esas v.a. (hay varias aproximaciones)
Otras propiedades • Correlación entre grados • ¿Los nodos más conectados, se prefieren entre sí? ¿Y los menos conectados? • Pastoras et al: graficar el grado promedio de los vecinos, como función del grado • Newman: calcular coef. de correlación entre los extremos de las aristas.
Otras propiedades Correlación (à la Newman)
Otras propiedades • Detección de comunidades • Amplia literatura proponiendo algoritmos. • Muchísimas aplicaciones!
Otras propiedades • Resistencia a fallas/ataques • Falla: eliminación aleatoria de un nodo/arista • Ataque: eliminación "pensada" • ¿Cómo afectan... • la conexidad? • el promedio de distancias? • el "flujo"? • Etc, etc
Comunicaciones por tierra y aire, EEUU Red regular (casi lattice), vs una red "scale free" (sin escala) Otras propiedades
Regular con fallas SF con fallas SF bajo ataque Otras propiedades
0 --- 1 1 --- 504 2 --- 6593 3 --- 33605 4 --- 83642 5 --- 87760 6 --- 40014 7 --- 11591 8 --- 3146 9 --- 819 10 --- 244 11 --- 68 12 --- 23 13 --- 5 Ejemplos • nodos: científicos • relación: haber sido coautores • Son las "redes de colaboración" (se han estudiado mucho). Número de Erdös: distancia a Erdös, que viajó mucho, escribió ~1500 artículos, colaboró con más de 500 colegas. Entre matemáticos en MathSciNet, el promedio es ~5. http://www.oakland.edu/enp/
Ejemplos • "Oráculo de Bacon" • nodos: actores • relación: coincidir en alguna película listada en IMDB • http://oracleofbacon.org/ La distancia promedio a Bacon es 2.8; el máximo es 8. Distancia promedio entre actores: 3.48
Ejemplos Nota: no hay nada de especial en Kevin Bacon!
M. Girvan and M. E. J. Newman Community structure in social and biological networks Proc. Natl. Acad. Sci. USA99 8271-8276 (2002).
Ejemplos Red terrorista (incluyendo a los autores del 11/9 gringo).
Una vista parcial de Internet (imagen vía wikipedia) Internet Mapping Project: http://research.lumeta.com/ches/map/gallery/index.html
The Political Blogosphere and the 2004 U.S. Election: Divided They Blog [Adamic & Glance, 2005]
Ejemplos Asociaciones de palabras Colaboración científica Interacciones de proteínas
Ejemplos Relaciones de pareja en un college norteamericano
F. Liljeros et al, Nature, 2001: encuesta a 4781 suecos, edades 18-74. Pregunta: # de parejas sexuales. Colgate et al, PNAS, 1989: hombres en una clínica de ETS en Londres Ejemplos
Ejemplos De paso, esto ilustra otra área en que hay investigación: como dibujar redes complejas. xkcd.com
Muchos ejemplos en: http://www.visualcomplexity.com/ Ejemplos Red de interacción de proteínas en Saccharomyces cerevisiae