230 likes | 378 Views
REDES DE ALTAS PRESTACIONES Y SUS APLICACIONES. Presentación. Departamento de Arquitectura y Tecnología de Computadores. E.T.S. Ingeniería Informática. Julio Ortega Lopera. Curso 2004/2005. Posibilidades. Capacidades Prestaciones. Promueve. Aplicaciones. Tecnología. Arquitectura.
E N D
REDES DE ALTAS PRESTACIONES Y SUS APLICACIONES Presentación Departamento de Arquitectura y Tecnología de Computadores E.T.S. Ingeniería Informática Julio Ortega Lopera. Curso 2004/2005
Posibilidades Capacidades Prestaciones Promueve Aplicaciones Tecnología Arquitectura Posibilidades Selección Demanda Posibilidades Restricciones Económicas Nuevas Restricciones Generación Mercado Fundamental Fuerte Visible Adaptado de Vajapeyam/Valero (Computer, Abril 2001) Arquitecturas con varios procesadores Tendencia hacia arquitecturas con varios procesadores resultado de la interacción Tecnología-Mercados-Aplicaciones Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores • Tecnología: • Procesadores y redes de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos. • Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores) • Aplicaciones y Mercados: • Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador (Grand Challenge) • Demanda elevada de disponibilidad (Internet: mantenimiento y amplicación sin tiempos muertos) Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores • Tecnología: • Procesadores y redes de altas prestaciones • Limitaciones previsibles en la tecnología (retardos relativos crecientes y limitaciones en el consumo de potencia) Posibilidades Capacidades Prestaciones Promueve Aplicaciones Tecnología Arquitectura Posibilidades Selección Demanda Posibilidades Restricciones Económicas • Aplicaciones que demandan velocidad y memoria (Grand Challenge) • Demanda elevada de disponibilidad Nuevas Restricciones Generación Mercado Fundamental Fuerte Visible Adaptado de Vajapeyam/Valero (Computer, Abril 2001) Curso de Doctorado RAPyA (2004/05)
Mercado para aplicaciones que requieren alta disponibilidad • Procesamiento de transacciones • Sistemas de control en entornos médicos, medios de transporte, ambientes seguros • Aplicaciones de internet • Mercados financieros continuos • Acceso a bases de datos e información • Computación móvil • No hay tiempos muertos (para mantenimiento, ampliación,...) Arquitecturas con varios procesadores Tecnología Aplicaciones Mercado Curso de Doctorado RAPyA (2004/05)
Arquitecturas con varios procesadores Tecnología Grandes desafíos (Grand challenges) Aplicaciones Mercado Alta Disponibilidad (High Availability) Curso de Doctorado RAPyA (2004/05)
Ritmo de Mejora de los Microprocesadores • Si prosigue: • Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible • Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado) Ritmo de mejora de los microprocesadores Aproximadamente la Ley de Moore (el doble cada 18 meses) 2. Si no prosigue: Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones. Arquitecturas con varios procesadores Tecnología Aplicaciones Mercado Curso de Doctorado RAPyA (2004/05)
Influencia de la Tecnología Más transistores por circuito integrado Microarquitecturas más complejas en un solo CI: Paralelismo entre Instrucciones (Procesadores Superescalares) Mejora de la Tecnología de Fabricación de CI basada en el Silicio Reducción del tamaño de los transistores + Aumento del tamaño del dado TCPU = NI x CPI x Tciclo Se reduce la longitud de puerta del transistor y con ello el tiempo de conmutación Mayores frecuencias de funcionamiento Curso de Doctorado RAPyA (2004/05)
Reducción en CPI (Ciclos/Instrucción) No segmentado CPI=5 Inst. 1 IF ID EX MEM WB Inst. 2 5T IF ID EX MEM WB T Segmentado Inst. 1 IF ID EX MEM WB CPI=1 Inst. 2 MEM IF ID EX WB IF ID EX MEM WB Inst. 3 ID IF EX MEM WB Inst. 4 T Inst. 1 IF ID EX MEM WB Superescalar o VLIW IF ID EX MEM WB CPI=0.5 Inst. 2 IF ID EX MEM WB Inst. 3 IF ID EX MEM WB Inst. 4 Curso de Doctorado RAPyA (2004/05)
Procesadores Superescalares Aumentar la complejidad del procesador para incluir más recursos para poder ejecutar más instrucciones por ciclo Curso de Doctorado RAPyA (2004/05)
Rwire Cwire~ Los límites en la potencia que puede consumir un CI restringen la frecuencia a la que puede funcionar Limites de la Tecnología Cada vez se puede acceder a menos superficie (relativa) del CI en un ciclo de reloj: Incrementar IPC (a costa de más complejidad) y reducir el tiempo de ciclo se hacen mutuamente dependientes. Curso de Doctorado RAPyA (2004/05)
1720 • ILP en una hebra con microarquitecturas sencillas: VLIW • Procesamiento paralelo de varias hebras: SMT y CMP Límites en las Mejoras de los Superescalares Las mejoras tecnológicas no permitirán más de un factor de mejora anual del 12% anual en las prestaciones de los procesadores hasta el 2014. Esto supone incrementar las prestaciones en 7.4 veces (El factor de mejora actual del 55% anual llevaría a prestaciones 1700 veces las actuales) Curso de Doctorado RAPyA (2004/05)
Procesadores VLIW: Itanium 2 (IA-64) El aprovechamiento del paralelismo es responsabilidad del compilador Curso de Doctorado RAPyA (2004/05)
Alternativas (I): Una vs. Varias Hebras ¿? - Superescalares Técnicas agresivas de especulación (procesadores superespeculativos) Una Hebra - VLIW - SMT (Multihebra Simultánea) SMT Superespeculativos Varias Hebras - CMP (Multiprocesador Uni-chip) Curso de Doctorado RAPyA (2004/05)
Alternativas (II): Superescalar, VLIW, y Multihebra Thread 1 (T1): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 Thread 2 (T2): I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 Instrucciones emitidas por ciclo Tiempo Superescalar Multihebra Multihebra Simultánea VLIW Curso de Doctorado RAPyA (2004/05)
Ejemplo de Arquitectura Multihebra: Pentium 4 Hyper-Threading Intel ha desarrollado el Pentium 4 a 3.06 GHz con características de un procesador SMT (Simultaneous Multi-threading). La denominación de Intel para esta arquitectura es Hyper-Threading (HT). El procesador puede ejecutar simultáneamente dos hebras que pueden corresponder a una misma tarea (programada en varias hebras) o a tareas diferentes. SPECint_base2000= 1099; SPECfp_base2000=1077 Adobe Photoshop se ejecuta un 21% más rápido cuando se ejecuta al mismo tiempo en antivirus de McAfee. Curso de Doctorado RAPyA (2004/05)
Ejemplo de Multiprocesador en un Chip (CMP): Power4 de IBM Incluye dos procesadores superescalares a 1 GHz (o más) Ancho de banda a cache L2 de 100 GB/s y de 55 GB/s a memoria o a otros chips Power4 Otros ejemplos UltraSPARC IV (2 UltraSPARC III) Intel Montecito (2006): 2 Itanium, 24 MB Cache L3 1700 Millones de transistores Curso de Doctorado RAPyA (2004/05)
Multiprocesador en un Multi-Chip: Power5 de IBM Cache L3 (4x36MB=144 MB) Power5 (1.4-2 GHz, 275 M Trans): 2 CPUs SMT (4 proc. lógicos) Multiprocesador con 64 proc. SMT Curso de Doctorado RAPyA (2004/05)
Ejemplo de Arquitectura Superescalar: AMD Hammer x86-64 Tecnología de Comunicación HyperTransport: permite configurar sistemas con varios multiprocesadores (glueless MP), aumentando el ancho de banda y proporciona enlaces punto-a-punto (full duplex y de transacciones partidas) Integra el puerto norte con el controlador de memoria (reduce la latencia DRAM, permite PC1600, PC2100, PC2700) SRQ = System Request Queue Curso de Doctorado RAPyA (2004/05)
Aprovechamiento rápido de las mejoras en la tecnología del hardware (microprocesadores y redes). • Relación prestaciones/coste elevada • Mejorar la imagen del cluster como sistema único (SSI): costo de mantenimiento y administración elevado • Como plataforma para procesamiento paralelo: mejorar las prestaciones de comunicación Clusters de Computadores (I) • Conjunto de Computadores (completos) conectados y utilizados como un único recurso de cómputo: • No es una plataforma con procesadores con acceso uniforme a memoria y a las E/S (SMP) • Computadores y conexión constituidos por hardware comercial Curso de Doctorado RAPyA (2004/05)
32 Clusters de Computadores (II) Ley de Moore (1979): El número de transistores por Circuito Integrado se dobla cada 18-24 meses (asumiendo precio constante del CI) Entre un 40% y un 57% de mejora anual en los microprocesadores: Tres órdenes de magnitud (x103) en 15 años ¿Se puede mantener este ritmo de mejora? Analizar el origen de las mejoras que se han conseguido y ver las tendencias previsibles Curso de Doctorado RAPyA (2004/05)
Clusters de Computadores (III) TOP500 #5 (TOP500):Linux NetworX (Xeon 2.4 GHz, QsNet, 2304 procesadores) Rpico=11.06 TFLOPS; Rmax=5.69 TFLOPS Curso de Doctorado RAPyA (2004/05)
Bibliografía Cormer, D. E.:”Network Systems Design using Network Processors”. Prentice Hall, 2004. Beck, M., et al.:”Linux Kernel Programming”. Tercera Edición. Addison Wesley, 2002. Herbert, T.F.:”The Linux TCP/IP Stack: Networking for Embedded Systems”. Charles River Media, 2004 Curso de Doctorado RAPyA (2004/05)