230 likes | 357 Views
Transferencias masivas de datos científicos de la colaboración CMS a través del Port d’Informació Científica (PIC). Josep Flix (*) , Gonzalo Merino, Gerard Bernabeu, Diego Dávila. (*) CMS Tier-1 contact at PIC [CIEMAT](jflix@pic.es). Jornadas Técnicas RedIRIS ‘07
E N D
Transferencias masivas de datos científicos de la colaboración CMS a través del Port d’Informació Científica (PIC) Josep Flix(*), Gonzalo Merino, Gerard Bernabeu, Diego Dávila (*) CMS Tier-1 contact at PIC [CIEMAT](jflix@pic.es) Jornadas Técnicas RedIRIS ‘07 Oviedo – 19-23 Noviembre 2007
Large Hadron Collider: Flujo de datos I LHC: Inicio de operaciones en 2008 Colisiones protón-protón a 14 TeV cada 25 ns Datos (lectura) por colisión a alto rate Filtrado de datos (~300 MB/s/colisión) RAW Datos RAW se envian al Tier-0 (10 Gbps-CERN) Datos RAW se procesan en el Tier-0 (CERN)
Large Hadron Collider: Flujo de datos II Datos RAW se graban en cinta en Tier-0 (CERN) Datos RAW + procesado centros Tier-1 Primer procesado de datos en Tier-0 (CERN) WLGC basado en estructura Tiers (0-1-2) 11 centros Tier-1 para los 4 detectores del LHC Tier-1: datos RAW cinta (copia custodial)
Large Hadron Collider: Flujo de datos III Tier-1: ESD a disco + distribución a Tier-2s Reprocesados de datos en Tier-1s (2-3/año) Re-distribución de datos re-procesados a Tier-2s ~150 centros Tier-2s distribuidos world-wide Tier-2s = Universidades, físicos Analistas Tier-2s producen simulaciones Tier-1s
Worldwide LHC Computing Grid [WLCG] T0 T1 T1 T2 T2 T2 T2 • Large Hadron Collider (LHC) Gran instalación científica Decenas PBs de datos/año. • Miles de científicos en todo el mundo accederán a los datos para analizarlos. • Objetivo WLCG: • Estructura ‘Tiered’ con > 100 centros de computación en > 20 países: • WLCG depende de otros grandes proyectos de despliegue y operación de infraestructuras • grid (EGEE en Europa, OSG en USA, NorduGrid en los países nórdicos...). “Desplegar y mantener una infraestructura robusta de computación distribuida para el almacenamiento y el análisis de los datos obtenidos por los 4 detectores del LHC por la comunidad de físicos de Altas Energías.” … 1 Tier-0 (CERN) y 11 centros Tier-1 52 federaciones de centros Tier-2 … … Detectores: ATLAS, CMS, LHCb, ALICE Requisitos de los 4 experimentos LHC sobre los centros Tier-1. Presentados a la C-RRB de Octubre 2007
Región SWE: PIC(Tier-1)&Tier-2s asociados SWE region:Tier-2s asociados al Tier-1 PIC CERN IFCA [Santander] USC [Santiago] IFAE [Barcelona] PIC [Barcelona] CIEMAT [Madrid] LIP [Coimbra] UB [Barcelona] UAM [Madrid] IFIC [Valéncia] Port d’Informació Científica* [PIC] Convenio Generalitat, CIEMAT, UAB, IFAE LIP [Lisboa] • Tier-1 para ATLAS, CMS y LHCb. Ofrece servicios para • otras disciplinas: Astrofísica, imagen médica, etc… • Centro de soporte a la investigación científica en • entornos colaborativos con gran cantidad de datos. • Almacenamiento, gestión y proceso de datos (TB-PB). • Servicios Grid colaboraciones inter-institucionales, • trans-nacionales y multi-disciplinares. CMS: CIEMAT&IFCA – LIP_Lisbon&LIP_Coimbra ATLAS: IFAE&IFIC&UAM – LIP_Lisbon&LIP_Coimbra LHCb: UB&USC (*) Sala de máquinas de 150 m2 - UPS de 200 KVA - Generador diesel de 500 KVA - 1000 “u” de racks - 300 KW de aire acondicionado - Librerías automatizadas de cintas STK-5500+IBM-3584
PIC Tier-1: Recursos experimentos LHC Responsabilidades del PIC [Tier-1] Almacenamiento permanente de gran cantidad de datos … Custodia de segunda copia de datos RAW (LHC). … Datos re-procesados en el PIC. … Datos reducidos producidos en el PIC (y en otros centros). … Datos simulados desde los centros Tier-2 asociados. Capacidad de computación para re-procesado/análisis … Acesso a gran cantidad de datos de una forma ordenada … Contribución del PIC a LHC: ~5% del total Tier-1s Modelo Computación CMS (2008) * PIC: ~130 MB/s PIC *: ~50 MB/s El modelo de computación CMS ( recursos/centro) es un modelo vivo, en cte. discusión factores x2,x3…
PIC Tier-1: LHC-OPN [red] I • LHC-OPN (Optical Private Network):Arquitectura de red de 10 Gbps para el LHC. • Garantiza calidad/estabilidad para el tráfico Tier-0 Tier-1. • Destinada también a llevar tráfico Tier-1↔ Tier-1. • No soporte a transferencias Tier-1 Tier-2 (redes nacionales).
PIC Tier-1: LHC-OPN [red] II Despliegue de la LHC-OPN @ PIC (2006-2007) • Octubre 2006: 10 Gbps lambda hasta el POP de RedIRIS en Barcelona (CESCA). • Mayo 2007:Llegada de la conexión al PIC. • Junio 2007: Certificación de la línea. Tests de carga máxima. Vista CERN Vista PIC • Septiembre 2007:puesta en producción para datos LHC. Salida del PIC: 1Gbps (limitación temporal que desaparecerá al finalizar la migración a las nuevas IPs) Entrada al PIC: 10Gbps (medidos tráficos superiores a 2Gbps) Config @ PIC 2 VLANs sobre 10 Gbps 2 Gbps (Best Effort) Tráfico PIC↔Tier-2 810 Gbps LHC-OPN Tráfico Tier-0 PIC Tráfico PIC↔Tier-1
CMS: Transferencias de Datos (PhEDEX) I Necesidades de CMS (Transferencias de datos) Alta disponibilidad del servicio. Transferencias sostenidas (sin interrupciones). Tasa de transferencias alta. Sistema fácilmente escalable. Acceso fácil de los datos por los físicos de la colaboración. PhEDEX (CMS Data Transfer System) WEBSITE http://cmsdoc.cern.ch/cms/aprom/phedex Throughput crítico CERN Tier-1 Transferencias entre Tier-1s y Tier-2s. Disponibilidad 24/7 entre centros Tier de CMS. • Interface web: visualización, monitor, checks consistencia… • Interacciona con sistemas de storage local: dif. tecnologías. • Basado sobre grid middleware: File Transfer Service (FTS). • Uso de BBDD privada (TMDB): catálogo+localización ficheros. • TMDB gestiona status de transferencias ‘ongoing’. • TMDB centralizada @ CERN (DBI Oracle interface). • … Actualmente la distribución network PhEDEX comprende el centro Tier-0 (CERN) y 8 centros Tier-1 regionales, que a su vez sirven a ~40 centros Tier-2 locales y ~10 centros pequeños (“Tier-3s”).
CMS: Transferencias de Datos (PhEDEX) II • PhEDEX: Core consta de agentes escritos en perl-object-oriented. • Cada Tier ejecuta agentes que se encargan de interaccionar con el storage local CMS VOBOX / centro. • Los agentes se comunican via TMBD ~ “CMS blackboard” = mapas datasets-replicas, localizaciones, • subscripciones datasets, replica metadata (size, checksums,...), estados de transferencia, etc… • Agentes / centro = 1 agente exportación + varios agentes de importación (download). • Cada agente de download está conectado a una instancia de Phedex (Development,Debug,Production). • PhEDEX está totalmente acoplado al midleware grid, • como FTS(File Transfer service, EGEE glite middleware). • Parámetros relevantes de configuración: • Servidor FTS donde “glite-transfer-submit” jobs. • Número de jobs “sumitidos” por tiempo. • Número de ficheros por job. • Timeout asociado a cada transferencia/job. • Aceptar/ignorar algunos centros por agente.
Actividades pre-LHC CMS: LT07 + DDT • Probando el sistema con “Retos” (como demostraciones de éxito): • Mediante retos de servicio generales WLCG (“Services Challenges”). • Específicos del experimento: Software, Computación/Análisis (CSA), Tests de carga, etc… • Reto CMS:Probar modelo de computación + enlaces entre Tiers + Sistemas almacenamiento. Objetivo:Estresar el sistema hasta los niveles requeridos por LHC, o superior… Actividades de LoadTest 2007[FebSept.2007] Certificación enlaces Tiers[ Julio 2007] • Programa para depurar/certificar enlaces • entre Tiers. [DDT] • Enlace = ruta unidireccional entre 2 centros. • Instancia de PhEDEX de Debug + estructura LT07. • Los enlaces están sujetos a diferentes métricas: • tasa de transferencia/volumen (300 GBs/dia). • Sólo los enlaces certificados se activan en la • instancia Production en PhEDEX. • Enlaces certificados pueden de-certificarse si no • mantienen las métricas. • Infraestructura de generación de carga contínua • 24/7 de tráfico CMS entre Tiers. [LT07] • - Fuente: ~1 TB/Tier - ficheros ‘fake’ de 2.6 GBs. • - Inyección centralizada de datos en PhEDEX TMDB (simple). • Centros de destino subscriben a esas muestras recepción. • Disponibilidad infinita (LFNs apuntan al mismo fichero físico). Tier-0→Tier-1 Tier-1↔Tier1 (trans-oceánico) Tier-1↔Tier-2 ‘regionales’ Tier-1↔Tier-2 ‘no regionales’
LT07 + DDT: resultados globales I TB/semana Tasa de Transferencia LT07 [Production instance] LoadTest07 LoadTest07 ~2 PBs/mes! CSA06 1-Ene-2007 15-Nov-2007 Tier-1s: ~25 PBs [15-Nov-2007] Tier-1s (2007) ~28 PBs Volumen transferencias LT07+DDT [Production+Debug instance]
LT07 + DDT: resultados globales II TB/semana Tasa de Transferencia DDT [Debug instance] 15-Nov-2007 DDT ~2.5 PBs/mes! 15-Nov-2007 15-Nov-2007 15-Nov-2007 Tier-1 matriz certificación 273 enlaces certificados Tier-2 stats Enlaces Certificados Enlace certificado. Enlace de-certificado Transferencias en progreso (<métrica)
LT07 + DDT: resultados PIC Tier-1 1-Ene-2007 15-Nov-2007 PIC estimado 2007 import+export ~2 PBs ~150 TBs/mes (contribución 6.5% CMS) PIC: Volumen transferencias LT07+DDT [Production+Debug instance] Tier-1 Calidad export Tier-1 Calidad import
LT07 + DDT: resultados SWE region 1-Ene-2007 15-Nov-2007 15-Nov-2007 ~15% Enlaces certificados por CMS
Uso eficiente del servicio FTS con PhEDEX I • Transferencias CMS desde un punto de vista Tier-1: • Tier-0 Tier-1 (crítico). • Tier-1↔ Tier-1 (thoughput importante en CMS). • Tier-1↔ Tier-2 regionales. • Tier-1↔ Tier-2 no regionales. Algunos enlaces pueden tener más tráfico que otros, en función del Tier-1. • PIC (p.e.): • PIC ~5% del total: Importa más datos reducidos de Tier-1s. • SWE Tier-2s deben tener más prioridad/flujo ↔ que otros Tier-2s. • … La interacción PhEDEX con FTS debe reflejar estas necesidades. S o l u c I ó n a d o p t a d a Uso de un conjunto de agentes PhEDEX que refleje el modelo de computación de CMS. El conjunto de agentes debe de coincidir en lo máximo posible con la configuración del FTS a usar. PhEDEX @ PIC 1 agente Tier-0→PIC. 7 agentes, uno por cada centro Tier-1->PIC. 2 agentes para los Tier-2 españoles (IFCA,CIEMAT). 2 agentes para los Tier-2 portugueses (LISBON,COIMBRA). 1 agente para Tier-2 no-regionales. Cada Tier-2 regional corre un agente download PIC único. Configuración canales FTS @ PIC Canales independientes T1s→PIC. Para cada Tier-2 regional: PIC→T2reg, T2reg→PIC, *→T2reg. 1 canal *→PIC. 1 canal PIC→*.
Uso eficiente del servicio FTS con PhEDEX II Transferencias PIC [Debug instance] • Esta configuración FTS/PhEDEx permite obtener mayor ocupación de los canales FTS y una • mayor tasa de transferencia. • Modelo aceptado como configuración PhEDEX standard por todos los Tiers de CMS. • En CMS estamos desarrollando una nueva interfaz FTS/PhEDEX para optimizar aún más la • interacción entre ambos sistemas. • Varias reuniones con los desarrolladores FTS. Nuevas funcionalidades en el FTS requeridas.
Medidas KB/s/Stream por Centro I • La configuración del FTS fija modo (urlcopy/srmcp), número de ficheros en paralelo y Streams • por fichero, por canal. • Si queremos mantener una tasa de transferencia constante en un canal, el throughput por • Stream debería ser constante… Throughput por Stream en las transferencias CMS PICTier-2s regionales entre 16-OCt y 15-Nov • En general esto no sucede: observamos variaciones significativas temporales en algunos • centros. Una posible explicación puede estar en la limitación a 1 Gbps de salida del PIC • + saturación de salida la red: si otra VO no transfiere activamente throughput ≠ cte… • En general fijar N ficheros en paralelo + Streams en el FTS no garantiza thr. máximos ctes. • Monitorizar los valores de throughput cambiar dinámicamente los parámetros FTS por • canal que garantizen throughputs de acuerdo con el modelo de computación de CMS.
Medidas KB/s/Stream por Centro II • FTS no puede garantizar throughputs similares • para diferentes centros comprendidos en canales • tipo STAR-TIER o TIER-STAR. • La monitorización no ayuda, ya que los cambios • Nfiles/Nstreams afectan de forma global al • canal STAR-TIER o TIER-STAR (y no a los centros • involucrados). • Caso concreto: transferencias T1s->IFCA, donde • la mayoría de transferencias son gestionadas • por el canal STAR-IFCA (excepto PIC, PIC-IFCA). • NOTA: El centro con throughput más bajo acaba bloqueando el canal STAR, • no gestiona otros canales necesidad de ‘share’ por centros. • Nuevo código de interacción PhEDEX/FTS • ajustará estas diferencias (de forma dinámica), • en lo posible... RAL,FNAL INP3 PIC
Medidas KB/s/Stream por Centro III Stats. entre 16-Oct/15-Nov (Asimetría en throughput) Transferencias * PIC: 10 Gbps. Transferencias PIC *:1 Gbps. FTS introduce tiempos muertos: - Pre/Post transferencia ~20-40” - Tasas transferencias GRIDFTP > GSIFTP Tiempo muerto total: >50% en algunos enlaces (CIEMATPIC,LISBONPIC, etc…) A entender…
Cuellos de Botella [red] • El modelo de computación de CMS todavía no establece unos requisitos claros sobre el ancho • de banda en las transferencias Tier-1 Tier-2s. • Transferencias Tier-1 Tier-2s a ráfagas, (quizás) ~1Gbps simultáneas hacia varios Tier-2s. • Es importante entender los enlaces entre el PIC y los centros Tier-2s conectados a RedIRIS, y • minimizar los cuellos de botella Tests iperf en marcha con los centros Tier-2 regionales. • Por ejemplo: para la conexión PIC↔IFCA parecen existir dos posibles rutas. Observamos que • las transferencias están tomando el camino de menos rendimiento (622Mbps, por Aragón). • Asimetría 10Gbps (entrada al PIC) - 1Gbps (salida del PIC) eliminada el 19-Nov al migrar los • servidores de disco al nuevo rango de IPs. Transferencias PIC * [Debug instance]
Outlook + Conclusiones • Mostrado el contexto de transferencias de datos del CERN al resto de Tiers. • En particular cual es el contexto en CMS y el PIC como Tier-1 de la región SWE. • Implantación de la LHC-OPN de 10 Gbps en el PIC: finalizada esta semana. • Futura optimización a nivel de storage va a incrementar el flujo in/out. • PhEDEX es una herramienta que ha permitido a CMS mover datos a tasas más altas • que las demandados por LHC. (Objetivo Stress Test cumplido!) • Programa CMS de certificación de enlaces DDT entre Tiers es positivo para • mantener los centros activos en todo momento (+admins). • De estos tests de Stress se deducen optimizaciones tanto a nivel de PhEDEX como • del servicio grid middleware FTS. Ambas en desarrollo. • El papel del PIC como Tier-1 CMS ha sido muy relevante en los tests: • Demostrado capacidad de mantener >5% de tasa de transferencias (x5 2008!). • En gran parte gracias a la buena ocupación de los canales FTS + monitorización. • Colaboración PIC/CERN: implementación de la nueva interfaz FTS/PhEDEX. • Tests iperf con centros Tier-2 de la región SWE + Tier-1s planeados: • Primera incidéncia: Enlace PIC ↔ IFCA es de 622 Mbps Re-route a 2.5 Gbps?