370 likes | 501 Views
C оздание российского сегмента глобальной инфраструктуры LCG (LHC Computing GRID). Ильин В.А. (НИИЯФ МГУ), Кореньков В.В. (Дубна, ОИЯИ) RELARN-2003 16-20 июня 2003 года Санкт-Петербург. Five Emerging Models of Networked Computing From The Grid. Distributed Computing
E N D
Cоздание российского сегмента глобальной инфраструктуры LCG (LHC Computing GRID) Ильин В.А. (НИИЯФ МГУ), Кореньков В.В. (Дубна, ОИЯИ) RELARN-2003 16-20 июня 2003 года Санкт-Петербург
Five Emerging Models of Networked Computing From The Grid • Distributed Computing • || synchronous processing • High-Throughput Computing • || asynchronous processing • On-Demand Computing • || dynamic resources • Data-Intensive Computing • || databases • Collaborative Computing • || scientists Ian Foster andCarl Kesselman, editors, “The Grid: Blueprint for a New Computing Infrastructure,” Morgan Kaufmann, 1999, http://www.mkp.com/grids
The Large Hadron Collider Project 4 detectors CMS ATLAS Storage – Raw recording rate 0.1 – 1 GBytes/sec Accumulating at 5-8 PetaBytes/year 10 PetaBytes of disk Processing – 200,000 of today’s fastest PCs LHCb
40 MHz (40 TB/sec) level 1 - special hardware 75 KHz (75 GB/sec) level 2 - embedded processors 5 KHz (5 GB/sec) level 3 - PCs 100 Hz (100 MB/sec) Data recording & offline analysis • Online system • Multi-level trigger • Filter out background • Reduce data volume • Online reduction 107 • Trigger menus • Select interesting events • Filter out less interesting
LHC Challenges: Scale • Data written to tape ~10 Petabytes/Year and UP (1 PB = 10**9 MBytes) • Processing capacity 100 - TIPS and UP (1 TIPS = 10**6 MIPS) • Typical networks 0.5 - Few Gbps Per Link • Lifetime of experiment 2-3 Decades • Users ~ 5000 physicists • Software developers ~ 300 (Four Experiments)
The opportunity of Grid technology Lab m Uni x CERN Tier1 Uni a UK Russia France Tier3 physics department Uni n CERN Tier2 USA Desktop Lab b Germany Italy Lab c Uni y Uni b regional group MONARC project LHC Computing Model2001 - evolving Tier1
1-100 ГБ/сек Отбор событий и первичная реконструкция детектор 200 MБ/сек Архивное хранение 1-6 ПБ/год Суммарные данные по событию 0.5-1 ПБ/год сырые данные 200 TБ/год Подготовка данных для анализа Реконструкция события ~100 MБ/сек Данные для анализа (выделенные по физ. каналам) Моделиро- вание событий Интерактивный физический анализ тысячи ученых Большой адронный коллайдер (БАК) потоки данных, этапы обработки и анализа 0.1-1 ГБ/сек РИВК БАК 5-10%
The 13.6 TF TeraGrid:Computing at 40 Gb/s Site Resources Site Resources 26 HPSS HPSS 4 24 External Networks External Networks 8 5 Caltech Argonne External Networks External Networks NCSA/PACI 8 TF 240 TB SDSC 4.1 TF 225 TB Site Resources Site Resources HPSS UniTree TeraGrid/DTF: NCSA, SDSC, Caltech, Argonne www.teragrid.org
Tier0/1 facility Tier2 facility Tier3 facility 10 Gbps link 2.5 Gbps link 622 Mbps link Other link iVDGL:International Virtual Data Grid Laboratory U.S. PIs: Avery, Foster, Gardner, Newman, Szalay www.ivdgl.org
UK SuperJANET4 NL SURFnet GEANT It GARR-B DataTAG project NewYork Abilene STAR-LIGHT ESNET Geneva MREN STAR-TAP
EDG overview : structure , work packages • The EDG collaboration is structured in 12 Work Packages • WP1: Work Load Management System • WP2: Data Management • WP3: Grid Monitoring / Grid Information Systems • WP4: Fabric Management • WP5: Storage Element • WP6: Testbed and demonstrators • WP7: Network Monitoring • WP8: High Energy Physics Applications • WP9: Earth Observation • WP10: Biology • WP11: Dissemination • WP12: Management } Applications
EDG middleware architecture Globus hourglass • Current EDG architectural functional blocks: • Basic Services ( authentication, authorization, Replica Catalog, secure file transfer,Info Providers) rely on Globus 2.0 (GSI, GRIS/GIIS,GRAM, MDS) Specific application layer ALICE ATLAS CMS LHCb Other apps VO common application layer LHC Other apps High level GRID middleware GRID middleware Basic Services GLOBUS 2.х OS & Net services
Apps Mware Globus DataGrid Architecture Local Application Local Database Local Computing Grid Grid Application Layer Data Management Metadata Management Object to File Mapping Job Management Collective Services Information & Monitoring Replica Manager Grid Scheduler Underlying Grid Services Computing Element Services Storage Element Services Replica Catalog Authorization Authentication & Accounting Logging & Book-keeping Database Services Grid Fabric services Fabric Monitoring and Fault Tolerance Node Installation & Management Fabric Storage Management Resource Management Configuration Management
Fundamental Goal of the LCG To help the experiments’ computing projects get the best, most reliable and accurate physics results from the data coming from the detectors Phase 1 – 2002-05prepare and deploy the environment for LHC computing Phase 2 – 2006-08acquire, build and operate the LHC computing service
Структура программного обеспечения LCG1)В качестве основы промежуточного программного обеспечения выбран набор инструментальных средств Globus 2) Пакет VDT (Virtual Data Toolkit),разработанныйвамериканских GRID проектах: PPDG – The Particle Physics Data Grid , GriPhyN – Grid Physics Network, и iVDGL – the International Virtual Data Grid Laboratory . Этот пакет представляет собой набор надстроек над библиотекой инструментальных средств GLOBUS, позволяющих реализовывать распределенную вычислительную систему, но практически без каких либо GRID сервисов. Он также включает в себя пакет Condor/Condor-G, который используется в качестве распределенной системы запуска заданий в пакетном режиме. 3) Набор сервисов и служб, разработанных в проекте EU DataGRID: ресурс-брокер (обеспечивающий сервис по распределению заданий), информационная служба, replica catalog и др.
The virtual LHC Computing Centre Grid Building a Grid Collaborating Computer Centres Alice VO CMS VO
Apps Mware Globus DataGrid Architecture Local Application Local Database Local Computing Grid Grid Application Layer Data Management Metadata Management Object to File Mapping Job Management Collective Services Information & Monitoring Replica Manager Grid Scheduler Underlying Grid Services Computing Element Services Storage Element Services Replica Catalog Authorization Authentication & Accounting Logging & Book-keeping Database Services Grid Fabric services Fabric Monitoring and Fault Tolerance Node Installation & Management Fabric Storage Management Resource Management Configuration Management
Освоена технология создания информационных серверов GIIS, собирающих информацию о локальных вычислительных ресурсах и ресурсов по хранению данных (создаваемых GLOBUS службой GRIS на каждом узле распределенной системы) и передающих эту информацию в динамическом режиме в вышестоящий сервер GIIS. Таким образом, освоена и протестирована иерархическая структура построения информационной службы GRIS-GIIS. Организован общий информационный сервер GIIS (ldap://lhc-fs.sinp.msu.ru:2137), который передает информацию о локальных ресурсах российских институтов на информационный сервер GIIS (ldap://testbed1.cern.ch:2137) европейского проекта EUDataGRID.
dc=ru, o=grid Country-level GIIS lhc-fs.sinp.msu.ru:2137 dc=sinp, dc=ru, o=grid SINP MSU, Moscow dc=jinr, dc=ru, o=grid JINR, Dubna dc=srcc, dc=ru, o=grid SRCC MSU, Moscow dc=ihep, dc=ru, o=grid IHEP, Protvino CERN Top-level WP6 GIIS testbed001.cern.ch:2137 dc=itep, dc=ru, o=grid ITEP, Moscow dc=tcss, dc=ru, o=grid TCSS, Moscow dc=kiam, dc=ru, o=grid KIAM, Moscow dc=?, dc=ru, o=grid St. Petersburg Russian National GIIS • SRCC MSU, KIAM and TCSS participate only in Russian DataGrid project and are not involved in CERN projects.
lhc20.sinp.msu.ru НИИЯФ МГУ grid011.pd.infn.it lhc01.sinp.msu.ru lhc02.sinp.msu.ru lhc03.sinp.msu.ru Падуя SINP MSU RB+ InformationIndex lhc04.sinp.msu.ru CE lxshare0220.cern.ch WN SE Пользователь ЦЕРН Пример использования EDG middleware (CMS VO)
В НИИЯФ МГУ создан Сертификационный центр (Certificationauthority, СА) для российского сегмента. Сертификаты этого центра принимаются всеми участниками европейского проекта EUDataGRID. Разработана схема подтверждения запросов на сертификаты с помощью расположенных в других организациях Регистрационных центров (Registrationauthority, RC),заверяющих запросы пользователей электронной подписью с помощью сертификата GRID. Разработаны программы постановки и проверки электронной подписи, а также пакет программ для автоматизации работы Сертификационного центра. Предложенная схема CA+RC и пакет программ приняты в ЦЕРНе и других участниках европейского проекта EUDataGRID.
Инсталлирована и протестирована программа репликации файлов и баз данных GDMP (GRID Data MirroringPackage), которая создана для выполнения удаленных операций с распределенными базами данных. Она использует сертификаты GRID и работает по схеме клиент-сервер, т.е. репликация изменений в базе данных происходит в динамическом режиме. Сервер периодически оповещает клиентов об изменениях в базе, а клиенты пересылают обновленные файлы с помощью команды GSI-ftp. Текущая версия GDMP работает с объектно-ориентированнной базой данных ObjectivityDB, а также создается версия с динамической репликацией обычных файлов. Программа GDMP активно используется для репликации в ЦЕРН распределенной базы смоделированных данных, создаваемой в ОИЯИ (Дубна), НИИЯФ МГУ и других институтах по физике высоких энергий для эксперимента LHC-CMS. Программа GDMP рассматривается в качестве GRID стандарта для репликации изменений в распределенных базах данных.
В ОИЯИ выполнен комплекс работ по мониторингу сетевых ресурсов, узлов, сервисов и приложений. Сотрудники ОИЯИ принимают участие в развитии средств мониторинга для вычислительных кластеров с очень большим количеством узлов (10.000 и более), используемых в создаваемой инфраструктуре EUDataGRID. В рамках задачи MonitoringandFaultTolerance (Мониторинг и устойчивость при сбоях) они участвуют в создании системы корреляции событий (CorrelationEngine). Задача этой системы - своевременное обнаружение аномальных состояний на узлах кластера и принятие мер по предупреждению сбоев. С помощью созданного прототипа Системы корреляции событий (CorrelationEngine) ведется сбор статистики аномальных состояний узлов на базе вычислительных кластеров ЦЕРН. Производится анализ полученных данных для выявления причин сбоев узлов. На втором этапе предусмотрено расширение прототипа CorrelationEngine с учетом полученных результатов и испытание системы автоматизированного предупреждения сбоев на практике. Этот прототип установлен на вычислительных кластерах в ЦЕРН и ОИЯИ, где производится сбор статистики аномальных состояний узлов.
RefDB at CERN jobs Environment IMPALA UI UI BOSS mySQL DB batch manager N2 GK N1 Nn NFS job executer CMKIN Задача массовой генерациисобытий для CMS на LHC(как это было)
RefDB at CERN jobs Environment DOLLY UI mySQL DB UI BOSS GRID EDG-RB CE batch manager job NFS job executer IMPALA WN1 WN2 WNn CMKIN Задача массовой генерациисобытий для CMS на LHC(предложенное решение)
Useful References: • GLOBAL GRID FORUM: http://www.gridforum.org • European GRID FORUM: http://www.egrid.org • PPDG: http://www.ppdg.org • IVDGL : http://www.ivdgl.org • EU DATA GRID Project: http://www.eu-datagrid.org • DATATAG Project: http://www.datatag.org • GLOBUS Project: http://www.globus.org • GriPhynProject: http://www.griphyn.org • CrossGRID : http://www.cyfronet.krakow.pl/crossgrid • Condor: http://www.cs.wisc.edu/condor • TERAGRID Project: http://www.teragrid.org • RIVK-BAK Project: http://theory.sinp.msu.ru/~ilyin/RIVK-BAK • LCG http://www.cern.ch/lcg • «Ope • n Systems» Journal: http://www.osp.ru