520 likes | 802 Views
Grid – вычисления через Интернет. В.А. Ильин (НИИЯФ МГУ) Марковские чтения, ФИАН, 12 мая 2005. Что есть Grid? Немного о networking Grid сейчас – EGEE … LHC Computing Grid (LCG). где и как Россия ?. Некоторые стартовые замечания ….
E N D
Grid – вычисления через Интернет В.А. Ильин (НИИЯФ МГУ) Марковские чтения, ФИАН, 12 мая 2005 • Что есть Grid? • Немного о networking • Grid сейчас – EGEE … • LHC Computing Grid (LCG) где и как Россия?
Некоторые стартовые замечания … Grid – не программирование/алгоритмы…, а организация ресурсов, пользователей и ПО (middleware) Grid – инфраструктура ДЛЯ приложений (одна для всех и разных) Grid – сейчас это большая политика в ИТ, к счастью, не только …
Было и есть Уже есть и будет - ГРИД Службы
поиска сервисов Discovery Services регистрации сервисов Registry Services управления именами Name Space Management Services аутентификации Authentication Services авторизации Authorization Servcies ресурсов Resource Services резервирования Reservation Services брокера запросов Brokering Services планирования заданий Scheduling services балансировки загрузки Load Balancing services отказоустойчивости Fault Tolerance Services событий и оповещений Event and Notification Services протоколирования Loggin Services мониторинга Instrumental and Monitoring биллинга Accounting Services кеширования и репликаций Data Caches and Data ReplicationServices поиска метаданных Metadata Search Services транзакций Transaction Services администрирования Administration Services Базовые службы Грид
Вопросы безопасности(OGSA Security Architecture)
Безопасность Грид • Обеспечение конфиденциальности передаваемой информации • Обеспечение целостности передаваемой информации (зашита от модификации и искажения) • Обеспечение подтверждения подлинности объекта доступа к ресурсам • Обеспечение аутентификации субъектов доступа к ресурсам Система опирается на использовании цифровых сертификатов (цифровых удостоверений)
Экспоненциальный рост • Быстродействие сетей и компьютеров • Скорость компьютеров удваивается каждые 18 месяцев • Скорости сети удваиваются каждые 9 месяцев • Разница = порядок величины за 5 лет • 1986 до 2000 • Компьютеры: x 500 • Сети: x 340,000 • 2001 до 2010 • Компьютеры: x 60 • Сети: x 4000
Bandwidth Growth of Int’l HENP Networks (US-CERN Example) • Rate of Progress >> Moore’s Law. (US-CERN Example) • 9.6 kbps Analog (1985) • 64-256 kbps Digital (1989 - 1994) [X 7 – 27] • 1.5 Mbps Shared (1990-3; IBM) [X 160] • 2 -4 Mbps (1996-1998) [X 200-400] • 12-20 Mbps (1999-2000) [X 1.2k-2k] • 155-310 Mbps (2001-2) [X 16k – 32k] • 622 Mbps (2002-3) [X 65k] • 2.5 Gbps (2003-4) [X 250k] • 10 Gbps (2005) [X 1M] • A factor of ~1M over a period of 1985-2005 (a factor of ~5k during 1995-2005) • HENP has become a leading applications driver, and also a co-developer of global networks;
HENP Major Links Roadmap: Bandwidth in Gbps Continuing the Trend: ~1000X Bandwidth Growth Per Decade
Pan-European Multi-Gigabit Backbone (33 Countries)January 2004 Note 10 Gbps Connections to Poland, Czech Republic, Hungary Planning Underway for “GEANT2” (GN2), Multi-Lambda Backbone, started in 2005
GLORIAD: Global Optical Ring (US-Ru-Cn) “Little Gloriad” (OC3) Launched January 2005 Also Important for Intra-Russia Connectivity
SCIC Monitoring WG - Throughput Improvements 1995-2004 Bandwidth of TCP < MSS/(RTT*Sqrt(Loss)) (1) 60% annual improvement Factor ~100/10 yr Some Regions ~5-10 Years Behind SE Europe and Parts of Asia May be Catching Up (Slowly);India Ever-Farther Behind Progress: but Digital Divide is Mostly Maintained
Networks, Grids and HENP • Network backbones and major links used by HENP experiments are advancing rapidly • To the 2.5-10G range in < 2 years; much faster than Moore’s Law • HENP is learning to use long distance 10 Gbps networks effectively • 2003 Developments: to 5.6+ Gbps flows over 11,000 km • Transition to a community-owned or leased fibers for R&E has begun in some areas [us, ca, nl, pl, cz, sk] or is considered [de, ro; IEEAF] • End-to-end Capability is Needed, to Reach the Physics Groups: • Removing Regional, Last Mile, Local Bottlenecks and Compromises in Network Quality are nowOn the critical path, in all world regions • Digital Divide: Network improvements are especially neededin SE Europe, Latin America, China, Russia, Much of Asia, Africa • Work in Concert with Internet2, Terena, APAN, AMPATH; DataTAG, the Grid projects and the Global Grid Forum ICFA recomendations:
Connectivity with CERN International links for Russian science today: 155 Mbps Moscow-Stockholm (GEANT) operated by RBNet 2.5 Gbps Moscow-Perersburg-Stockholm operated by RUNNet/RBNet - 1 Gbps to NORDUNet - (GLORIAD) 622 Mbps to Amsterdam (NETHERLight), then to Chicago (STARLight), to CERN (via SURFNet links), commodity (AMS-IX), … In April the GEANT2 PoP in Moscow will be opened (FP6). For specific needs for LHC community in Russia the link 622 Mbps Moscow (M9-IX) – Amsterdam (SURFNet) – CERN will be available, e.g. for the October LCG Service Challenge.
Региональные линии связи REGIONAL CONNECTIVITY Moscow 1 Gbps (ITEP, KI, SINP, …), sometimes “last mile” problem appears IHEP 100 Mbps fiber-optic (good plans for 1Gbps) JINR 45Mbps (1 Gbps in Q2 2005) BINP dedicated 45 Mbps GLORIAD (going to Gbps’s) INR RAS 2 Mbps+2x4Mbps(m/w) PNPI 2 Mbps (new o/f link to St-Peterburg is under developing)
FS FS RLS BDII FS FS Запуск заданий в грид Site RB UI CE WN SE UI – Интерфейс пользователя RB – Брокер ресурсов BDII – Информационная база данных по ресурсам RLS – Сервер реплик файлов CE – Компьютерный элемент SE – Элемент хранения данных WN – рабочая нода FS – файловый сервер MyProxy – сервер продление действия сертификата пользователя Site CE WN SE
FS FS RLS BDII FS FS Запуск заданий в грид Site RB UI CE WN SE Site CE UI – Интерфейс пользователя RB – Брокер ресурсов BDII – Информационная база данных по ресурсам RLS – Сервер реплик файлов CE – Компьютерный элемент SE – Элемент хранения данных WN – рабочая нода FS – файловый сервер WN SE
FS FS RLS BDII FS FS Запуск заданий в грид Site RB UI CE WN SE Site CE UI – Интерфейс пользователя RB – Брокер ресурсов BDII – Информационная база данных по ресурсам RLS – Сервер реплик файлов CE – Компьютерный элемент SE – Элемент хранения данных WN – рабочая нода FS – файловый сервер WN SE
FS FS RLS BDII FS FS Запуск заданий в грид Site RB UI CE WN SE Site CE UI – Интерфейс пользователя RB – Брокер ресурсов BDII – Информационная база данных по ресурсам RLS – Сервер реплик файлов CE – Компьютерный элемент SE – Элемент хранения данных WN – рабочая нода FS – файловый сервер WN SE
FS FS RLS BDII FS FS Запуск заданий в грид Site RB UI CE WN SE Site CE UI – Интерфейс пользователя RB – Брокер ресурсов BDII – Информационная база данных по ресурсам RLS – Сервер реплик файлов CE – Компьютерный элемент SE – Элемент хранения данных WN – рабочая нода FS – файловый сервер WN SE
FS FS RLS BDII FS FS Запуск заданий в грид Site RB UI CE WN SE Site CE UI – Интерфейс пользователя RB – Брокер ресурсов BDII – Информационная база данных по ресурсам RLS – Сервер реплик файлов CE – Компьютерный элемент SE – Элемент хранения данных WN – рабочая нода FS – файловый сервер WN SE
О проекте EGEE EGEE – Enabling Grids for E-sciencE создание глобальной инфраструктуры типа грид для распределенных вычислений и интенсивных операций с данными в научных исследованиях EGEE – проект EC FP6, апрель 2004 – апрель 2006 ( 2009), 70 команд из 30 стран (Европа, США, Россия), более 30 ассоциированных партнеров EGEE – создание грид инфраструктуры (SA1), Gridvs Networking (SA2), разработка/развитие MW (JRA):Globus2+Condor+EDG+…, поддержка грид-приложений (NA4), обучение (NA3), dissemination(NA2) 50% 25% 25% EGEE сейчас – более 1000 членов коллаборации, более 100 сайтов, ~10 прикладных областей, в инфраструктуре более 10000 CPU и более 5 Pbyte данных
РДИГ РДИГ – Российский грид для интенсивных операций с данными 8 институтов-участников инфраструктурного проекта EGEE: ИФВЭ, ИТЭФ, РНЦ КИ, ИПМ РАН, ИМПБ РАН, ПИЯФ РАН, НИИЯФ МГУ, ОИЯИ РДИГ – национальная федерация в проекте EGEE (всего 12 федераций) РДИГ – создание российского сегмента глобальной инфраструктуры EGEE: участие в SA1 (все 8 институтов), SA2 (РНЦ КИ), NA2-NA4 РДИГ - полнофункциональная грид инфраструктура – российский грид для науки, также и как полигон для российских разработок в этой области. РДИГсейчас – более 100 членов коллаборации, (~) 10 сайтов, 3 (+3) прикладных областей, в инфраструктуре более 300 CPU и ~50 Tbyte данных
Мониторинг EGEE (March 2005)http://goc.grid-support.ac.uk/gridsite/gocmain/
Структурные элементы • CIC – Core Infrastructure Center • Обеспечение функционирования базовых грид сервисов 24х7НИИЯФ МГУ • Мониторинг и реагирование на черезвычайные ситуацииОИЯИ • Ведение учета ресурсов и выполненных работ (accounting)НИИЯФ МГУ, ОИЯИ • Управление и поддержка виртуальных организацийНИИЯФ МГУ • Поддержка безопасности инфраструктуры, CAРНЦ КИ • Сертификация (валидация) грид ПОИПМ РАН • ROC – Regional Operations Center • ИФВЭ, ИТЭФ (user support), ИПМБ РАН, ПИЯФ • RC – Resource Center (8++) • VO – Virtual Organization • физика высоких энергий:LHC – ATLAS, ALICE, CMS, LHCb; PHOTON, … • биомед (ИМПБ РАН ++ EGEE) • российские VOs: e-Earth (геофизика - ИФЗ и ГЦ РАН), fusion (РНЦ КИ ++), химфизика (Черноголовка, МГУ ++), МГУгрид (НИВЦ, НИИЯФ, ин-т Белозерского, ++), ++
РДИГ инфраструктура ЦБГС (CIC) РОЦ (ROC) Регистрация ВО CA Поддержкапользователей Регистрацияпользователей Поддержка РЦ Мониторинг Регистрацияновых РЦ Группа дежурныхпо EGEE Ресурсные центры Базовые сервисы ... JINR SINP ITEP IHEP MyP ... BDII RLS RB
Computing Resources: Feb 2005 • Country providing resources • Country anticipating joining • In LCG-2: • 113 sites, 30 countries • >10,000 cpu • ~5 PB storage • Includes non-EGEE sites: • 9 countries • 18 sites
The deployment process • Key point – a certification process is essential • However, it is expensive (people, resources, time) • But, this is the only way to deliver production quality services • LCG-2 was built from a wide variety of “research” quality code • Lots of good ideas, but little attention to the “mundane” needs of production … • Building a reliable distributed system is hard – • Must plan for failure, must provide fail-over of services, etc • Integrating components from different projects is also difficult • Lack of common standards for logging, error recovery, etc
Main Differences to LCG-2 • Workload Management System works in push and pull mode • Computing Element moving towards a VO based scheduler guarding the jobs of the VO (reduces load on GRAM) • Distributed and re-factored file & replica catalogs • Secure catalogs (based on user DN; VOMS certificates being integrated) • Scheduled data transfers • SRM based storage • Information Services: R-GMA with improved API and registry replication • Prototypes of additional services • Grid Access Service (GAS) • Package manager • DGAS based accounting system • Job provenance service • Move towards Web Services
New MW: JINR, KIAM RAS, SINP MSUOGSA/Globus evaluation for data intensive applications • Based on the experience with OGSA/GT3 evaluation in 2003-2004 (T. Chen et al. “OGSA Globus Tolkit Evaluation Activity at CERN”, in Proc. of ACAT03, NIMA 534 (2004) 80) • Release of the Globus Toolkit 4 is currently scheduled for April 29, 2005 www-unix.globus.org/toolkit/docs/development/4.0-drafts/GT4Facts • Therefore: testing/evaluation of other OGSA/WS systems potentially interesting for LCG/EGEE CERN-INTAS meeting, 14 March 2005, CERN
Testing the OMII basic functionality (KIAM RAS+JINR): • Applications must be pre-installed on the (Job Service) server; an execution of programs prepared on client side is impossible. • No such core services like RB, IS, RC • Management of (grid) accounts is not well scalable, not well suitable for management of large dynamic VOs • Clients must be installed for each user separately (e.g., not under root) • Failed to deploy a new custom service into the OMII container • Report was submitted to JRA1 and OMII Support • The OMII 1.1.1 Job service was found to be robust in a test with 20 concurrent clients • The maximal job submission rate ~ 6 jobs/min • no bulk batch mode for job submission --> problem for submitting large number of jobs • The Data Service was found to work stable with up to 5 concurrent clients and a file size of up to 10MB (no tests beyond this limits yet). CERN-INTAS meeting, 14 March 2005, CERN
(первая новая) VO в РДИГ • RGStest – для тестирования РДИГ • eEarth – задачи геофизики и космических исследований, • в частности, интерактивная картография и визуализация научных данных в Интернет = задачи хранения геофизической информации на параллельном кластере баз данных, интерактивного поиска событий в окружающей среде, и совместной интерактивной визуализации карт (есть более подробное описание задачи – кто будет анализировать?) • В рамках международных проектов • Space Physics Interactive Data Resource (SPIDR) и • Integrated Distributed Environmental Archive System (IDEAS), • входящих в программу Президиума РАН «Электронная Земля» • на базе Геофизического центра и Института физики Земли РАН • Руководитель VOeEarth - зав. лаб. ИФЗ и ГЦ РАН М.Н. Жижин. • Численность VO в течение ближайшего года ~ 10
Fusion Grid: Automatic data processing testbed Processing of data acquired on nuclear fusion facilities in RRC KI and other clusters. Experiments are cyclic: • results of a discharge are immediately needed for next discharges planning • but very peakly To be developed: • Gate between DASSQL data storage and file clients (on cluster in this example) • Grid-aware dispatcher
EGEE – инфраструктура общего назначения • РДИГ (+EGEE) – грид инфраструктура для научных исследований • приглашаем новые прикладные области (VO) • РДИГ (+EGEE) – технологический полигон для • изучения существующего MW • тестирования/развития нового MW • новых архитектурных и инфраструктурных разработок • приглашаем российских разработчиков MW
LHCb DCs in Russia 2002130K events, 1% contribution only one centre (ITEP) 20031.3M events, 3% contribution (IHEP, ITEP, JINR, SINP MSU) 20049.0M events, 5% contribution started to use LCG 2005 …PNPI and INR RAS are joining… 2004 DC Phase I
PROOF Master PROOF Steer PROOF Client LCG Site A Site B PROOF SLAVE SERVERS PROOF SLAVE SERVERS Proofd Rootd Forward Proxy Forward Proxy New Elements Optional Site Gateway Only outgoing connectivity Site <X> Slave ports mirrored on Master host Proofd Startup Slave Registration/ Booking- DB Grid Service Interfaces TGrid UI/Queue UI Master Setup Grid Access Control Service Grid/Root Authentication “Standard” Proof Session Grid File/Metadata Catalogue Master Booking Request with logical file names Client retrieves list of logical file (LFN + MSN) Grid-Middleware independend PROOF Setup ALICE: distributed event processing + analysis Client
LCG - Russian Tier2-Cluster • Conception: • Cluster of institutional computing centers with Tier2 functionality and summary resource between canonical Tier2-Tier1 figures • for each experiment (ALICE, ATLAS, CMS, LHCb) • Basic functions:analysis; simulations; users data support • Host Tier1 in LCG infrastructure: CERN Participating institutes: Moscow ITEP, SINP MSU, RRC KI, LPI, MEPhI… Moscow region JINR, IHEP, INR RAS St.Petersburg PNPI RAS, St-PSU Novosibirsk BINP SB RAS
Russian Institutes to participate in the analysis of ALICE data
Computing model for ALICE in Russia Consortium of Russian sites: RRC KI SPbSU PNPI Tier2 IHEP JINR INR RAS ITEP SINP MSU associative
RDMS in Physics analysis • Heavy ions • Quarkonia and Jet suppression(SINP MSU, LPI, HEPI Tbilisi) • Global Observables(JINR, SINP MSU, HEPI Tbilisi) • Coherent hard diffractive scattering of nuclei (ErPhI) Higgs • qq qqH qqWW(ITEP, SINP MSU) • qqH qqZZ(KIPT) • (H → ) + jets (SINP MSU) • CP-violation at Higgs sector (SINP MSU) • Diffractive Higgs production(IHEP, PNPI) • Standard Model • Single top production(IHEP, SINP MSU) • Electroweak physics (JINR, GSTU, PHEP Minsk) • B-physics(JINR) • QCD (JINR, LPI, PNPI) • High multiplexity events (LPI) • Studies of Proton Diffractive Function (ErPhI) • SUSY and beyond SM • High pT muon pairs(JINR) • High pT electrons(INR, IHEP) • Search for SUSY particles (sleptons) (INR, IHEP) • Search for heavy neutrino (INR)
Итого: • Концентрация ресурсов • Концентрация усилий • Распределение нагрузок • Организация совместной работы коллективов НО…
Несите Ваши деньги в наш банк! • Пока Вы спите, Ваш ресурс работает … • Мы приумножим и сохраним Ваш ресурс … Вы отдали свой ресурс и думаете, что он все еще Ваш?
Технологическое обеспечение организации процессов управления ресурсами • Мониторинг использования ресурсов • Учет использования ресурсов • Система взаимных расчетов (учета вкладов) • Безопасность: • Идентификация • Разграничение доступа • Защита от неправомерных действий • Контроль за соблюдением регламентов • … и еще кое-что … Вот тогда -
Светлое будущее и всеобщее благоденствие! • Концентрация ресурсов • Концентрация усилий • Распределение нагрузок • Организация совместной работы коллективов НО…