270 likes | 423 Views
A short introduction to the LCG/EGEE Projects Краткая информация о проектах LCG и EGEE. Olga Kodolova, SINP MSU Elena Tikhonenko, JINR, Dubna.
E N D
A short introduction to the LCG/EGEE Projects Краткая информация о проектах LCG и EGEE Olga Kodolova, SINP MSU Elena Tikhonenko, JINR, Dubna The training courses “CMS user analysisusing EGEE/LCG infrastructure“ Moscow, ITEP, April 16, 2007
ContentsСодержание • Специфика приложений ФВЭ • Проект LCG • Проект EGEE • Как стать пользователем среды LCG/EGEE • GRID User Interface • Основные понятия и команды для запуска задач пользователя • CMS Dashboard • Инструментальные средства запуска задач пользователей CMS в среде LCG/EGEE • Заключение и полезные ссылки
Эксперименты на LHC ATLAS CMS При ожидаемой скорости записи сырых данных потребуются ресурсы для хранения данных порядка десятков и сотен ПБ. Для обработки данных потребуются сотни тысячперсональных компьютеров (максимальной на текущий момент производительности) ALICE LHCb LHCb
Обработка данных и вычисления в физике высоких энергий Отбор событий и первичная реконструкция детектор Триггер 1-го уровня ESD обработанные данные суммарные данные по событиям RAW «сырые» данные Пакетная обработка данных Реконструкция событий AOD объекты для физического анализа (выделенные по физическим каналам) моделирование физических событий интерактивный физический анализ
Специфика приложений ФВЭ • Требования по данным • Колоссальные объемы данных (десятки и сотни Петабайт) • Данные типа WORM (писать единожды, читать многократно) • Структуризация данных с последующим извлечением информации из данных (data mining) • Продолжительное время хранения данных, а также необходимость создания копий данныхв разных странах мира • Требования к обработке данных • Обработка данных подразделяется на 2 типа – регулярное производство данных и «нерегулярный» анализ данных • Производство (моделирование ) данных происходит систематически; при этом производятся наборы данных порядка ~ 10**9 физических событий. • Анализ физических данных (на наборах данных порядка 10**7 событий) проводится произвольным образом и в индивидуальном порядке многими сотнями отдельных пользователей • Высокий уровень параллелизма обработки на уровне событий, который может быть описан ориентированным графом с указанием последовательности обработки • Поскольку интерактивная работа очень важна при анализе данных, необходимо предусмотреть возможность спасения сессий с сохранением информации об источнике данных («проверяемость», provenance) • Необходимость глобального доступа к базам данных экспериментов для получения значений констант, условий работы и т.д.
Требования к компьютингу для LHC • Надежное и безопасное хранение данных (ежегодно будет производиться ~15 Петабайт данных) • Скоростная сеть с малыми задержками и высокой пропускной способностью • Управление разделением ресурсов между экспериментами, анализом и производством данных, различными группами анализа и индивидуальными пользователями, т.е. необходимость выработки общих правил (common policies) • Поддержка и обучение пользователей Необходимо обеспечить прозрачный доступ к данным и вычислительным ресурсам для ~5000 ученых в ~500 институтах, расположенных по всему миру
Проект LCG Проект LCG – the LHC Computing Grid Project (http://lcg.web.cern.ch/LCG/ ) – был организован для создания компьютерной инфраструктуры, необходимой для моделирования, обработки и анализа данных cтроящихся на LHC экспериментов. Проект был принят ЦЕРН в 2001 году и включает в себя 2 этапа: 1-й этап – 2002-05 (разработка общего прототипа мат.обеспечения и запуск пилотного вычислительного сервиса для LHC). 2-й этап – 2006-08 (оснащение и ввод в эксплуатацию вычислительного сервиса для LHC). В проект вовлечены эксперименты LHC, GRID-проекты в Европе и США, региональные и национальные компьютерные центры.
Направления работ в LCG Applications Area Библиотеки и инструментальные средства Управление данными Middleware Area Разработка, тестирование, интеграция и поддержка промежуточного программного обеспечения Distributed Analysis Распределенный анализ данных Grid Deployment Area Установка и управление сервисами грид (сертификация, безопасность и т.д.). Service Challenges CERN Fabric Area Управление кластерами и данными Сети (глобальные и локальные) Вычислительный сервис в ЦЕРН
LHC computing Grid Service LCG real time monitor http://gridportal.hep.ph.ic.ac.uk/rtm/applet.html (June, 2006)32840 задач
LHC computing Grid Service LCG real time monitor (January, 2007)36680 задач
LCG основывается на 2-хосновных структурах грид в сфере науки EGEE-II: (с апреля 2006 года) 90 институтов из 32стран > 20,000 CPU LCG-инфраструктура реализована и успешно функционирует на базе 2-х инфрастуктур, обеспечиваемых проектами: EGEE - Enabling Grids for E-Science OSG - US Open Science Grid
Что такое EGEE? EGEE – это крупнейшая инфраструктура грид в Европе: • 90 ведущих научно-исследовательских институтов 32 странах, объединенные в региональные федерации грид • расширяяет национальныеи региональные работы по грид • EGEE-I начат в апреле 2004 • Активизирует международное научное сотрудничество Цель EGEE: создать глобальную инфраструктуру грид-сервисов, круглосуточно доступную для ученых и специалистов LCG и EGEE – различные проекты Но именно тесное сотрудничество обеспечивает разделение, а не дублирование работ
РДИГ – Российский грид для интенсивных операций с данными http://www.egee-rdig.ru/
Среда LCG-2/EGEE Cреда LCG-2 /EGEE– инфраструктура, промежуточное математическое обеспечение (middleware) которой может рассматриваться как логическое продолжение и развитие достижений таких grid – проектов, как Сondor, Globus, DataGrid, DataTag, GriPhyn, iVDGL и EGEE (Enabling Grids for E-sciencE). Подmiddleware понимается совокупность Grid-сервисов, независимых от ресурсов и приложений и обеспечивающих аутентификацию, авторизацию, размещение и распределение ресурсов, получение результатов выполнения задач, статистику и служебную информацию, удаленный доступ к данным, стратегию и способы обнаружения неисправностей.
Последовательность действий для осуществления возможности работать в среде LCG-2/EGEE • Во-первых, следует ознакомиться с Правилами использования ресурсовLCG/EGEE • Затем получить персональный цифровой сертификат – для организаций на территории России – в Сертификационном центре в Курчатовском институте (http://ca.grid.kiae.ru/RDIG/ ). По завершению процесса регистрации Вы получите по электронной почте свой цифровой сертификат, который следует сохранить в файле usercert.pem • Загрузить персональный сертификат в браузер См. https://lcg-registrar.cern.ch/load_certificates.html • Зарегистрироваться в соответствующей виртуальной организациипо адресу: https://lcg-voms.cern.ch:8443/vo/cms/vomrs Для возможности работы в инфраструктуре LCG/EGEE надо получить сертификат и зарегистрироваться в соответствующей виртуальной организации; вся необходимая последовательность действий описана на странице: http://lcg-registrar.cern.ch/ virtual organization (VO)– виртуальная организация - объединение пользователей, организаций и ресурсов (компьютеров, ПО и данных) в новый административный домен в рамках grid-инфраструктуры
Что такое UI, CE, WN, SE,RB? • UI (User Interface) – cервис, обеспечивающий доступ к ресурсам Grid; c UI-компьютера пользователь может запускать или прерывать свои задачи, получать информацию о статусе выполняемых задач, находить ресурсы, необходимые для исполнения конкретной задачи, получать учетную информацию о своей задаче: а также копировать, реплицировать или уничтожать файлы в инфрастуктуре Grid. • CE (Computing Element) – очередь в системе пакетной обработки инфраструктуры Grid • WN (Working Node) – вычислительный узел фермы в инфраструктуре Grid • SE (Storage Element) –cервис, обеспечивающий унифицированный доступ к ресурсам памяти инфраструктуры Grid (ресурсами памяти при этом могут быть как простые дисковые серверы, так и дисковые массивы или системы массовой памяти (MSS)). • RB (Resource Broker) : сервис поиска “наилучших” ресурсов в среде GRID для запуска конкретной задачи
Job Description Language (JDL)Язык описания задачи • JDL – расширяемый язык, предназначенный для описания задач пользователя с помощью задания значений для “атрибутов” и появившияся еще при создании системы распределенных вычислений CONDOR • Пользователь для запуска свой задачи в инфраструктуре grid должен сформировать файл (job_definition.jdl) • Некоторые из атрибутов описываются пользователем, а некотрые атрибуты автоматически формируются UI до запуска задания в инфрастуктуру grid • Атрибуты подразделяются на атрибуты описания задачи, атрибуты ресурсов и атрибуты описания данных.
Атрибуты описания задачи Job Submission • Executable (обязательный) • имя исполняемой команды (программы) • Arguments (необязательный) • аргументы, которые необходимы для исполнения команды, указанной в Executable • StdInput, StdOutput, StdErr (необязательный) • стандартные ввод/вывод/ошибки задачи • Environment (необязательный) • список установок среды • InputSandbox (необязательный) • список файлов на локальном диске на UI, необходимых для выполнения задачи • перечисленные файлы помещаются на удаленный CE • OutputSandbox (необязательный) • Список файлов, которые будут сформированы в результате выполнения задания и которые необходимо получить пользователю после выполнения задачи
Атрибуты ресурсовResource Attributes Job Submission • Requirements • Требования задачи на вычислительные ресурсы • Если не определяются пользователем, то используется значение, заданное в конфигурации UI
Атрибуты описания данных“Data” Attributes Job Submission • InputData (необязательный) • относится к данным, используемым как входные к задаче: эти данные публикуются в Replica Catalog и запоминаются в SEs) • PFNs и/или LFNs • DataAccessProtocol (обязательный, если определен атрибут InputData) • Протокол или список протоколов, требумых для доступа к InputData на данном SE • OutputSE (необязательный) • имя SE-хоста • RB использует его для выбора CE, совместимого в требованиями задачи и наидолее близко расположенного к SE • OutputData (необязательный) • Выходные данные, которые должны быть сформированы в конце выполнения задачи
Команды запуска задачи • Выполняем команду voms-proxy-init –voms cms • вводим в процессе выполнения данной команды свой пароль на гридовский сертификат • получаем в результате proxy – временный сертификат, дающий право доступа к сервисам и ресурсам Grid в рамках VO VMS • Выполняем команду: edg-job-submit myjob1.jdl и получаем в результате уникальный идентификатор задачи (Job Identifier), JobId • По выполнению команды: edg-job-status JobId получаем статусную информацию о ходе выполнения задачи • После завершения выполнения задачи можно выполнить команду edg-job-get-output JobId в результате чего получаем имя временнго каталога на машине UI, где находятся результаты выполнения задачи.
Некоторые полезные команды UI • edg-job-list-match Получение списка ресурсов, соответствующих описанию задачи (запуск задачи при этом не требуется) • edg-job-cancel прекращение выполнения задачи • edg-job-get-logging-info получение информации о прохождении задачи полезно при отладке программы Подробнее об атрибутах задачи и процессе запуска задач в среде LCG/EGEE см.http://rdms-cms.jinr.ru/docs/rdms_1/september_6/LCG-induction-for-cms-users.ppt
UI в CERN • В CERN при вхождении наlxplus.cern.chследует выполнить скрипт cms_ui_env.csh командой в результате чего установятся переменные окружения, необходимые для доступа к сервису UI. А при работе наlxplus.cern.chс ASAP для доступа к сервису UI достаточно выполнить команду source /afs/cern.ch/cms/LCG/LCG-2/UI/cms_ui_env.csh source /afs/cern.ch/sw/arda/install/CMS/asap3/setup.csh
CMS Dashboard http://dashboard.cern.ch/cms/
CMS Dashboard: Job Monitoring Interactive View http://lxarda09.cern.ch/dashboard/request.py/jobsummary sorted by user
Инструментальные средства запуска задач пользоватлей Инструментальные средства, облегчающие пользователю запуск заданий в среде грид, должны «скрывать» от пользователя всю сложность работы в распределенной среде, обеспечивая ему простой и удобный интерфейс. На данный момент подобные решения существуют в CMS. Это системы CRAB и ASAP.
Заключение и полезные ссылки Близок запуск LHC. Без умения работать в среде грид физикам уже не обойтись! полезная документация • The LCG-2 User Guide https://edms.cern.ch/file/454439/1/LCG-2-UserGuide.pdf https://edms.cern.ch/file/454439/1/LCG-2-UserGuide.html • gLite 3.0 User Guide https://edms.cern.ch/file/722398//gLite-3-UserGuide.html http://egee.itep.ru/gLite-3-UserGuide.pdf • LCG-2 User Scenario https://edms.cern.ch/document/498081/1.0 • ClassAd languagehttps://www.cs.wisc.edu/condor/classad • LCG-2 Frequently Asked Questions https://edms.cern.ch/document/495216/ • CRAB Tutorial http://indico.cern.ch/conferenceDisplay.py?confId=8814#17 • ASAP User Guide https://lxarda13.cern.ch/docs/index.html