380 likes | 602 Views
Российские ресурсы астрономических данных и их интеграция в структуру Международной виртуальной обсерватории. Д.А.Ковалева, О.Б.Длужневская Институт астрономии РАН. Содержание. Российская виртуальная обсерватория в структуре МВО Российские ресурсы астрономических данных Общая характеристика
E N D
Российские ресурсы астрономических данных и их интеграция в структуру Международной виртуальной обсерватории Д.А.Ковалева, О.Б.Длужневская Институт астрономии РАН RCDL'2011, Воронеж, 19-22.10.11
Содержание Российская виртуальная обсерватория в структуре МВО Российские ресурсы астрономических данных Общая характеристика Тематика Интеграция российских ресурсов в структуру МВО Регистрация в реестре ВАО Избранные российские астрономические ресурсы Оцифровка архивов Заключение RCDL'2011, Воронеж, 19-22.10.11
Виртуальная обсерватория • Повышение эффективности использования астрономических данных: • Расширение числа пользователей путем предоставления свободного доступа к данным в виртуальной среде; • Инструменты ВО берут на себя трудоемкую, отнимающую много времени черновую работу. • Как новые, так и ранее полученные данные RCDL'2011, Воронеж, 19-22.10.11
Виртуальная обсерватория включает в себя астрономические данные (в виде архивов космических и наземных телескопов, каталогов, баз данных); средства поиска, доступа к данным и их обработки; научные приложения результатов работы с данными. RCDL'2011, Воронеж, 19-22.10.11
www.ivoa.net RCDL'2011, Воронеж, 19-22.10.11
Российская виртуальная обсерватория (РВО) В декабре 2001 года НСА РАН внес Проект РВО в числе важнейшихмеждународныхпроектов РАН. Координаторами Проекта являютсяИНАСАН, САО РАН, ГАИШ и ИПИ РАН. Участники Проекта – рабочие группы ряда астрономических учреждений. Российская виртуальная обсерватория является открытым проектом, и любое сотрудничество с другими учреждениями приветствуется RCDL'2011, Воронеж, 19-22.10.11
Рабочая группа Данные РВОна базе Центра астрономических данных ИНАСАН • Обеспечить российских астрономов удобным доступом к мировым астрономическим ресурсам. • Зеркалирование популярных зарубежных ресурсов данных. • Объединить российские астрономические данные и интегрировать их в международную виртуальную обсерваторию. • Создание списка основных российских астрономических Интернет ресурсов. Включение их в реестры ВО. • Оцифровка архивов астронегативов («стеклянных библиотек») RCDL'2011, Воронеж, 19-22.10.11
ADS (Astrophysics Data System) – крупнейшая астрономическая электронная библиотека, объединяющая 4 библиографические базы данных (астрономия и науки о планетах, физика и геофизика, космические инструменты, астрон. препринты). Около 3.6 млн. записей. VizieR – наиболее полная база данных астрономических каталогов и таблиц данных. В настоящее время содержит около 7000 каталогов, также включает в себя каталоги, доступные по FTP, и словарь обозначений небесных объектов. VALD – Венская база данных атомных линий, объем данных 6 Gb. Оригинал в Австрии; зеркала: США, Швеция, Германия Зеркала RCDL'2011, Воронеж, 19-22.10.11
Ресурсы в МВО • «Ресурс» в ВО – общий термин: элемент ВО, предоставленный пользователю провайдером. • Примеры: • коллекция данных или метаданных • приложение • сервис доступа • информация об учреждении • … RCDL'2011, Воронеж, 19-22.10.11
Российские ресурсы астрономических данных • Ресурсы, содержащие оригинальные астрономические данные • Созданные российскими исследователями или с их участием • Размещенные на сайтах российских астрономических учреждений • Начальные характеристики: количество http://www.inasan.ru/eng/rvo/rus_res.html RCDL'2011, Воронеж, 19-22.10.11
РРАД: 2002-2011 RCDL'2011, Воронеж, 19-22.10.11
РРАД: динамика в зависимости от тематики RCDL'2011, Воронеж, 19-22.10.11
РРАД: обновляемость в зависимости от тематики RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровни внутренней организации • Набор разнородных данных, часто, но не обязательно объединенных общей тематикой. • Таблица данных (каталог). • База данных с выраженной внутренней структурой, но без поискового интерфейса. • База данных с поисковым интерфейсом, часто с возможностью дополнительных сервисов. RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 1. Наборы данных • Чаще всего: на личных веб страницах сотрудников учреждений, • хотя можно встретить и на страницах отделов и, в некоторых случаях, на уровне веб страниц учреждения. • Как правило: результаты наблюдений и(или) исследований сотрудника или группы сотрудников в определенной области или в определенный промежуток времени, без систематизации. • Редко обновляются. • Относятся к относительно небольшому количеству объектов или явлений (до нескольких десятков), и не являются объемными. • В количественном отношении - около 15% списка. • Редко представляют результаты мирового уровня, имеющие явную научную ценность для астрономического сообщества. RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 2. Каталоги Таблицы в свободном формате • Каталоги, подготовленные в формате CDS и нередко (хотя не всегда!) имеющие номер CDS (уже в системе ВО) . • Четкая одноуровневая организация • ftp-доступ (другие виды доступа могут быть возможны, но не всегда). • Количество объектов: от небольшого (несколько десятков) до весьма значительного (миллионы). • Занимаемый объем: в общем, пропорционален числу объектов. • В структуре обсуждаемого списка РРАД: до 30%. RCDL'2011, Воронеж, 19-22.10.11
РРАД: уровень 3 и 4. Базы данных 3. Без поискового интерфейса 4. С поисковым интерфейсом Чаще большое количество объектов Чаще современные и(или) обновляемые Более 25% списка Каталог пульсаров, ФТИ им. Иоффе http://www.ioffe.ru/astro1/psr-catalog/Catalog.php • Чаще небольшое количество объектов (до сотен) • Созданы раньше, обновляются реже • До 15% списка Ежедневные наблюдения Солнца на РАТАН-600, САО РАН http://www.sai.msu.ru/neb/nss/index.htm Служба естественных спутников планет, ГАИШ МГУhttp://www.sai.msu.ru/neb/nss/index.htm Система астрометрических баз данных, ГАО РАН (Пулково) http://www.puldb.ru/index.php RCDL'2011, Воронеж, 19-22.10.11
РРАД: еще варианты ресурсов • Астрономические ресурсы, подлежащие развертыванию на компьютере пользователя (как базы данных с интегрированными сервисами, так и сервисные пакеты с интегрированными базами данных), • Около 5% Пакет AMPLE (Adaptable Ephemeris for Minor Planets), ИПА РАН http://www.ipa.nw.ru/PAGE/DEPFUND/LSBSS/rusample.htm • Он-лайн сервисы: информация о текущем состоянии объекта или явления, и(или) прогнозы (Солнце, солнечно-земные связи, космические лучи): частая обновляемость (от 10 минут до суток). В некоторых случаях эти сервисы комбинированы с базами данных с развитым интерфейсом, но существуют и самостоятельно • Около 5% Прогноз солнечной активности, ИЗМИРАН http://www.izmiran.ru/services/saf/ RCDL'2011, Воронеж, 19-22.10.11
Проблема (временной?) недоступности ресурсов • Поддержка списка 150-200 независимых РАД: • Около 5% недоступны (при условии регулярных обновлений списка!) • Случайные сбои • Обновления сайтов • Изменение структуры и интернет-адресов РАД • Проблема курирования • Прекращение поддержки РАД • Проблема сохранности данных RCDL'2011, Воронеж, 19-22.10.11
Интеграция ресурсов в систему МВО • Программа-минимум: пользователь ВО и/или его приложения обнаруживают информацию о ресурсе. • Программа-максимум: пользователь ВО и/или его приложения обнаруживают данные ресурса и используют их. RCDL'2011, Воронеж, 19-22.10.11
Интеграция РРАД в систему МВО • Регистрация РРАД в реестре ВО • Размещение в CDS российских каталогов (интеграция в систему доступа к каталогам VizieR) • Создание ВО-совместимых интегрирующих ресурсов • Оцифровка и создание баз данных астронегативов RCDL'2011, Воронеж, 19-22.10.11
Поиск ресурсов в МВО: Реестры ресурсов (Registries) • Реестры МВО: содержат структурированные описания ресурсов и позволяют Пользователям и их приложениям находить коллекции данных и метаданных и сервисы на уровне Ресурсов. • Реестры: Publishing/Search • RegistryInterface (компоненты search/harvesting): базируется на стандартном WebServiceDescriptionLanguage + harvesting определяется OAI-PMH протоколом RCDL'2011, Воронеж, 19-22.10.11
Интеграция ресурсов в МВО: Реестры ресурсов (Registries) • ResourceMetadata — метаданные описания ресурсов (два уровня регистрации, базируется на стандарте DublinCore ): • «поверхностный» - информирование пользователя ВО о наличии ресурса и его содержании в целом (Identifier, Name, Curation, Content,…) • Более глубокое «включение» ресурса: данные о содержании ресурса, специфические для этого ResourceType • Примерно от 20 до 40 параметров для каждого ресурса • Пока около 40 РРАД зарегистрировано вручную Реестр NVO/VAO (США) http://nvo.ncsa.uiuc.edu/stsci/nvoregistration.html + зарегистрированы автоматически (каталоги CDS) в реестрах МВО: ? 50 - 70 ? RCDL'2011, Воронеж, 19-22.10.11
Избранные РРАД мирового уровня • Объединенный каталог переменных звезд (ИНАСАН + ГАИШ МГУ) • CATS (CAtalogue Support System) (САО РАН) • Каталог рассеянных скоплений ГАИШ (ГАИШ МГУ) • База данных о двойных звездах (БДБ) (Обсерватория Безансона, Франция, + ИНАСАН) RCDL'2011, Воронеж, 19-22.10.11
Объединенный каталог переменных звезд http://www.sai.msu.su/gcvs/ • Содержит данные обо всех известных переменных звездах (свыше 70 тысяч объектов), постоянно пополняется. • Является наиболее полной и авторитетной базой данных для астрономических объектов этого типа. • Поддержка различных видов доступа, возможность поиска по параметрам. • Один из наиболее востребованных специализированных астрономических ресурсов. • Обработка астрофотографий → открытие новых переменных звезд. RCDL'2011, Воронеж, 19-22.10.11
Web Site: http://www.skyarchive.org RCDL'2011, Воронеж, 19-22.10.11
CATS – CAtalogue Support Systemhttp://www.sao.ru/cats/ • Система поддержки астрофизических каталогов (радио данные). • Все крупные (>1000 записей) каталоги радиоисточников (в том числе каталоги наблюдений на РАТАН-600). • Программы для работы с каталогами. • > 1 млн записей из > 400 каталогов. • Поддерживается несколько способов доступа, включая веб-интерфейс. • Ежедневно около 1500 обращений к системе (по информации авторов). RCDL'2011, Воронеж, 19-22.10.11
Каталог рассеянных скоплений ГАИШhttp://ocl.sai.msu.ru/ • Крупнейший каталог новых рассеянных скоплений (около 170). • Создан с помощью средств ВО и в согласии со стандартами ВО. • Представлены средства для получения новых научных результатов из данных каталога (+ данные ВО) в режиме on-line. RCDL'2011, Воронеж, 19-22.10.11
База данных о двойных звездах (БДБ, наследует Besancon Database of Binaries)ранее http://bdb.obs-besancon.fr/сейчас в ИНАСАН: тестовый режим • База данных о двойных и кратных звездах всех наблюдательных типов. • Интеграция и обеспечение доступа к данным обо всех типах двойных звезд. • Каталоги двойных звезд различных типов включаются в БДБ, с базами данных устанавливаются связи. • Еще одно средство интеграции в том числе РРАД о двойных звездах в систему МВО. RCDL'2011, Воронеж, 19-22.10.11
Итоги • Цель ВО: повышение эффективности использования астрономических данных. • Рабочая группа Данные РВО поддерживает список российских ресурсов астрономических данных (около 150 ресурсов): http://www.inasan.ru/eng/rvo/rus_res.html • Поддерживаются различные направления интеграции РРАД в систему МВО: • регистрация ресурсов в ВО-реестре; • представление каталогов в CDS; • создание ВО-совместимых интегрирующих ресурсов; • оцифровка архивов астронегативов. • IVOA: http://www.ivoa.net • RVO: http://www.inasan.ru/rus/rvo RCDL'2011, Воронеж, 19-22.10.11
Спасибо! RCDL'2011, Воронеж, 19-22.10.11
Разработчики стандартов объединены в Рабочих группах Альянса • Задача групп: выработка стандартов для описания астрономических данных, объектов, процессов, программной архитектуры • Пример стандартов: формат данных (VOTable), описания метаданных ресурсов (Resource Metadata), модель данных для одномерных спектров (Spectrum Data Model) , язык запросов к данным (ADQL), протоколы доступа к спектрам и изображениям (SIAP, SSAP), и пр. • Документы и стандарты IVOA: http://www.ivoa.net/Documents/ RCDL'2011, Воронеж, 19-22.10.11
Создавая ВО: направления работы • Разработка стандартов и протоколов, их международное согласование. • Создание и предоставление ресурсов данных. • Создание «соединяющих» компонентов: портал, реестр, виртуальное хранилище и пр. • Создание механизмов для научной обработки данных. • Установка и сопровождение реестров ресурсов и систем поддержки пользователей. • Альянс МВО • Национальные узлы ВО RCDL'2011, Воронеж, 19-22.10.11
Финансирование • МВО: $25 миллионовна первые 10 лет • Subaru (один из крупнейших наземных телескопов, 8.3 м): $377 миллионов(наблюдательная ночь на таком телескопе стоит около $50 тысяч) • Galileo (14-летняя миссия к Юпитеру, закончилась 21 сентября 2003): $1.5 миллиарда • HST (крупнейший космический телескоп): $7.5 миллиардов на период 1989-2010 RCDL'2011, Воронеж, 19-22.10.11
Changing funding scenario (IVOA has no funds of its own) RCDL'2011, Воронеж, 19-22.10.11
Выбор языка программирования • Выбор языка программирования Python, СУБД PostgreSQL (веб сервер Apache, ОС UNIX) для модернизации БДБ и реализации веб-интерфейса и обслуживающих программ обусловлен их кросс-платформенностью, высокой степенью функциональности и наличием серьезного задела, а также тем, что указанные средства являются свободно распространяемыми. Несвободное программное обеспечение не рассматривалось, так как его сложно протестировать в полном объеме до покупки, оно гораздо менее распространено и отлажено, чем его свободные аналоги, а также оно может содержать программные “закладки” или уязвимости в безопасности, обнаружение которых затруднено ввиду отсутствия доступа к исходным кодам. Основными требованиями при выборе программного обеспечения являлись: • 1. Расширяемость (возможность добавления новой функциональности без существенных изменений в уже написанном коде). • 2. Переносимость (возможность запускать приложение на различных программных и аппаратных платформах без изменения исходного кода, что позволяет незаметно для пользователей переносить код на более мощные серверы, по мере возникновения такой необходимости). • 3. Масштабируемость (возможность увеличивать производительность приложения за счет увеличения числа серверов, на котором оно выполняется). • 4. Устойчивость к сбоям (гарантия от потерь важных данных в случае сбоев аппаратных и программных компонентов). • SQLite является достаточно простой системой СУБД, поддерживающей, тем не менее, транзакции и подзапросы SQL, что делает ее идеальной платформой для отладки кода. PostgreSQL является достаточно мощной и надежной системой, также поддерживающей практически полностью язык запросов SQL, что послужило причиной выбора ее в качестве основной рабочей СУБД проекта. Распространенная программная платформа PHP была отвергнута на основании плохой совместимости между ее различными версиями и наличия большого количества открытых уязвимостей безопасности. Язык Python менее требователен к ресурсам, чем Perl. При этом для него существует множество библиотек, облегчающих разработку web-приложений. Синтаксис Python достаточно прост и позволяет писать очень хорошо структурированные программы. Наиболее интересной особенностью Python является наличие особой среды разработки Nagare (nagare.org), позволяющей резко упростить и ускорить создание веб-приложений. Дополнительным преимуществом Python является возможность использования объектно-ориентированных библиотек для доступа к базам данных. RCDL'2011, Воронеж, 19-22.10.11
the ConeSearch is performed using Q3C with PostgreSQL.SDSS $85 mln • Large Synoptic Survey Telescope (LSST) in Cerro Pachón, Chile 2019 30 Тб за ночь $450 млн 8.4 м • Galaxy Zoo project • VAO instead of NVO: $27,5 mln RCDL'2011, Воронеж, 19-22.10.11