590 likes | 817 Views
Электронные коллекции и проблемы биоразнообразия. Коропачинский И.Ю., Шокин Ю.И., Шумный В.К., Байков К.С., Ермаков Н.Б., Федотов А.М., Колчанов Н.А. Центральный сибирский ботанический сад СО РАН Институт вычислительных технологий СО РАН Институт цитологии и генетики СО РАН.
E N D
Электронные коллекциии проблемы биоразнообразия Коропачинский И.Ю., Шокин Ю.И., Шумный В.К.,Байков К.С., Ермаков Н.Б., Федотов А.М., Колчанов Н.А. Центральный сибирский ботанический сад СО РАН Институт вычислительных технологий СО РАН Институт цитологии и генетики СО РАН
Электронные коллекции • Доклад посвящен описанию работ, проводимых в Сибирском отделении РАН по программе “Электронная библиотека Сибирского отделения РАН” • в рамках междисциплинарного проекта Отделения 66 “Фундаментальные проблемы биоразнообразия и динамики экосистем” • и проекта РФФИ “Электронный атлас Биоразнообразие животного и растительного мира Сибири”. • Проекты связаны с построением универсальной информационной системы, для поддержки работ в области изучения биоразнообразия и динамики природных экосистем и создания электронных коллекций.
Электронные коллекции • Мировая практика показывает, что для разработки теоретической базы по сохранению биоразнообразия необходимо решение нескольких принципиальных задач: • экспериментальное и теоретическое изучение собственно биоразнообразия природных экосистем как природного явления; • накопление и поддержка получаемой информации о природных объектах в информационных хранилищах и базах данных; • разносторонний информационно-компьютерный анализ этих данных.
Электронные коллекции • В информационном аспекте биоразнообразие характеризуется как иерархическая система понятий, тесно связанная с уровнями организации живой материи в целом. • Основным элементом информации на каждом уровне этой иерархической системы выступает конкретный биологический объект (конкретный организм или его генотип, популяция, таксономическая единица, сообщество, биохора и т.д.), который наблюдается в природе и описывается по определенным “правилам”'. Поэтому любые теоретические или прикладные задачи по сохранению биоразнообразия начинаются с его инвентаризации. • Разнообразные биологические коллекции (гербарии, коллекции животных, документированные описания растительных и животных сообществ, флор, ареалогические данные и т.п.) составляют элементы инвентаризации биоразнообразия.
Электронные коллекции • За многие годы исследований в Институтах биологического профиля СО РАН накоплены огромные объемы данных по природным экосистемам и биоразнообразию растительного и животного мира Сибири. • Коллекции оригинальных данных отражают определенные стороны организации и динамики биоразнообразия не подвержены моральному устареванию. Однако существующие коллекции как правило замкнуты на решении частных проблем и не образуют единую систему знаний о биоразнообразии обширного региона Сибири. • Большая часть этой информации хранится в лабораторных журналах исследователей, практически недоступна для всестороннего информационного анализа, к тому же фактически может быть безвозвратно утеряна в самое ближайшее время, если не будут приняты меры по ее сохранению. Зачастую жизненный путь коллекции заканчивается с “уходом” ее создателя.
Электронные публикации • Электронная публикация биологических данных или биологической коллекции представляет собой новую форму хранения, обмена информацией и накопления знаний о биологическом разнообразии планеты. • Для нее характерны прежде всего динамичность (возможность обновления или актуализации) и глобальный доступ (через компьютерные сети). • На сегодняшний день электронные публикации не преобладают в общем объеме опубликованных информационных ресурсов, но их доля непрерывно возрастает. • В ближайшем будущем электронные публикации должны стать доминирующими в мировом информационном пространстве.
Основные цели • Создание банков данных и электронных коллекций описания биоразнообразия и динамики экосистем; • Создание онтологии биоразнообразия животного и растительно мира и динамики экосистем; • Создание банка по информационному и компьютеномому моделированию биоразнообразия и динамики экосистем (модели, алгоритмы, методы и т.д.); • Создание распределенной информационной системы “Биоразнообразие и динамика экосистем”.
Электронный атлас • В настоящий момент разрабатываютя общие подходы по систематизации и сохранению разнородной ботанической и экологической информации, а так же вопросы интегрирации этой информации в Геоинформационную систему (ГИС) и организации доступа через сеть Internet к массивам данных материалов и коллекций.
Электронный атлас • Основные источники информации -- данные собранные исследователями в течении нескольких десятилетний в биологических институтах отделения, научные журналы, монографии, учебники, материалы, хранящиеся в зоологических музеях и гербариях, а также результаты экспериментальных исследований и полевые журналы экспедиций. • В рамках библиотеки создаются базы данных со средствами поиска по важнейшим группам растений и растительных сообществ. В частности, баз данных Флора Сибири, Редкие виды растений Сибири, Охраняемые природные территории, Определители таксономической принадлежности, Лекарственные растения, Природно очаговые болезни, Генофонд с/х растений и животных и др.
Уровни информации: • Уровень индивидуального живого организма (индивид, генотип индивидуума). • Элементарной базовой информационной единицей о биологическом разнообразии является документальное описание реально существующих биологических объектов и их поведения в природе. Сбор этой информации осуществляется путем дневниковых записей полевых (или лабораторных) наблюдений и измерений, фотографирования, а также и путем составления собственно коллекций растений (гербария) и животных. На данном информационном уровне особую роль играют эталонырастительного и животного мира (типовые экземпляры таксономических единиц, типичные особи для региона, экосистемы и т.д.).
Уровни информации: • Популяционный уровень (ценопопуляция, генетическая популяция, географическая популяция). • В основе данного уровня лежит демографическое понятие - популяция. Существует несколько типов популяций (ценопопуляции, географические популяции, экотопические популяции, генетические популяции и т.д.), однако в информационном плане популяция есть первый уровень обобщенной информации о совокупности биологических индивидуумов, объединенных в группу по тем или иным признакам.
Уровни информации: • Видовой уровень. • Видовой уровень биоразнообразия является основным наряду с экосистемным уровнем для оценки (и прежде всего инвентаризации) биоразнообразия в целом. В центре данного уровня находится понятие вида как важнейшей биологической единицы. Информационные систем (базы данных) всех уровней содержат в качестве уникальной основы списки видов для той или иной территории. Данный уровень имеет тесную связь с двумя предыдущими уровнями (в том числе и непосредственную с каждым уровнем отдельно).
Уровни информации: • Экосистемный уровень - биологических сообществ. • Важнейшим элементом организации данных, например, о растительном покрове является оценка уровней геоботанической информации. Выявляется два таких основных уровня: • Уровень информации о конкретном растительном сообществе. Основной элемент -- полное описание однородной растительности на определенном участке земной поверхности (документ растительности). • Уровень информации о типологических категориях растительности, полученных в результате типизации (классификация) элементов первого уровня (описаний растительности). Основной элемент -- стандартная характеристика синтаксона.
Уровни информации: • На каждом из информационном уровней решается ряд как научных задач, так и прикладных. Среди последних особо выделяются: оценка глобальных изменений биоты (мониторинг), оценка ресурсного потенциала растительности и сохранение биоразнообразия. • Структура электронного атласа разработана таким образом, чтобы максимально охватить все три информационных уровня и отразить особенность потоков информации между ними. • Наука о растительном и животном мире тесно связана с географией, потому что ее основной объект, например, растительное сообщество -- реально существующая часть поверхности Земли. Поэтому разработка электронного атласа на всех информационных уровнях поддерживается связью с геоинформационными системами.
Электронный атлас • В настоящий момент на этих БД отрабатываются основные технологические подходы для создания электронного атласа и создания автоматически актуализируемых баз данных биологических видов на основе системы классификаторов, а также поддержка распределенной работы и кооперации исследователей, находящихся в разных регионах. • Составляющими электронного атласа являются тематические связанные базы данных (БД), содержащие информацию уникальных коллекций и фондовых материалов, литературные данные по биоразнообразию растительного и животного мира Сибири. Основные разделы электронной библиотеки содержат эталонные названия таксонов, информацию о видовом разнообразии и разнообразии сообществ, данные о видах, имеющих ресурсную ценность (ресурсное разнообразие), информацию по природоохранной тематике и интродукции видов.
Электронный атлас • Основой атласа являются уникальные коллекции и массивы данных по биоразнообразию растительного мира Сибири. Так, в гербариях ЦСБС хранится около 310 тыс. образцов высших сосудистых растений, собранных на территории Сибири, в числе которых и уникальные типовые образцы. Имеются коллекции мхов, грибов, лишайников, низших растений. В фитоценотеке хранятся материалы более чем 10 тыс. описаний разнообразных растительных сообществ. Собрание древесных растений ЦСБС насчитывает около 800 видов, гибридов и форм, что в 2.5 раза превышает количество видов дендрофлоры Сибири. Уникальна информация по интродукционным испытаниям более 2000 видов, гибридов и форм, из которых 136 рекомендовано к использованию в Южной Сибири. • Ценные данные содержат полевые дневники исследователей.
Проблемы электронных публикаций • Публикация биологических данных в электронном виде принципиально не отличается от электронной публикации других данных, но имеет некоторые особенности: большой объем текстовой и графической информации, географическая привязка данных к местности, слабая формализация описательных данных, зависимость системы сбора информации от конкретного исследователя и ряд других. • Несмотря на кажущуюся очевидность преимуществ электронный публикации над обычной -- широкое применение электронных публикаций биологических данных имеет некоторые проблемы, которые зависят от ряда причин.
Проблемы электронных публикаций • Прежде всего, традиционно сложившаяся схема исследований, ориентированная на бумажные носители информации, а также профессиональные трудности в освоении вычислительной техники и недостаток технических средств. • Существует пока непреодолимая боязнь потери данных на магнитных носителях, с одной стороны, и боязнь потери контроля над данным, с другой стороны -- Все данные и описания в биологии имеют авторство. • Негативную роль играет недостаточное знание современных информационных технологий и методов представления и анализа информации.
Проблемы электронных публикаций • Необходимо: • Осознание биологами новых возможностей представления данных, доступа к данным и обмена данными, возникающих при их опубликовании в электронном виде: цветные иллюстрации, многовходовый доступ, развитая поисковая система, оформление перекрестных ссылок, географическая привязка данных с использованием геоинформационных систем, обеспечение связи с другими информационными ресурсами по данной тематике и др. • Осознание авторами крупных проектов, таких как коллективные "Флоры" и "Фауны", принципиально новых возможностей создания коллективных монографий в режиме удаленного доступа.
Проблемы электронных публикаций • Необходимо: • Представление о том, что по завершении работы готовый продукт автоматически становится валидной публикацией, которую можно включать в список опубликованных работ и делать на нее ссылки. • Разработка новых, более эффективных программных средств организации и хранения разнородной биологической информации, удобного и быстрого доступа к ней (дружественный интерфейс), автоматизация поиска и анализа информации, создание экспертных систем, помогающих исправлять ошибки и генерировать новую информацию по имеющимся данным.
Проблемы электронных публикаций • Необходимо: • Администрирование баз данных с оформлением прав доступа к информации по схеме пользователь (только чтение), автор (изменение и дополнение информации), администратор (изменение структуры данных), системный администратор (создание и изменение таблиц), защита данных от несанкционированного доступа, документирование работы каждого пользователя. • Привлечение к совместной работе широкого круга специалистов из других городов и стран.
Структура системы • Информационная система спроектирована как централизованно-распределенное хранилище данных. Основной единицей хранения в системе является коллекция. Ядром системы является центральный диспетчер и сервер метаданных, который хранит всю информацию о структуре электронных коллекций, пользователях и представляет пользователю основные интерфейсные модули. • Содержательная (фактографическая) информация может хранится на любом сервере в сети Интернет под управлением СУБД. Для ``больших объектов'' (иллюстрации или таблицы с метрологической информацией предусмотрена возможнось их хранения в файловой системе HTTP или FTP сервера. Доступ к фактографической информации осуществляется либо напрямую через TCP/IP порт при помощи SQL запросов, либо через сервер Z39.50. В дальнейшем предусматривается возможность хранения информации в файловой системе на основе технологии LDAP.
Основной принцип построения информационной системы заключается в организации доступа к информации через WWW сервис Internet. Хранилище данных СУБД Web Сервер Сервер данных Internet/Intranet Сервер метаданных Web клиент Web клиент Web клиент Web клиент
Информационная система СО РАН Хранилище данных (центральный диспетчер) Сервер обработки запросов SQL для доверительных БД Сервер Z39.50 Серверы метаданных Серверы каталогов HTTP(FTP)-SQL шлюз БД БД SQL-БД SQL-БД ODBC Локальные БД HTTP БД
Стуктура ядра системы Центральный диспетчер Сервер мета данных Сервер баз данных База данных пользователей Библиотека исполняемых модулей Библиотека интерфейсных модулей
Структура системы • Публичный доступ предоставляется любому пользователю Интернет. При этом типе доступа пользователь имеет возможность просматривать документы, открытых для просмотра коллекций, осуществлять простой или квалифицированный поиск документов в отдельных коллекциях. • Служебный доступ предоставляется пользователю при условии обязательной регистрации в системе (базе данных пользователей) и подразделяется на два уровня: простой и эксперт. • Простой - дополнительно позволяет пользователю создавать (путем выбора) и просматривать таблицы с метрологическими данными, экспортировать их на свою машину в виде CSV или DBF файлов, а также посматривать документы, закрытые для публичного просмотра, и запускать программы анализа данных из библиотеки исполняемых модулей. Эксперт - позволяет дополнительно организовывать выборки из нескольких коллекций.
Структура системы • Административный доступ - предоставляется пользователю при условии обязательной регистрации в базе данных пользователей и регистрации в системе машины с которой он работает. Данный тип доступа подразделяется на уровня: администратор системы, администратор группы коллекций, администратор коллекции и простой. Простой доступ - позволяет пользователю создавать новые документы и редактировать ранее созданные им же документы. Администратор коллекции дополнительно может менять метаописание и структуру своих коллекций и документов в своих коллекциях, а также права простых пользователей на отдельные документы и свои коллекции. Администратор группы коллекций дополнительно может завести в системе новую коллекцию, а также права пользователей нижних уровней на документы и свои коллекции. Администратор системы дополнительно может зарегистрировать новую СУБД или сменить ее метаописание.
Технологические решения • Для заполнения информационных полей в атласе реализована связь с вспомогательными таблицами, часть из которых интегрированна в общую информационную среду Электронной библиотеки Сибирского отделения РАН: • Авторы (научные сотрудники) • Организации и институты • Эталонные списки видов • Словари основных понятий • и т.д.
Технологические решения • В основу технологии создания электронных коллекций биологических документов положена Интернет-технология и разрабатываемая система Динамического формирования документов. • В основу создания электронных коллекций положена концепция динамических документов, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками или описаниями, как его использовать, и атрибутами (наподобие тому, как это принято в объектных языках программирования).
Технологические решения • При этом выделяются три основных типа объектов, характеризующих документ: • объект-заголовок (HEADER, FOOTER), описывающий внешний вид документа, при выдаче его пользователю; • информационный-объект, содержащий фактическую информацию (текст, список, таблица, графика, измерения и т.п.) вместе с ее описанием; • навигационный-объект, описывающий гипертекстовые связи между отдельными документами или объектами. • Каждый документ это набор (список) объетов, отметим, что в качестве объекта может выступать документ или ссылка на документ (объект).
Технологические решения • Информационные объекты подразделяются на простые объекты (объекты, которые не имеют связей с другими коллекциями документов или с другими документами) и сложные объекты (объекты, которые такие связи имеют). • Создание любой электронной коллекции основывается на информационной структуре данной коллекции документов. Поэтому каждый информационный объект должен в своем описании нести "полную характеристику" как его "использовать". • Для занесения в электронную коллекцию фактографической информации, последняя подлежит паспортизации - формальному описанию структуры объектов, составляющих документы.
Динамическая система формирования документов Объектная модель документа Поиск информации Документ - Объект Список объектов: Объект -> type meta echo link Типы объектов: простые сложные Простой объект: строка текст таблица Сложный объект: объект документ ссылка Формирование документа SGML HTML PS(PDF) TeX PTF