Электронные публикации биологических данных

Коропачинский И.Ю., Шокин Ю.И., Байков К.С., Ермаков Н.Б., Федотов А.М., Хорев А.Г.

Центральный сибирский ботанический сад СО РАН
Институт вычислительных технологий СО РАН

Содержание


Введение


Не секрет, что информация является стратегическим ресурсом, таким же как и традиционные материальные и энергетические ресурсы. Информационные ресурсы, переведенные в электронную форму, приобретают новое качество, которое обеспечивает им более широкое распространение и эффективное использование.

Современные информационные технологии позволили приступить к широкомасштабному переводу накопленной человечеством информации в электронную форму и созданию принципиально новых видов информационных ресурсов каким являются электронные коллекции и библиотеки. Организация доступа к электронным коллекциям стала одной из важнейших задач информационного обслуживания науки и образования. Создание электронных коллекций и библиотек представляет собой качественно иной уровень производства, хранения, организации и распространения самой разнообразной информации (фактографические и картографические данные, текст, графика, звук, видео и др.).

Биологи в процессе своей научной деятельности собирают гигантский фактический материал, характеризующий различные стороны биоразнообразия животного и растительного мира. В настоящее время этот оригинальный материал находится в виде бумажных архивов и не представляет организованную информационную среду, которая является основой для современных научных исследований. Между научными подразделениями как в России, так и за рубежом отсутствуют надежные и быстродействующие каналы обмена информацией, что является существенным препятствием на пути развития интеграционных проектов и других форм научного взаимодействия. Многие важные результаты биологических исследований публикуются в региональных и местных научных изданиях, которые малодоступны для широкого круга исследователей.

Электронная публикация биологической коллекции данных представляет собой новую форму хранения и обмена информацией. Для нее характерны прежде всего динамичность (возможность обновления) и глобальный доступ (через компьютерные сети). На сегодняшний день электронные публикации не преобладают в общем объеме опубликованных информационных ресурсов, но их доля стремительно растет. При этом возрастает и качество таких публикаций.

Изначально электронная публикация появилась как электронный вариант бумажной публикации. В последние годы она приобрела самостоятельное значение. Более того, часть научных проектов, например, Flora of North America, в процессе их выполнения была переориентирована с бумажной формы опубликования на электронную. В электронной форме планируется публиковать и новую "Флору России" (Гельтман, 1997). Во всяком случае, электронная форма опубликования признается уже сейчас как приоритетная по сравнению с типографской. Отсюда становится очевидным приобретение электронной формой опубликования самостоятельного и первоочередного значения. Интеллектуальные и технические ресурсы в ближайшие годы будут направлены на развитие новых возможностей и повышение качества электронной публикации данных.

В последние годы, преимущественно за рубежом, были предприняты попытки издания биологических баз данных на CD-ROM дисках по разным тематикам (например, "North American Birds"). Как правило, они имеют общеобразовательный либо прикладной характер. Имеются и отечественные разработки в этой области ("Мир жуков", "Деревья Германии", "Бобовые России" и др.).

С другой стороны, все большее количество ученых-биологов используют электронные базы данных для оптимизации работы, систематизации предметной области, быстрого и качественного оформления результатов своей деятельности. Необходимо создание и внедрение системы, способной быстро публиковать научные данные в Интернет. В России разработку такой системы выполнила фирма FLORIN/DataX, возглавляемая ботаниками, сотрудниками ГБС РАН и МГУ (Серебряный М.М., Савов К.П., Майоров С. и др.). Распространению FLORIN (FLORistic INvestigations) в России препятствует высокая цена на программные продукты, входящие в ее состав. С помощью этой системы созданы электронные публикации по типовым образцам Гербария МГУ, мхи бывшего СССР, палинология рода Centaurea и др.

Важной проблемой выступает организация разнородной информации в удобном для конечного пользователя виде, что требует новых исследований и разработок интерфейсов для корректного отражения предметной области. Другой задачей обслуживания электронных коллекций и библиотек является стандартизация данных (прежде всего соблюдение требований интероперабельности), разработка технологических решений и юридических аспектов использования информации, включая вопросы интеллектуальной собственности. Отличительной чертой электронной библиотеки является возможность параллельного использования различных поисковых механизмов и средств доступа к гетерогенным банкам электронных данных. Так как в качестве ответа на запрос к электронной библиотеке пользователю может быть представлен далеко не единственный электронный документ (или его фрагмент) и совсем не обязательно в текстовой форме, необходимы такие информационные системы, которые бы обеспечивали эффективный комплексный поиск и анализ информации в коллекциях гетерогенных объектов.

Проблемы биологических электронных публикаций


Публикация биологических данных в электронном виде принципиально не отличается от электронной публикации других данных, но имеет некоторые особенности: большой объем текстовой и графической информации, географическая привязка данных к местности, слабая формализация описательных данных, зависимость системы сбора информации от конкретного исследователя и ряд других.

Несмотря на кажущуюся очевидность преимуществ электронный публикации над обычной широкое применение электронных публикаций биологических данных имеет некоторые проблемы, которые зависят от ряда причин. Прежде всего, традиционно сложившаяся схема исследований, ориентированная на бумажные носители информации, а также профессиональные трудности в освоении вычислительной техники и недостаток технических средств. Существует пока непреодоленная боязнь потери данных на магнитных носителях, с одной стороны, и боязнь потери контроля над данным, с другой стороны. Негативную роль играет недостаточное знание современных информационных технологий и методов анализа информации.

Для более широкого применения электронной формы публикации биологических данных необходимо:

  1. Осознание биологами новых возможностей представления данных, возникающих при их опубликовании в электронном виде: цветные иллюстрации, многовходовый доступ, развитая поисковая система, оформление перекрестных ссылок, географическая привязка данных с использованием геоинформационных систем, обеспечение связи с другими информационными ресурсами по данной тематике и др.

  2. Осознание биологами новых возможностей доступа к данным и обмена данными.

  3. Осознание авторами крупных проектов, таких как коллективные "Флоры" и "Фауны", принципиально новых возможностей создания коллективных монографий в режиме удаленного доступа.

  4. Представление о том, что по завершении работы готовый продукт автоматически становится валидной публикацией, которую можно включать в список опубликованных работ и делать на нее ссылки.

  5. Разработка новых, более эффективных программных средств организации и хранения разнородной биологической информации, удобного и быстрого доступа к ней (дружественный интерфейс), автоматизация поиска и анализа информации, создание экспертных систем, помогающих исправлять ошибки и генерировать новую информацию по имеющимся данным.

  6. Администрирование баз данных с оформлением прав доступа к информации по схеме пользователь (только чтение), автор (изменение и дополнение информации), администратор базы (изменение структуры данных), защита данных от несанкционированного доступа, документирование работы каждого автора.

  7. Привлечение к совместной работе широкого круга специалистов из других городов и стран.

Проект "Биоразнообразие растительного мира Сибири"


В начале 1998 года в Сибирском отделении РАН была сформирована программа развития информационных ресурсов отделения под общим названием "Электронная библиотека Сибирского отделения РАН". В рамках данной программы разработан проект создания Электронного атласа "Биоразнообразие растительного и животного мира Сибири".

В рамках данного проекта Центральным сибирским ботаническим садом СО РАН и Институтом вычислительных технологий СО РАН развернуты работы по созданию электронной библиотеки Электронный атлас "Биоразнообразие растительного мира Сибири".

Электронный атлас призван обеспечить систематизацию и организацию широкого доступа к разнообразной информации по биоразнообразию растительного мира Сибири на основе современных информационных технологий. Предполагается разработать общие подходы по систематизации и сохранению разнородной ботанической и экологической информации, интегрировать эту информацию в Геоинформационную систему (ГИС), сделать доступными через сеть Internet массивы данных материалов и коллекций.

Основные источники информации -- данные собранные исследователями в течении нескольких десятилетний в биологических институтах отделения, научные журналы, монографии, учебники, материалы, хранящиеся в зоологических музеях и гербариях, а также результаты экспериментальных исследований и полевые журналы экспедиций.

В рамках библиотеки создаются базы данных со средствами поиска по важнейшим группам растений и растительных сообществ. В частности, баз данных "Редкие виды растений Сибири", "Охраняемые природные территории", "Определители таксономической принадлежности", "Лекарственные растения", "Природно очаговые болезни", "Генофонд с/х растений и животных" и т.д. В качестве примера, уже созданной в 1998 году базы данных, можно указать Информационную систему "Редкие и нуждающиеся в охране растительные сообщества Сибири" (База данных "Зеленая книга Сибири").

В настоящий момент на этой БД отрабатываются основные технологические подходы для создания электронного атласа и создание автоматически актуализируемых баз данных биологических видов и на основе системы классификаторов, а также поддержка распределенной работы и кооперации исследователей, находящихся в разных регионах.

Составляющими электронного атласа являются тематические связанные базы данных (БД), содержащие информацию уникальных коллекций и фондовых материалов ЦСБС и литературные данные по биоразнообразию растительного мира Сибири. Основные разделы электронной библиотеки содержат эталонные названия таксонов, информацию о видовом разнообразии и разнообразии сообществ, данные о видах, имеющих ресурсную ценность (ресурсное разнообразие), информацию по природоохранной тематике и интродукции видов.

В ЦСБС в настоящее время сохраняются и поддерживаются уникальные коллекции и массивы данных по биоразнообразию растительного мира Сибири. Так, в гербариях ЦСБС хранится около 310 тыс. образцов высших сосудистых растений, собранных на территории Сибири, в числе которых и уникальные типовые образцы. Имеются коллекции мхов, грибов, лишайников, низших растений. В фитоценотеке хранятся материалы более чем 10 тыс. описаний разнообразных растительных сообществ. Собрание древесных растений ЦСБС насчитывает около 800 видов, гибридов и форм, что в 2.5 раза превышает количество видов дендрофлоры Сибири. Уникальна информация по интродукционным испытаниям более 2000 видов, гибридов и форм, из которых 136 рекомендовано к использованию в Южной Сибири. Ценные данные содержат полевые дневники исследователей.

С увеличением объема коллекций становится все более трудоемкой задача извлечения требуемой информации. Биологические коллекции традиционно организуются по таксономическому принципу и в гербарии, например, достаточно просто найти образцы, принадлежащие к тому или иному таксону. Поиск же в коллекции образцов, собранных в пределах какого-либо региона, или же в каком либо конкретном местообитании, крайне затруднителен и требует применения информационно поисковой системы.

Геоинформационое обеспечение


Значительная часть информации представленной в электронном атласе имеет пространственную привязку. Необходимость интеграции, анализа и управления разнородной информацией, а также представление ее в виде тематических карт, схем, диаграмм и других документов делает привлекательным использование геоинформационных систем. Основной целью создания геоинформационной системы атласа является построение информационной системы обеспечивающей выявление пространственных закономерностей поведения объектов биоразнообразия.

В рамках создаваемого геоинформационоого обеспечения решаются следующие задачи:

Основой геоинформационной системы электронного атласа является картографическая база данных, которая состоит из цифровой картографической основы и различных цифровых карт, отражающих как тематическую нагрузку электронного атласа, так пространственно-временную характеристики исследуемых объектов. Картографическая основа состоит из цифровых топографических карт различной детальности в известных картографических проекциях и системах координат.

Для используемой цифровой картографической основы можно выделить три уровня масштабных рядов, которые соответствуют традиционному пониманию картографирования тематических объектов при проведении ботанических, биологических и др. исследований: крупный масштаб (1:25000-1:100000), средний масштаб (1:100000-1:500000) и мелкий масштаб (1:500000 и мельче).

Для каждого уровня определяются типы тематических объектов и дополнительная информация, которая будет гекодирована для данного масштабного ряда. Для крупного масштаба выполняется привязка точечной документированной информации (гербарные этикетки, геоботанические описания и др. точечные измерения). Для среднего масштаба выполняется привязка точечных измерений, а также генерализация актуальных и потенциальных ситуаций биоразнообразия (геоботанические карты среднего масштаба, карты экосистем, эколого-динамические карты ситуаций и т.п.). Для мелкого масштаба выполняется привязка обзорных карты ареалов таксонов, обзорных карты растительности и т.д.

Динамическая система публикаций


В настоящее время представление информации в виде статических HTML-страниц теряет актуальность, поскольку любое небольшое ее изменение или обновление зачастую влечет за собой весьма энергоёмкую процедуру исправления множества файлов, а создание системы поиска упирается в организации индексных файлов, размер которых может быть сравним с размером основной информации.

В связи этим в основу создания электронных коллекций в нашей работе положена концепция динамических документов, в которой каждый тип документов, содержащих информацию о конкретных биологических фактах, представляется в виде набора объектов со своей характеристикой (наподобие тому, как это принято в объектных языках программирования). При этом выделяются три основных типа объектов, характеризующих документ: 1) объект-заголовок, описывающий внешний вид документа, при выдаче его пользователю; 2) информационный-объект, содержащий фактическую информацию (текст, графика, измерения и т.п.); 3) навигационный-объект, описывающий гипертекстовые связи между отдельными документами.

Очевидно, что введение первого и третьего типов объектов, связано с WWW технологией представления информации и их описание основывается на таких принципах создания HTML документов, как стиль документа (на основе CSS - Cascading Style Sheets или XML - Extensible Markup Language).

При этом информационные объекты, можно разделить на простые объекты (объекты, которые не имеют связей с другими коллекциями документов или с другими документами) и сложные объекты (объекты, которые такие связи имеют).

Создание любой электронной коллекции основывается на информационной структуре данной коллекции документов. Поэтому каждый информационный объект должен в своем описании нести "полную характеристику" как его "использовать". Для занесения в электронную коллекцию фактографической информации, последняя подлежит паспортизации - формальному описанию структуры объектов, составляющих документы, (см. например, унифицированный паспорт описания сообществ в базе данных, содержащих информацию о редких и нуждающихся в охране растительных сообществ Сибири).

Разработанная технология позволяет оперативно управлять и актуализировать информацию, хранящуюся в разнородных и распределенных по сети базах данных, организовать гибкий поиск, что самое главное создать достаточно удобный интерфейс для ее наполнения.



Данные работы выполняются в том числе в рамках проектов "Электронная библиотека Сибирского отделения РАН" и РФФИ 99-07-90222 "Биоразнообразие животного и растительного мира Сибири"



 

|ГИС в СО РАН| |Новости| |Информационный бюллетень| |Проекты| |Отчеты| |Ресурсы| |Документы| |Поиск|


Ваши коментарии
Обратная связь
[SBRAS]
SBRAS Home Page
Головная страница
СО РАН


© 1998 - 1999, Сибирское отделение Российской академии наук, Новосибирск
    Дата последней модификации: Thursday, 30-Sep-1999 13:00:05 NOVST