VIII Международная конференция по электронным публикациям "EL-Pub2003"

8-10 октября 2003 г., г. Новосибирск, Академгородок

Разработка информационной модели и структуры метаданных для атласа "Атмосферные аэрозоли Сибири"

Молородов Ю.И. Федотов А.М..
Институт вычислительных технологий СО РАН, Новосибирск

Куценогий К.П. Куценогий П.К.
Институт химической кинетики и горения СО РАН, Новосибирск

Аннотация

В работе описаны принципы создания информационных моделей для разработки информационных систем в области естествознания. Разработаны и реализованы подходы к интеграции разнородных информационных массивов из выбранной предметной области. Работа направлена на обеспечение максимально полной формализации и связывания информации о различных параметрах атмосферных аэрозолях, что актуально для исследований в экологии. Разработаны структуры данных, механизмы поддержки объектов главного словаря системы; поддержки нестандартных типов данных, механизмов создания иерархических коллекций. Создан удобный для пользователей интерфейс. Разработанная система предоставляет пользователю способ формировать электронные коллекции аэрозолей, создавать и оперировать объектами главного словаря системы, осуществлять контроль доступа к информации через разнообразные режимы доступа к данным, обеспечивая доступ через Интернет.

Введение

К настоящему времени международным сообществом накоплен огромный и разнообразный экспериментальный материал о пространственно-временной изменчивости атмосферных аэрозолей (АА) как локального, так и регионального и глобального масштабов [5-6]. Из-за различного приборного инструментария используемого для получения экспериментальных данных об АА и методик их последующей обработки, эти данные трудно сопоставимы друг с другом. В ряде случаев данные, вводимые разными авторами, оказываются несовместимыми между собой из-за различий в используемой ими терминологии, что затрудняет получение цельной картины поведения АА.

Современные информационные технологии и совместные усилия как профессионалов, занимающихся изучением аэрозолей, так и специалистов в области информационных технологий, позволят повысить эффективность использования всего объема экспериментальных данных. В этой связи особенно актуальным становится вопрос правильного хранения информации, ее обработки и приведение к некоторому стандарту. Эти вопросы могут быть решены, если доступ к информационным ресурсам организовать через Интернет с помощью специализированных информационных систем (ИС) с гибкими связями между данными разных пользователей [1]. Использование технологии распределённых вычислений, основанной на использовании метаданных, позволяет решить эту проблему.

Наиболее устойчивыми к росту объемов хранимой информации оказались системы, оперирующие строго структурированными данными, например, каталоги библиотек. Но даже в таких системах в границах одной предметной области может сложиться ситуация, когда данные, вводимые разными авторами, оказываются несовместимыми между собой из-за различий в используемой ими терминологии. Вследствие чего между этими данными трудно устанавливать связи. На текущий момент эта проблема наиболее полно решена в системах, оперирующих библиографической информацией [2]. Для них существует несколько стандартов представления библиографических записей, например, российский коммуникативный формат RUSMARC или любой формат из группы формат MARC. Наличие таких стандартов снимает большое количество проблем связанных с систематизацией, поиском, обработкой информации. Фактически такой подход представляет собой создание словаря объектов, которые будут использоваться для задания структуры хранимой информации.

Общее описание атласа "Атмосферные Аэрозоли Сибири"

Атмосферные аэрозоли (АА) играют решающую роль во многих атмосферных процессах (облако - и осадкообразование, радиационный теплообмен, видимость). Они оказывают существенное влияние на качество окружающей среды, климат, химию и физику атмосферы.

Свойство атмосферных аэрозолей определяются спектром размеров, концентрацией, химическим составом и структурой частиц. Диапазон размеров АА охватывает 5 порядков величины, концентраций - более 10 порядков. Чрезвычайно сложен химический состав АА. Огромна пространственно-временная изменчивость характеристик АА.

К началу 90-х годов по результатам проекта "Арктическая дымка" получены оценки о значительном загрязнении Арктического бассейна техногенными выбросами из крупных промышленных центров бывшего СССР. Значительная часть АА техногенной природы образуется в Сибири. Это связано с тем, что Сибирь имеет огромную границу с Арктикой. В то же время в Сибири разнообразные природно-климатические зоны. Здесь интенсивно развивается промышленность и сельское хозяйство. Поэтому Сибирь является источником различных типов АА. Начиная с 1991 года, на территории Сибири начался комплексный проект "Аэрозоли Сибири", в котором объединились усилия нескольких институтов Новосибирского научного центра.

В настоящее время не существует единого метода измерения всей совокупности характеристик АА. Это создает большие трудности при сопоставлении результатов огромного экспериментального материала, доступного из публикаций в различных изданиях и системе Интернет.

Эта проблема может быть решена, если объединить усилия специалистов занимающимися аэрозолями, имеющих многолетний опыт по созданию методик и аппаратуры для измерения характеристик АА и специалистов в области современных информационных технологий.

Для этого необходимо собрать и проанализировать опубликованную в различных изданиях и в Интернете разнообразную информацию о характеристиках АА по единой методике, в основе которой лежат принципы решения некорректных задач.

Хотя первые идеи о создании информационной системы мировой базы данных по атмосферным аэрозолям появились 20 лет назад [7], до сих пор отсутствует единообразие в представлении материалов по физическим и химическим характеристикам атмосферного аэрозоля и в научных публикациях, и в результатах текущих исследований. Поэтому в процессе создания глобальной базы данных по атмосферным аэрозолям необходимо решить несколько задач. Во-первых, необходимо разработать и внедрить стандарты представления информации в числовом виде, для того чтобы добиться их определенной универсальности, с точки зрения дальнейшего использования этой информации, в том числе для климатических моделей. В этой связи, роль разрабатываемого интерфейса для ввода данных в базу аннотаторами печатного текста не сводится лишь к роли "переводчика" с профессионального языка специалистов по аэрозолям на язык математиков и программистов. К этой функции необходимо добавить функцию самонастраивающейся системы, которая бы сама дополняла бы структуру данных по мере работы над заполнением базы данных информацией.

По мере использования и наполнения базы данных в ее математический инструментарий будет необходимо включить, кроме процедур обработки данных в целях их дальнейшего представления потребителю, еще и программы, приводящие данные к единому представлению. В настоящее время наиболее перспективным является подход, который используется при решении обратных задач для аппаратной функции при вычислениях дифференциальных характеристик атмосферного аэрозоля по натурным измерениям ряда их интегральных характеристик. Целесообразность применения этого подхода объясняется тем фактом, что подход является достаточно общим и всегда базируется на поиске аналитических выражений, которые при применении в математических моделях приводили бы к наибольшему соответствию с наблюдаемыми параметрами. Распространение данного подхода на работу с различными данными возможно с помощью простой замены термина "наблюдаемые параметры" термином "параметры, имеющиеся в распоряжении", то есть в наполнении базы данных.

Для этого необходимо разработать информационные модели, структуру метаданных и обобщенный подход для формирования и заполнения файлов входных данных, включая их унификацию и связи. Это позволит привести к единому стандарту разнородные входные данные и, на основе современных информационных технологий, создать глобальную базу данных по АА.

Основная функция создаваемой Информационной системы "Атмосферные Аэрозоли Сибири" (в дальнейшем, просто Система) - это обеспечение решения поставленной задачи не только регионального масштаба, но и создание хороших перспектив решения проблем, стоящих перед всем международным сообществом. Система возьмет на себя львиную долю работы, повысит интерактивность Атласа и ее информативность. Последние два качества обеспечивает применение Интернет-технологий.

Электронные коллекции

В основу создания разрабатываемых электронных коллекций положена концепция динамической системы формирования документов. Используемая концепция основана на расширенной объектной модели документа, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками и атрибутами (подобно принятому в объектных языках программирования), т.е. любая сущность реального мира моделируется в виде объекта.

Любой объект при своем создании получает генерируемый системой уникальный идентификатор, который связан с объектом во все время его существования и не меняется при изменении состояния объекта. Каждый объект имеет состояние и поведение. Состояние объекта - набор значений его атрибутов. Поведение объекта - набор методов (программный код), оперирующих над состояниями объекта. Значение атрибута объекта - это тоже некоторый объект или множество объектов. Состояние и поведение объекта инкапсулированы в объекте. Взаимодействие между объектами производится на основе передачи сообщений и выполнении соответствующих методов.

Специфика применения объектно-ориентированного подхода для организации и управления информационными ресурсами потребовала уточненного толкования классических концепций и некоторого их расширения. Это определяется потребностями долговременного хранения объектов во внешней памяти, ассоциативного доступа к объектам, обеспечения согласованного состояния в условиях множественного доступа и тому подобных возможностей, свойственных базам данных. Исходя из объектной модели представления информации в основе нашей системы лежат "метаданные" - это структурированные сведения о ресурсе, представляющие его свойства (атрибуты). На основе метаданных осуществляется поиск ресурсов, вывод результатов поиска, управление ресурсами, взаимодействие с ними. В целом, конструируя технологию описания ресурсов, мы основывались на методике RDF, которая предлагается консорциумом W3C в качестве стандарта для определения и обработки метаданных Web-ресурсов. Специфика RDF состоит в том, что механизмы описания ресурсов, не делают никаких предположений относительно специфики предметной области и могут быть удобны для описания и обработки сведений о любой области. Примечательной стороной RDF является то, что он позволяет сделать утверждения не только о ресурсах, но и о самих утверждениях.

Разработанная технология предоставляет возможность объединить различные информационные ресурсы в концептуально одну информационную среду, а также оперативно управлять и актуализировать информацию, хранящуюся в разнородных и распределенных по сети базах данных, организовать гибкий поиск, что самое главное создать достаточно удобный интерфейс для ее наполнения.

Информационная система состоит из объектов - элементарных единиц документов, из документов - информационных единиц. Множество документов, содержащих фактографическую информацию, имеющих одинаковую физическую структуру и логическое, информативное назначение образуют коллекции. Коллекции характеризуются своими описаниямм и описаниями структуры документов, из которых она состоит. Основной единицей хранения данных в коллекции является документ, являющийся основной единицей хранения данных в коллекции. Он определяется своим описанием и описанием структуры объектов, из которых он состоит. Объект определяется типом и описанием свойств и является элементарной единицей документа.

Все коллекции объединены единым словарем объектов. Это необходимо для приведения всех имеющихся терминов-объектов к существующим международным стандартам. Словарь характеризуется метаописанием своих объектов; категориями, по которым распределены объекты; типами данных, используемыми в объектах. В Атласе создана Страница управления объектами словаря с объектами словаря и металписаниями. Словарь содержит 38 объектов, отражающих параметры атмосферных аэрозолей. Среди них: Относительная доля неорганического и органического углерода, счетные концентрации, светорассеяние, географические широта и долгота, высота над уровнем моря, массы концентраций анионов и катионов, кислотность, суммарные счетная и массовая концентрации и др. При необходимости можно создать новый объект в словаре.

Значения этих параметров находятся в соответствующих коллекциях Data, Papers.

Для удобства пользования системой был использован модульно - функциональный принцип. Были выделены подсистемы управления главным словарем, метаописаниями коллекций, разграничения доступа и др. В свою очередь подсистема управления главным словарем системы включает в себя средства изменения метаописания объектов и поддержки их иерархии. Подсистема управления метаинформацией включает в себя средства изменения структуры коллекций, документов и полей документов, создаваемых на основе объектов главного словаря.

Система метаданных

В основу создания информационной системы положено понятие метаданных. Это формализованное описание коллекции, документа или объекта, структурированные сведения об электронном ресурсе, представляющие его свойства или атрибуты. Метаданные используются для каталогизации документов, поиска, вывода результатов поиска, для установки связей между отдельными документами, для формирования тематических словарей. В набор элементов, использующихся для создания метаданных входят стандартные наборы MARC21, Dublin Core и др.

Связи между элементами данных

Система становится пригодной к практическому использованию, только если в ней предусмотрена возможность установления связей между различными элементами данных: коллекциями, документами и объектами. Связывание данных бывает статическое, когда связываемые объекты определяются заранее и на достаточно длительный срок и динамическое, когда не требуется заранее описывать все возможные виды связей. Наиболее важным примером динамического связывания данных следует считать реляционные базы данных. С другой стороны, в реляционной модели нет встроенных методов проверки корректности логической структуры связей, однако на базе реляционной СУБД можно построить систему, в которой будет встроен такой механизм.

Содержательная часть коллекции состоит из последовательности информационных объектов, которые и определяют суть документа.

Вся информация о связи документов (только для связи данного типа) была вынесена из документов. Она хранится в отдельной таблице базы данных. В качестве родительского документа выступает документ с идентификатором word_id коллекции dict_id, а в качестве подчиненного документа - документ с идентификатором doc_id в коллекции table_id. Данный подход позволяет выстраивать достаточно сложные схемы документов и организовывать навигацию по связанным документам

Административная часть

Особое место при работе с информационной системой занимает разграничение доступа пользователей. Среди них можно выделить следующие группы:

Работа с сайтом начинается с авторизации доступа на странице http://web.ict.nsc.ru/aerosol.

На главной странице администратора представлено следующее меню:

Заключение

В работе описаны принципы создания информационных моделей для разработки информационных систем в области естествознания. Разработаны и реализованы подходы к интеграции разнородных информационных массивов из выбранной предметной области. Работа направлена на обеспечение максимально полной формализации и связывания информации о различных параметрах атмосферных аэрозолях, что актуально для исследований в экологии. Разработаны структуры данных, механизмы поддержки объектов главного словаря системы; поддержка нестандартных типов данных, механизмов создания иерархических коллекций, создан удобный для пользователей интерфейс. Разработанная система предоставляет пользователю способ формировать электронные коллекции аэрозолей, создавать и оперировать объектами главного словаря системы, осуществлять контроль доступа к информации через разнообразные режимы доступа к данным, обеспечивая доступ через Интернет. Выделение во всей системе единой таблицы связей с определением главного и подчиненного документов позволяет использовать коллекции системы как словари и строить на их базе классификацию по любым признакам. Связывание любых двух документов обеспечивается специальным типом объекта на основе поддержки нестандартных типов данных (например, PHOTO, LINK). Разработан механизм создания иерархических коллекций.

К настоящему моменту система успешно функционирует в режиме удаленного доступа. На ее основе развивается "Электронный атлас <Атмосферные аэрозоли Сибири>".

Литература

  1. Шокин Ю.И., Федотов А.М. Информационная система Сибирского Отделения РАН // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Вторая Всероссийская научная конференция, Протвино, 26-28 сентября 2000 г.: Сб. докл., Протвино, ГНЦ ИФВЗ, 2000, С. 6-15, ISBN 5-88738-029-2.
  2. Федотов А.М., Шокин Ю.И. Электронная библиотека Сибирского отделения РАН //Информационное общество, N 2, 2000.
  3. Молородов Ю.И., Шокин Ю.И, Федотов А.М. Использование Internet/Intranet технологий при построении информационных систем. //Северо-Западный Интернет-Форум. V Всероссийская объединенная конференция "Технологии информационного общества - Интернет и современное общество" (IST/IMS-2002) (25-28 ноября 20 02 г., Санкт-Петербург). C.~112-115
  4. Столяров С.В. Обработка статистической информации в информационной системе "Биоразнообразие животного и растительного мира Сибири".//Труды Международной конференции молодых ученых по математическому моделированию и информационным технологиям, 29-31 окт. 2002 г., Новосибирск, Академгородок
  5. http://www.ict.nsc.ru/ws/YM2002/4753/
  6. Химия в интересах устойчивого развития. Специальный выпуск. Под ред.Куценогого К.П., 2002, т.10, №5, с.519-705.
  7. Оптика атмосферы и океана. Тематические выпуски "Аэрозоли Сибири". Под ред. Панченко М.В. 1994, т.7, №8, с. 1011-1182; 1996, т.9, №6, с. 701-892; 1997, т.10, №6, с. 571-699; 1998, т.11, №6, с. 553-668; 1999, т.12, №6, с. 479-570; 2000, т.13, №6-7, с. 97-706; 2001, т.14, №6-7, с. 473-640; 2002, т.15, №5-7, с. 405-558.
  8. Deepak A., Koziana T.V. The world data library (WADL) concept. In: Aerosol and Their Climatic Effects. Ed. by Gerber H.E. and Deepak A. 1984, A. Deepak Publishing. A Division of Science and Technology Corporation, Hampton, Virginia, USA, R105-116.

Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск