VII Международная конференция по электронным публикациям "EL-Pub2002"

23-27 сентября 2002 г., г. Новосибирск, Академгородок

Pазработка базы данных "Web-ресурсы математического содержания"1

Барахнин В.Б., Федотов А.М.
Институт вычислительных технологий СО РАН, Новосибирск

Аннотация

В работе изложены основные принципы разработки и создания базы данных удаленного доступа (электронной коллекции ссылок), которая включала бы в себя сведения о математических ресурсах сети Интернет и была бы снабжена развитой поисковой системой. В качестве технологической основы электронной коллекции ссылок принята концепция динамической системы формирования документов.

Введение

В настоящее время в сети Интернет имеется немало страниц, содержащих коллекции ссылок на ресурсы математического содержания, однако большинство из них включает в себя информацию только на английском языке. Тем самым, несмотря на постоянный рост числа математических интернет-ресурсов на русском языке (страницы институтов математического профиля электронные версии журналов и т.п.), эти ресурсы оказываются вне поля пользователя сети Интернет (как российского, так и зарубежного).

Кроме того, информация о ресурсе, содержащаяся во многих коллекциях ссылок, ограничивается лишь названием ресурса и его url-адресом, что делает невозможным автоматический поиск ресурсов нужной тематики. Особенно остро эта проблема стоит для российских коллекций ссылок.

О состоянии дел с классификацией и поиском математической информации в российском секторе сети Интернет свидетельствует такой факт: система "Rambler" выдала всего 3 ссылки на "Классификатор математических сущностей" (Mathematics Subject Classification), используемый ведущими мировыми реферативными изданиями: "Mathematics Review" и "Zentralblatt MATH". При этом 2 ссылки были на электронные зеркала зарубежных изданий, в которых опубликована версия классификатора 1991 года (в настоящее время несколько устаревшая). Русскоязычной версии этого классификатора найти не удалось.

Наконец, существующие электронные коллекции содержат ссылки только на главные страницы тех или иных ресурсов, что затрудняет поиск конкретной информации (наиболее нужной пользователю!), которая доступна с главной страницы через гиперссылки.

Таким образом, становится актуальной разработка и создание базы данных удаленного доступа (электронной коллекции ссылок), которая включала бы в себя сведения о математических ресурсах сети Интернет (в том числе и русскоязычных) и была бы снабжена развитой поисковой системой (по классификатору и по ключевым словам). База данных должна включать следующие основные компоненты:

  1. Каталог ресурсов Интернет;
  2. Каталог электронных баз даных;
  3. Метаописание предметной области;
  4. Сведения о пользователях системы.

Прежде чем приступить к описанию основных компонент создаваемой электронной коллекции, мы кратко опишем технологические принципы ее создания. Эти принципы были развиты в работах [1-4].

Объектная модель документа

В качестве технологической основы электронной коллекции ссылок нами принята концепция динамической системы формирования документов. Используемая концепция основана на расширенной объектной модели документа, в которой каждый тип документов, содержащих информацию о конкретных сущностях, представляется в виде набора объектов со своими характеристиками и атрибутами (наподобие того, как это принято в объектных языках программирования), т.е. любая сущность моделируется в виде объекта.

Любой объект при своем создании получает генерируемый системой уникальный идентификатор, который связан с объектом во все время его существования и не меняется при изменении состояния объекта.

Каждый объект имеет состояние и поведение. Состояние объекта - набор значений его атрибутов. Поведение объекта - набор методов (программный код), оперирующих над состояниями объекта. Значение атрибута объекта - это тоже некоторый объект или множество объектов. Состояние и поведение объекта инкапсулированы в объекте; взаимодействие между объектами производится на основе передачи сообщений и выполнении соответствующих методов.

Исходя из объектной модели представления информации, в основе нашей системы лежат "метаданные" - структурированные сведения о документе, представляющие его свойства (атрибуты). На основе метаданных осуществляется поиск документов, вывод результатов поиска, управление ресурсами, взаимодействие с ними. В целом, конструируя технологию описания документов, мы основывались на методике RDF, которая предлагается консорциумом W3C в качестве стандарта для определения и обработки метаданных Web-ресурсов. Специфика RDF состоит в том, что механизмы описания ресурсов не делают никаких предположений относительно специфики предметной области и могут быть удобны для описания и обработки сведений о любой области. Примечательной стороной RDF является то, что он позволяет сделать утверждения не только о ресурсах, но и о самих утверждениях.

Метаописание класса документов дает структурные свойства объектов, составляющих документ. При этом структура объекта определяется как линейная последовательность атрибутов и/или иерархий атрибутов. Наряду со стандартными атрибутами:

Для работы с электронными коллекциями (в частности, коллекциями ссылок), в список атрибутов включаются следующие:

Разработанная технология предоставляет возможность объединить различные типы документов в концептуально единую информационную систему, а также оперативно управлять информацией, организовать гибкий поиск и создать достаточно удобный интерфейс для ее наполнения.

Каталог ресурсов Интернет

При описании ресурса математического содержания можно выделить следующие основные объекты:

Каталог электронных баз даных

При описании электронных баз данных целесообразно указывать объекты, составляющие документы, которые хранятся в базе. Особо следует выделять те объекты, которые могут быть использованы для поиска или навигации в описываемой базе данных, а также область возможных значений таких объектов, как тип, подтип, код(ы) Классификатора математических сущностей.

Метаописание предметной области

Наряду с перечисленными выше метаописаниями данных для рассматриваемой предметной области, данный компонент системы включает следующие составляющие:

Совокупность классификаторов, словарей и тезаурусов будет использована при решении задачи автоматизации поиска и классификации нужных ресурсов. В настоящее время в стадии концептуальной разработки находятся поисковая машина и экспертная система классификации.

Сведения о пользователях системы

Список пользователей системы хранится в виде отдельной таблицы, в которой содержится и информация о правах доступа конкретных пользователей к документам системы. Эти права можно условно разделить на две части: навигация (просмотр однотипных документов в виде различного рода списков, выбор объектов) и модификация (создание, редактирование, удаление документов).

Публичный тип доступа предоставляется любому пользователю Интернет. При этом типе доступа пользователь может просматривать открытые для просмотра документы и осуществлять поиск документов.

Служебный тип доступа предоставляется пользователю при условии обязательной регистрации в системе. Этот тип доступа позволяет пользователю просматривать информацию, закрытую для публичного просмотра, осуществлять поиск документов, а также заносить в базу данных информацию о новых документах, которая, однако, отображается в системе лишь после апробации администратором.

Административный тип доступа предоставляется пользователю при условии обязательной регистрации в системе. Административный тип доступа позволяет редактировать, удалять и создавать новые документы, причем набор этих документов зависит от определяемого супер-администратором системы ранга администратора.

Архитектура системы

Архитектура создаваемой системы определяется тем, что сетевой доступ к базам данных, образующим электронную коллекцию, основан на открытом международном стандарте Z39.50 (ISO23950). Стандарт Z39.50 включает в себя все необходимые компоненты для организации распределенной информационной системы, основанной на жестких (глобально стандартизованных) правилах каталогизации.

Создаваемая информационная система будет размещена на информационном WWW-сервере СО РАН, при этом доступ к основному хранилищу данных будет осуществляться через сервер обработки запросов, который, в свою очередь, связан с сервером Z39.50, а также с серверами метаданных и каталогов, о которых будет сказано ниже.

Информационная система проектируется как централизованно-распределенное хранилище данных. Основной единицей хранения в системе является коллекция. Ядром системы является центральный диспетчер и сервер метаданных, который хранит всю информацию о структуре электронных коллекций, пользователях и представляет пользователю основные интерфейсные модули. Содержательная (фактографическая) информация может храниться на любом сервере в сети Интернет под управлением СУБД. Для "больших объектов" (иллюстрации или таблицы с метрологической информацией) предусмотрена возможность их хранения в файловой системе HTTP- или FTP-сервера. Доступ к фактографической информации осуществляется либо напрямую через TCP/IP-порт при помощи SQL-запросов, либо через сервер Z39.50. В дальнейшем предусматривается возможность хранения информации в файловой системе на основе технологии LDAP. В основу проектирования информационного хранилища легла идеология ODBC, предложенная фирмой Microsoft, с той лишь разницей, что в нашей системе предусмотрена регистрация коллекций или баз данных, а не отдельных таблиц, как это принято в ODBC или JDBC. Сервер баз данных предназначен для регистрации конкретных СУБД, в которых хранятся фактографические данные коллекций. Сервер поддерживает работу драйверов, обеспечивающих SQL запросы, из библиотек DBI и JDBC Apache-Jserv, что обеспечивает работу со следующими СУБД: Oracle, Informix, PostgreSQL, MySQL, SyBase, MSQL, dBase, InterBase, AdabasD, DB2 и MS SQL server и трансляцию SQL запросов для сервера Z39.50.

Для обеспечения сетевого доступа к информационным ресурсам, в том числе распределенным, предполагается создание интерфейсов, поддерживающих ODBC (JDBC) и Z39.50 с максимальным соответствием применяемых схем данных с международно признанными (GILS, CIMI, DigitalCollection и др.).

Важной составной частью системы формирования электронной коллекции ее каталог, нормирующий правила пополнения коллекции и предметную иерархию ее объектов. Включение каталога в систему наиболее удобно производить по протоколу Z39.50 (стандартная схема Zthes). Это обеспечивает совместимость с международным стандартом (ISO2788).

Доступ к создаваемой системе будет открыт по протоколам Z39.50 (из специализированных клиентов) и HTTP.

Заключение

Прототип описываемой системы "Математика на WWW" [5] (содержащий минимальную информацию о ресурсах и не имеющий функции поиска) уже несколько лет функционирует на сервере СО РАН. Работа с ним позволила окончательно сформулировать приведенные выше требования к информационной системе такого рода. В настоящее время осуществляется замена старой системы на новую, уже частично отвечающую этим требованиям.

Литература

1
Шокин Ю.И., Федотов А.М. Информационная система Сибирского Отделения РАН // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Второя Всероссийская научная конференция, Протвино, 26-28 сентября 2000 г.: Сб. докл., Протвино, ГНЦ ИФВЗ, 2000, 6-15, [http://www.protvino.ru/dl2000/reports/pdf/028.pdf]

2
Байков К.С., Коропачинский И.Ю., Шокин Ю.И., Шумный В.К., Ермаков Н.Б., Колчанов Н.А., Федотов А.М. Электронные коллекции и проблемы биоразнообразия // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Второя Всероссийская научная конференция, Протвино, 26-28 сентября 2000 г.: Сб. докл., Протвино, ГНЦ ИФВЗ, 2000, 58-65, [http://www.protvino.ru/dl2000/reports/pdf/40.pdf]

3
Федотов А.М., Шокин Ю.И. Электронная библиотека Сибирского отделения РАН. //Информационное общество, N2, 2000.

4
Шокин Ю.И., Федотов А.М. Библиотека, работающая круглосуточно // ЭКО, N6, 2000.

5
"Математика на WWW" [http://www-sbras.nsc.ru/win/mathpub/math_www.html]

Примечание

1
Работа поддержана молодежным грантом СО РАН 2002 года.



|Электронная библиотека| |Математические публикации| |Информационные ресурсы|
Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[Конференции]
[СО РАН]

© 2002, Сибирское отделение Российской академии наук, Новосибирск
© 2002, Объединенный институт информатики СО РАН, Новосибирск