ПУБЛИКАЦИЯ БИБЛИОГРАФИЧЕСКИХ ДАННЫХ В ИНТЕРНЕТ

К.П.Васюшкин, М.С.Самсонов, А.Н.Филиппов (*), А.В.Веремьев, С.П.Голенский, Д.В.Деграве (**)

(*) Научная музыкальная библиотека Санкт-Петербургской государственной консерватории, (**) Институт высокопроизводительных вычислений и баз данных, Санкт-Петербург

(*) Тел.: (812) 311-32-23, факс: (812) 311-63-89, e-mail: root@colibry.nit.spb.su,
(**) тел.: (812) 251-00-38, факс: (812) 251-83-14, e-mail: cawa@csa.ru, spg@fn.csa.ru, degrave@fn.csa.ru

В докладе рассматриваются следующие вопросы:

  1. Особенности библиографической информации и работы с ней.
  2. Выбор стандарта представления библиографических данных.
  3. Представления и хранение наборов данных в стандарте USMARC.
  4. Технология доступа к БД по Internet с применением CGI-скриптов.
  5. Перспективы применения систем на основе стандарта MARC.

Характерной особенностью библиографической информации являются переменная структура записей внутри одной БД. У издания может быть переменный набор атрибутов, однозначно описывающий это издание. К таким атрибутам относятся авторы, соавторы, ключевые слова и др. Библиографическая запись - это запись переменного размера. Поиск по БД необходимо проводить по любому набору полей с различными логическими отношениями.

В качестве стандарта представления и обмена библиографической информацией разработаны стандарты семейства MARC. К форматам типа MARC относятся разработки на базе форматов, первоначально созданных в Библиотеке Конгресса США. В настоящее время существуют различные диалекты MARC, отличающиеся по назначению, стране адаптации, типу данных, для представления которых они разработаны.

Библиографическая USMARC-запись содержит три главных компонента: лидер (Leader), указатель (Directory), поля записей. Лидер - элемент данных фиксированной длины (24 символа), с которого всегда начинается запись и содержит ее общие характеристики. Указатели - серии цифр по 12 символов, содержащие метку и длину каждого поля в записи. Он определяет набор данных библиографической записи. Данные в библиографической USMARC-записи организованы в поля, которые определяются трехсимвольной цифровой меткой, хранящейся в указателе записи.

Предлагается следующий способ хранения и индексации данных в формате MARC, инвариантной к используемой СУБД. Основная база данных имеет следующие поля: дескриптор записи (8 байт) и поле данных (поле переменной длины). Дескриптор записи уникален и присваивается в момент ее создания. Поле данных содержит непосредственно библиографическую USMARC-запись. Индексы по полям USMARC-записи оформляются в отдельные таблицы, состоящие из поля указывающего на дескриптор записи в основной базе (8 байт) и поля, содержащего хэш-код, вычисляемого по данным поля USMARC-записи (6 байт).

Реализован оригинальный алгоритм свертки текстового поля в 6-ти байтовое уникальное значение.

Таким образом, база данных может оснащаться неограниченным числом индексов, что позволяет организовать эффективный поиск по любому набору полей с различными логическими отношениями.

В совместном проекте ИВВиБД и НМК СПбГК предлагается следующий подход к созданию электронного каталога библиотеки с доступом к нему по сети Internet: данные накапливаются и обрабатываются автоматизированными библиотечными информационными системами, которые способны работать с записями в стандарте MARC. Затем записи, оформленные в соответствии со стандартом MARC, передаются в БД под управлением СУБД, имеющей доступ через сеть Internet. Для доступа к ресурсам электронной библиотеки со стороны пользователя будет необходим только HTTP-браузер (такой как Netscape Navigator или Internet Explorer). С помощью браузера пользователь посылает запрос на получение информации, хранящейся в электронной библиотеке. Посланный запрос приходит к HTTP-серверу, который через общий интерфейс шлюзов (Common Gateway Interface) передает его специально написанной программе. Эта программа взаимодействует с базой данных электронной библиотеки и обрабатывает запрос пользователя, после чего результат возвращается HTTP-серверу, который и направляет его пользователю, пославшему запрос. Клиентская часть, выполняемая на Web-браузере позволяет в интерактивном режиме сформировать и уточнить запрос к базе данных и представить полученные данные в удобной для пользователя форме. Информация, представленная в БД, может быть принята другими системами из сети Internet через массив данных в стандарте USMARC.

Такой подход позволяет отделить средства накопления данных от средств публикации в Internet, сократить расходы на конвертирование баз данных и их хранение. Любая система, способная работать с данными стандарта USMARC, может импортировать и экспортировать библиографические данные. Создается предпосылка объединения информации, накопленной различными библиотеками, в единое информационное пространство на одном суперсервере.