К.П.Васюшкин, М.С.Самсонов, А.Н.Филиппов (*), А.В.Веремьев, С.П.Голенский, Д.В.Деграве (**)
(*) Научная музыкальная библиотека Санкт-Петербургской государственной консерватории, (**) Институт высокопроизводительных вычислений и баз данных, Санкт-Петербург
(*) Тел.: (812) 311-32-23, факс: (812) 311-63-89,
e-mail: root@colibry.nit.spb.su,
(**) тел.: (812) 251-00-38, факс: (812) 251-83-14,
e-mail: cawa@csa.ru,
spg@fn.csa.ru,
degrave@fn.csa.ru
В докладе рассматриваются следующие вопросы:
Характерной особенностью библиографической информации являются переменная структура записей внутри одной БД. У издания может быть переменный набор атрибутов, однозначно описывающий это издание. К таким атрибутам относятся авторы, соавторы, ключевые слова и др. Библиографическая запись - это запись переменного размера. Поиск по БД необходимо проводить по любому набору полей с различными логическими отношениями.
В качестве стандарта представления и обмена библиографической информацией разработаны стандарты семейства MARC. К форматам типа MARC относятся разработки на базе форматов, первоначально созданных в Библиотеке Конгресса США. В настоящее время существуют различные диалекты MARC, отличающиеся по назначению, стране адаптации, типу данных, для представления которых они разработаны.
Библиографическая USMARC-запись содержит три главных компонента: лидер (Leader), указатель (Directory), поля записей. Лидер - элемент данных фиксированной длины (24 символа), с которого всегда начинается запись и содержит ее общие характеристики. Указатели - серии цифр по 12 символов, содержащие метку и длину каждого поля в записи. Он определяет набор данных библиографической записи. Данные в библиографической USMARC-записи организованы в поля, которые определяются трехсимвольной цифровой меткой, хранящейся в указателе записи.
Предлагается следующий способ хранения и индексации данных в формате MARC, инвариантной к используемой СУБД. Основная база данных имеет следующие поля: дескриптор записи (8 байт) и поле данных (поле переменной длины). Дескриптор записи уникален и присваивается в момент ее создания. Поле данных содержит непосредственно библиографическую USMARC-запись. Индексы по полям USMARC-записи оформляются в отдельные таблицы, состоящие из поля указывающего на дескриптор записи в основной базе (8 байт) и поля, содержащего хэш-код, вычисляемого по данным поля USMARC-записи (6 байт).
Реализован оригинальный алгоритм свертки текстового поля в 6-ти байтовое уникальное значение.
Таким образом, база данных может оснащаться неограниченным числом индексов, что позволяет организовать эффективный поиск по любому набору полей с различными логическими отношениями.
В совместном проекте ИВВиБД и НМК СПбГК предлагается следующий подход к созданию электронного каталога библиотеки с доступом к нему по сети Internet: данные накапливаются и обрабатываются автоматизированными библиотечными информационными системами, которые способны работать с записями в стандарте MARC. Затем записи, оформленные в соответствии со стандартом MARC, передаются в БД под управлением СУБД, имеющей доступ через сеть Internet. Для доступа к ресурсам электронной библиотеки со стороны пользователя будет необходим только HTTP-браузер (такой как Netscape Navigator или Internet Explorer). С помощью браузера пользователь посылает запрос на получение информации, хранящейся в электронной библиотеке. Посланный запрос приходит к HTTP-серверу, который через общий интерфейс шлюзов (Common Gateway Interface) передает его специально написанной программе. Эта программа взаимодействует с базой данных электронной библиотеки и обрабатывает запрос пользователя, после чего результат возвращается HTTP-серверу, который и направляет его пользователю, пославшему запрос. Клиентская часть, выполняемая на Web-браузере позволяет в интерактивном режиме сформировать и уточнить запрос к базе данных и представить полученные данные в удобной для пользователя форме. Информация, представленная в БД, может быть принята другими системами из сети Internet через массив данных в стандарте USMARC.
Такой подход позволяет отделить средства накопления данных от средств публикации в Internet, сократить расходы на конвертирование баз данных и их хранение. Любая система, способная работать с данными стандарта USMARC, может импортировать и экспортировать библиографические данные. Создается предпосылка объединения информации, накопленной различными библиотеками, в единое информационное пространство на одном суперсервере.