О технологии создания электронных коллекций

А.Федотов, Е.Брюхов, Е.Тихонова
Институт вычислительных технологий СО РАН

Наиболее важной работой, связанной с созданием Информационной среды Сибирского отделения РАН, создаваемой в рамках проекта Сеть Интернет Новосибирского Научного Центра, является создание и развитие собственных информационных ресурсов, аккумулирующих гигантский научный потенциал Отделения, управление этими ресурсами и распространение своих достижений в виде электронных коллекций и атласов.

В докладе пойдет речь о технологии создания электронных коллекций документов в рамках целевой программы Отделения "Электронная библиотека Сибирского отделения РАН".

Содержание

Введение

В основу создания электронных коллекций в наших работах положена концепция динамических документов, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками и атрибутами (наподобие тому, как это принято в объектных языках программирования). Разработанная технология позволяет оперативно управлять и актуализировать информацию, хранящуюся в разнородных и распределенных по сети базах данных, организовать гибкий поиск, что самое главное создать достаточно удобный интерфейс для ее наполнения.

При этом выделяются два основных класса объектов, характеризующих документ: 1) специальные объекты, например, объект-заголовок, описывающий внешний вид документа, при выдаче его пользователю или навигационный, описывающий гипертекстовые связи между отдельными документами; 2) информационные объекты, содержащий фактическую информацию (текст, графика, измерения и т.п.). Первый класс объектов относится к характеристике коллекции в целом, второй класс - специфицируется относительно стуктуры документа, составляющего коллекциию.

Очевидно, что введение первого и третьего типов объектов, связано с WWW технологией представления информации. Содержательная часть информационных объектов, как правило хранится в базе данных однако возможно их хранение и в файловой системе. Объекты подразделяются на простые: объекты, которые не имеют связей с другими коллекциями документов или с другими документами или объектами и сложные объекты (объекты, которые такие связи имеют). Использование связей позволяет создавать коллекции с иерархической структурой, (например, виды:полуляции:особи).

Система имеет трехуровневую структуру: документ:метаинформация:коллекция. Функционирование электронной коллекции основывается на информационной структуре данной коллекции документов - метаинформации, поэтому каждый информационный объект должен в своем метаописании нести "полную характеристику" как его "использовать". Характеристики внешней структуры документа, описываюся в стандарте SGML (XML), что позволяет представлять выходную информацию в любом из используемых в настоящий момент форматах электронных публикаций.

По данной технологии в настоящий момент создаются и уже функционируют коллекции электронного атласа "Биоразнообразие животного и растительного мира Сибири", коллекции полнотекствых документов (см. электронную версию журнала "Вычислительные технологии"), публичная доска объявлений СО РАН, информационная система "Геоинформационные технологии в СО РАН", и др.

Объектная модель электронной коллекции

Электронная коллекция в нашем понимании - это набор документов, которые содержат фактографическую информацию имеющую одинаковое формальное описание стуктуры - "паспорт". Работа с любой электронной коллекцией разделяется да две части: работа с описаниями коллекции и документов (работа с метаинформацией) и работа с содержательной частью коллекции (работа с фактографической информацией). Дадим словесную характеристику основных терминов:

Коллекция характеризуется своим описанием и описанием структуры, входящих в нее документов.

Документ, составляющий коллекцию, также характеризуется своим описанием и описанием стртруктур объеков его составляющих.

Объект определяется описанием типа и описанием его свойств и функций.

Метаинформация и интерфейсные программы хранятся на специализированном сервере метаданных, а фактографическая информация может хранится на любом сервере в сети Интернет под управлениием СУБД, обрабатывающей SQL запросы через TCP/IP порт (например, Oracle, Informix, PostgreSQL, MySQL, SyBase, MSQL, dBase, InterBase, AdabasD, DB2 или MS SQL server). Тип используемой СУБД может повлиять только на некоторые специфицеские характеристики объектов, например, разные СУБД имеют разные ограничения на размер неструктурированных текстовых полей (максимальный размер которых колеблется от 255 символов до 4 Мb и более).

В системе описания документов могут использоваться простые (элементарные) объекты и сложные объекты: составленные из других объектов или являющееся ссылками на объект или документ.

Как уже отмечалось объект характеризуется своим типом, свойствами и функциями.

Объекты: типы, свойства и функции

В системе в настоящий момент реализована работа со следующими типами объектов:

Тип STRING

Структурированный (формализованный) текст, объем текста до 255 символов. Предназначен для представления текстовой (символьной) информации, в которых последовательность слов или групп символов строго определена, т.е. имеет формализованное описание. К такой информации относятся различного рода заголовки, названия или адреса, напимер, фамилия имя отчество, адрес ресурса в Internet или названия семейств, родов или видов, классификационные признаки и т.д.

Объект типа STRING обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).

Свойства объекта типа STRING, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства).

Тип TEXT

Неструктурированный (не формализованный) текст, объем текста определяется типом используемой СУБД, напимер, для СУБД MySQL объем данной записи может варивоваться от 255 символов до 4 Mb. Ограничение на объем информации, представленной данным, задется в метаописании коллекции, по умолчанию (если СУБД пользователя это поддерживает) размер огрангичен 65 Kb.

Предназначен для представления произвальной текстовой (символьной) информации. К такой информации относятся различного рода описания и другие тексты.

Объект типа TEXT обладает функцией включения в поиск (контекстный).

Свойства объекта типа TEXT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства), анологичны свойствам объекта типа STRING.

Тип DATE

Предназначен для представления даты.

Объект типа DATE обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).

Свойства объекта типа DATE, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства).

Тип SELECT

Информационная часть данного объекта, представляет собой тескстовую (символьную) информацию, выбранную из заранее занесеннесенной в некоторый список, который является свойством этого объекта. В процессе работы этот список может изменятся, но его изменение не влияет на ранее занесенные в коллекцию документы. Допускается множественный выбор из списка.

Объект типа SELECT обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).

Свойства объекта типа SELECT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства), видом и содедержанием вспомогательного списка, свойства вывода анологичны свойствам объекта типа STRING.

Тип MULTSELECT

Информационная часть данного объекта, представляет собой тескстовую (символьную) информацию, выбранную из заранее занесеннесенной в некоторую таблицу, которая является вспомогательной таблицой для данной коллекции в целом (описание таблицы может быть включено в свойства этого объекта). В процессе работы содержание таблицы может изменятся, но это изменение не влияет на ранее занесенные в коллекцию документы. Допускается множественный выбор из таблицы.

Объект типа MULTSELECT обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).

Свойства объекта типа MULTSELECT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства), видом и содедержанием вспомогательной таблицы, свойства вывода анологичны свойствам объекта типа STRING.

Тип INT

Предназначет для представления чисел с фиксированной точкой.

Объект типа INT обладает функцией включения в поиск (контекстный или специальный).

Свойства объекта типа INT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства) и местоположением десятичной точки.


Ваши комментарии
Обратная связь
[SBRAS]
[Головная страница]
[СО РАН]

© 2000, Сибирское отделение Российской академии наук, Новосибирск