О технологии создания электронных коллекций |
Наиболее важной работой, связанной с созданием Информационной среды Сибирского отделения РАН,
создаваемой в рамках проекта
Сеть Интернет Новосибирского Научного Центра,
является создание и развитие собственных информационных ресурсов, аккумулирующих гигантский научный потенциал Отделения, управление
этими ресурсами и распространение своих достижений в виде электронных коллекций и атласов.
В докладе пойдет речь о технологии создания электронных коллекций документов в рамках целевой
программы Отделения "Электронная библиотека Сибирского отделения РАН".
В основу создания электронных коллекций в наших работах положена концепция динамических документов, в которой каждый тип документов, содержащих информацию о конкретных фактах, представляется в виде набора объектов со своими характеристиками и атрибутами (наподобие тому, как это принято в объектных языках программирования). Разработанная технология позволяет оперативно управлять и актуализировать информацию, хранящуюся в разнородных и распределенных по сети базах данных, организовать гибкий поиск, что самое главное создать достаточно удобный интерфейс для ее наполнения.
При этом выделяются два основных класса объектов, характеризующих документ: 1) специальные объекты, например, объект-заголовок, описывающий внешний вид документа, при выдаче его пользователю или навигационный, описывающий гипертекстовые связи между отдельными документами; 2) информационные объекты, содержащий фактическую информацию (текст, графика, измерения и т.п.). Первый класс объектов относится к характеристике коллекции в целом, второй класс - специфицируется относительно стуктуры документа, составляющего коллекциию.
Очевидно, что введение первого и третьего типов объектов, связано с WWW технологией представления информации. Содержательная часть информационных объектов, как правило хранится в базе данных однако возможно их хранение и в файловой системе. Объекты подразделяются на простые: объекты, которые не имеют связей с другими коллекциями документов или с другими документами или объектами и сложные объекты (объекты, которые такие связи имеют). Использование связей позволяет создавать коллекции с иерархической структурой, (например, виды:полуляции:особи).
Система имеет трехуровневую структуру: документ:метаинформация:коллекция. Функционирование электронной коллекции основывается на информационной структуре данной коллекции документов - метаинформации, поэтому каждый информационный объект должен в своем метаописании нести "полную характеристику" как его "использовать". Характеристики внешней структуры документа, описываюся в стандарте SGML (XML), что позволяет представлять выходную информацию в любом из используемых в настоящий момент форматах электронных публикаций.
По данной технологии в настоящий момент создаются и уже функционируют коллекции электронного атласа "Биоразнообразие животного и растительного мира Сибири", коллекции полнотекствых документов (см. электронную версию журнала "Вычислительные технологии"), публичная доска объявлений СО РАН, информационная система "Геоинформационные технологии в СО РАН", и др.
Объектная модель электронной коллекции
Электронная коллекция в нашем понимании - это набор документов, которые содержат фактографическую информацию имеющую одинаковое формальное описание стуктуры - "паспорт". Работа с любой электронной коллекцией разделяется да две части: работа с описаниями коллекции и документов (работа с метаинформацией) и работа с содержательной частью коллекции (работа с фактографической информацией). Дадим словесную характеристику основных терминов:
Коллекция характеризуется своим описанием и описанием структуры, входящих в нее документов.
Документ, составляющий коллекцию, также характеризуется своим описанием и описанием стртруктур объеков его составляющих.
Объект определяется описанием типа и описанием его свойств и функций.
Метаинформация и интерфейсные программы хранятся на специализированном сервере метаданных, а фактографическая информация может хранится на любом сервере в сети Интернет под управлениием СУБД, обрабатывающей SQL запросы через TCP/IP порт (например, Oracle, Informix, PostgreSQL, MySQL, SyBase, MSQL, dBase, InterBase, AdabasD, DB2 или MS SQL server). Тип используемой СУБД может повлиять только на некоторые специфицеские характеристики объектов, например, разные СУБД имеют разные ограничения на размер неструктурированных текстовых полей (максимальный размер которых колеблется от 255 символов до 4 Мb и более).
В системе описания документов могут использоваться простые (элементарные) объекты и сложные объекты: составленные из других объектов или являющееся ссылками на объект или документ.
Как уже отмечалось объект характеризуется своим типом, свойствами и функциями.
Объекты: типы, свойства и функции
В системе в настоящий момент реализована работа со следующими типами объектов:
Объект типа STRING обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).
Свойства объекта типа STRING, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства).
Предназначен для представления произвальной текстовой (символьной) информации. К такой информации относятся различного рода описания и другие тексты.
Объект типа TEXT обладает функцией включения в поиск (контекстный).
Свойства объекта типа TEXT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства), анологичны свойствам объекта типа STRING.
Объект типа DATE обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).
Свойства объекта типа DATE, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства).
Объект типа SELECT обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).
Свойства объекта типа SELECT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства), видом и содедержанием вспомогательного списка, свойства вывода анологичны свойствам объекта типа STRING.
Объект типа MULTSELECT обладает функциями включения в поиск (контекстный или специальный) и в навигацию (индексацию).
Свойства объекта типа MULTSELECT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства), видом и содедержанием вспомогательной таблицы, свойства вывода анологичны свойствам объекта типа STRING.
Объект типа INT обладает функцией включения в поиск (контекстный или специальный).
Свойства объекта типа INT, определяются в зависимости от способа использования последнего в документе (более подробно см. раздел Свойства) и местоположением десятичной точки.
Ваши комментарии Обратная связь |
[Головная страница] [СО РАН] |
© 2000, Сибирское отделение Российской академии наук, Новосибирск