next up previous contents
Next: Общая модель цифровых информационных Up: Модель распределенной виртуальной среды Previous: Постановка задачи   Contents

Принципиальная схема функционирования

Рассмотрение требований и характеристик виртуальной среды указывает, прежде всего, на необходимость разработки технологического решения, которое позволит совместить разнородные модели данных и взаимодействовать с источниками по единой унифицированной схеме. На текущий момент существуют 3 наиболее известные технологии подобной унификации: это протоколы Z39.50, LDAP (X.500) и CORBA.

Для подробной проработки автором исследования был выбран протокол Z39.50, который предлагает следующие возможности. Абстрагированная модель схемы данных позволяет осуществлять обмен данными без привязки к конкретной схеме. Абстрагированная модель поиска дает возможность осуществлять поиск в разнородных базах данных. При этом в рамках существующих реализаций протокола Z39.50 (например, программное обеспечение ZooPARK) предусмотрены механизмы преобразования данных из предметных схем в абстрактную схему протокола Z39.50. Следовательно, программное обеспечение на основе протокола Z39.50 позволяет организовать стандартизованный доступ к разнородным распределенным базам данных.

Таким образом, представляется целесообразным рассмотреть следующую принципиальную схему функционирования виртуальной среды (см. рис. 1). Виртуальная среда состоит из реестра (базы данных), основного сервера Z39.50, нескольких функциональных модулей, а также web-сайта с публичным и административным разделами для доступа к различным функциям среды. Для каждого источника устанавливается отдельный сервер Z39.50, который осуществляет преобразование данных из схемы источника в абстрактную схему данных. Каждый модуль виртуальной среды соответствует одному из указанных выше требований, и реализуют следующие функции:

  1. Модули управления структурой каталогов ресурсов
  2. Модули аналитической обработки ресурсов
  3. Модули отображения содержимого каталогов
  4. Модули конвертации ресурсов
  5. Модули диспетчеризации
Figure: Логическая схема баз данных виртуальной среды
\includegraphics[width=0.8\textwidth]{ris/VirtualEnvironment-db.eps}

Одним из определяющих факторов функционирования любой информационной системы является ее модель предметной области (словари, логическая схема -- основные сущности взаимосвязи). На рис. 2 представлены основные сущности и взаимосвязи логической схемы базы данных для виртуальной среды (на примере описания персон). Частично построение словарей может быть автоматизировано (см. раздел 7.2.), но в целом является достаточно большой работой, особенно для задач аналитической обработки результатов. На начальном этапе функционирования виртуальной среды модель предметной области для фиксированных схем данных может быть задавать на уровне самих алгоритмов обработки.

Для каждой коллекции необходимо описание ее абстрактной схемы данных. Для определения смежных ресурсов следует производить сравнение сведений о ресурсах в абстрактной схеме данных. Критерием смежности является полное совпадение всех сведений или частичное совпадения для специально указанных полей (в некотором смысле, уникальный ключ).

Механизм определения релевантных объектов является более сложным, чем нахождение смежных ресурсов. Его идея состоит в том, что фактически ресурс может описывать сведения не только об одном объекте, но и о нескольких. Например, ресурс, описывающий публикацию, также содержит сведения и об авторах. Таким образом, при описании абстрактной схемы для ресурсов, необходимо определить его ``соответствие'' не одному, а нескольким объектам виртуальной среды. При анализе таких ресурсов, например, публикаций, может быть осуществлен поиск ``связанных'' с ней персон объектов и при нахождении такой связи возможно установить соответствие типа ``является автором'' между объектом ``Персона'' и объектом ``Публикация''.

Как уже упоминалось, наиболее сложной задачей является разработка моделей и средств конвертации ресурсов в формат данных, запрошенный пользователем. Очевидно, что в общей постановке задача не может быть решена, и необходимо предложить набор частных решений для наиболее востребованных случаев. Так, по мнению автора, в рамках первой итерации разработки виртуальной среды может быть реализован следующий механизм. В качестве выходного формата представления данных в абстрактной схеме Z39.50 использовать язык XML. Посредством языка XSLT данные из базового XML-формата могут быть преобразованы в любой другой формат XML-семейства. Такое решение, с одной стороны, является не трудоемким, а с другой -- в силу распространенности языка XML потенциально позволяет покрыть большое число вариантов использования.