next up previous contents
Next: Постановка задачи Up: Модель распределенной виртуальной среды Previous: Модель распределенной виртуальной среды   Contents

Предпосылки к созданию виртуальной среды

Поиск является наиболее востребованной функцией в информационном обществе. На сегодняшний день разработано большое число всевозможных инструментов, реализующих функции поиска в разнообразных условиях и с различными критериями. Отметим, однако, что фундаментальная, с точки зрения поиска, проблема в распределенных системах -- отсутствие стандартных механизмов классификации, каталогизации и систематизации ресурсов -- не позволяет осуществлять поиск достаточно эффективно. Один из возможных вариантов -- создание корпоративной сети, ресурсы которой удовлетворяют определенным правилам, допускающим их автоматизированную аналитическую обработку.

Другая проблема -- это использование ресурса. Идеальной является ситуация, когда формат содержимого ресурса совпадает с форматом, который использует исследователь -- например, когда формат определяется стандартом представления предметных данных определенной направленности. Такими стандартами, в частности, являются: SEGY - геофизические данные, FITS - астрономические данные, SDF - химические данные. Однако если формат ресурса не согласован с требуемым форматом, исследователю придется создавать или искать средства преобразования форматов. В общем же случае решить эту задачу пока возможным не представляется. Тем не менее, одной из целей работы -- предложить механизм конвертации (преобразования) ресурсов из одного формата другой, причем, достаточно общий, чтобы быть применимым к определенному классу ресурсов (например, для экологических систем).

Следующий логический шаг -- автоматизация функции получения данных из внешних источников. Несмотря на сервисный характер, данная функция содержит несколько компонентов, требующих отдельной технологической проработки. Так, необходимо определить механизмы обнаружения фактов обновления или появления новых ресурсов, определить процедуру получения ресурсов с учетом требуемого формата. Заметим, что предлагаемые решения поставленной задачи жестко ориентированы на конкретную предметную область и соответствующие ей модели и схемы данных. Другой класс альтернативных решений имеет характерного представителя -- Microsoft SharePoint. Данный продукт предоставляет средства обмена документами и ориентирован на корпоративный электронный документооборот. Здесь основной единицей манипуляции является файл, причем его содержимое системой никак не анализируется. Кроме того, SharePoint имеет средства поддержки Web Services -- технологии обмена слабоструктурированными данными в формате XML. Однако следует отметить, что SharePoint не предоставляет дополнительных средств, позволяющих реализовать полноценный автоматизированный обмен разнородными данными.

Прежде чем перейти к постановке задачи, необходимо уточнить объект исследования. К результатам научных исследований, в первую очередь, относятся:

Первоочередным объектом на текущий момент являются Данные по причине больших возможностей для их формализации и аналитической обработки. Данные могут быть представлены в виде электронных коллекций, изображений, многомерных массивов и пр., в дальнейшем целостная и самодостаточная единица данных, обладающая уникальным идентификатором, будет называться ресурсом. Выделяются следующие базовые категории данных (ресурсов):

Каждая категория расслаивается на типы ресурсов, причем каждый тип может иметь содержать несколько подтипов ресурсов. Например, категория ``Бинарные данные'' может содержать тип ``Изображения'', который в свою очередь содержит подтип ``Фотографии''. Отметим, что между предложенными базовыми категориями ресурсов нет четких границ. Так, бинарные ресурсы в ряде случаев можно рассматривать как табличные данные (например, растровые изображения), и как слабоструктурированные данные (например, векторные изображения). Кроме того, любые ресурсы должны сопровождаться дополнительными сведениями для его систематизации и классификации (метаданными), которые следует относить к слабоструктурированным данным. Согласно этому и другим соображениям первоочередной интерес для исследования представляют именно слабоструктурированные данные.