next up previous contents
Next: Заключение Up: Технологии виртуальной интеграции ресурсов Previous: Технология создания интегрированного каталога   Contents


Координатное индексирование документов

Алгоритм координатного индексирования документов основан на учете классификационных признаков входящих в текст терминов (слов и словосочетаний), характеризующих ту или иную предметную область. Для этого необходимо создание словаря терминов предметной области, причем в этом словаре должны быть установлены связи между терминами и проведена классификация терминов. Такой словарь называется тезаурусом.

Нами разработана и реализована технология создания тезауруса на основе предметного указателя специализированных энциклопедий. Эта технология обеспечивает высококвалифицированное описание предметной области с использованием надежно выверенных терминов, позволяя провести начальный этап построения тезауруса с минимальным привлечением специалистов - экспертов в данной предметной области. В качестве списка ключевых слов и словосочетаний для тезауруса предлагается использовать предметный указатель специализированной энциклопедии (или нескольких энциклопедий). Выбор конкретной энциклопедии осуществляет специалист по предметной области, и этот выбор зависит от целей, преследуемых при создании тезауруса.

В качестве дескрипторов (т.е. терминов, являющихся именами классов близких по смыслу понятий) полагаются названия статей энциклопедии, а связанными с ними по смыслу считаются слова из предметного указателя, встречающиеся в соответствующих статьях. Основным преимуществом такого метода является то, что для установки типов связей между терминами не требуется быть экспертом в данной предметной области - вполне хватит общих знаний, позволяющих понять текст энциклопедии - более конкретные сведения, необходимые в процессе классификации понятий, всегда можно почерпнуть из конкретной статьи. Поскольку создаваемый тезаурус предназначен для работы с использованием протокола Z39.50, то типы связей устанавливаются в соответствии с рекомендациями схемы Zthes.

Далее проводится классификация дескрипторов в соответствии с разделами данной предметной области. Выбор конкретного классификатора, как и выбор энциклопедии, осуществляется специалистом-экспертом, причем, в случае использования нескольких энциклопедий из разных предметных областей, возможно использование нескольких специализированных классификаторов. После этого ключевым словам, связанным с дескриптором, приписывается тот же классификационный номер, что и дескриптору. Впрочем, это не исключает такой ситуации, что если дескриптор отнесен к классу не самого низкого уровня, то при последующей работе эксперта термины, связанные с дескриптором, могут быть отнесены к классу более низкого уровня. В этом случае указанные термины сами станут дескрипторами.

В результате все термины, входящие в предметный указатель, оказываются расклассифицированы в соответствии с разделами данной предметной области.

Тем не менее, процесс построения тезауруса в соответствии с данной методикой подразумевает большой объём рутинной работы и, кроме того, требует участия человека, имеющего навыки программирования. Поэтому в дополнение к методике было разработано web-приложение, обладающее дружественным к пользователю интерфейсом и поддерживающие следующие функции:

  1. Автоматический перевод информации с оцифрованных страниц предметного указателя в таблицу базы данных.
  2. Выделение дескрипторов в общем списке терминов.
  3. Поиск терминов, связанных с данным дескриптором и установка типов связей в соответствии со схемой Zthes.

Работоспособность данного алгоритма и web-приложения была проверена путем создания тезауруса ряда разделов предметной области ``Математика'' (``Дифференциальные уравнения'', ``Уравнения в частных производных'', ``Численный анализ'', ``Механика жидкости'' и др.) на основе предметного указателя ``Математической энциклопедии''.