Нами разработана и реализована технология создания тезауруса на основе предметного указателя специализированных энциклопедий. Эта технология обеспечивает высококвалифицированное описание предметной области с использованием надежно выверенных терминов, позволяя провести начальный этап построения тезауруса с минимальным привлечением специалистов - экспертов в данной предметной области. В качестве списка ключевых слов и словосочетаний для тезауруса предлагается использовать предметный указатель специализированной энциклопедии (или нескольких энциклопедий). Выбор конкретной энциклопедии осуществляет специалист по предметной области, и этот выбор зависит от целей, преследуемых при создании тезауруса.
В качестве дескрипторов (т.е. терминов, являющихся именами классов близких по смыслу понятий) полагаются названия статей энциклопедии, а связанными с ними по смыслу считаются слова из предметного указателя, встречающиеся в соответствующих статьях. Основным преимуществом такого метода является то, что для установки типов связей между терминами не требуется быть экспертом в данной предметной области - вполне хватит общих знаний, позволяющих понять текст энциклопедии - более конкретные сведения, необходимые в процессе классификации понятий, всегда можно почерпнуть из конкретной статьи. Поскольку создаваемый тезаурус предназначен для работы с использованием протокола Z39.50, то типы связей устанавливаются в соответствии с рекомендациями схемы Zthes.
Далее проводится классификация дескрипторов в соответствии с разделами данной предметной области. Выбор конкретного классификатора, как и выбор энциклопедии, осуществляется специалистом-экспертом, причем, в случае использования нескольких энциклопедий из разных предметных областей, возможно использование нескольких специализированных классификаторов. После этого ключевым словам, связанным с дескриптором, приписывается тот же классификационный номер, что и дескриптору. Впрочем, это не исключает такой ситуации, что если дескриптор отнесен к классу не самого низкого уровня, то при последующей работе эксперта термины, связанные с дескриптором, могут быть отнесены к классу более низкого уровня. В этом случае указанные термины сами станут дескрипторами.
В результате все термины, входящие в предметный указатель, оказываются расклассифицированы в соответствии с разделами данной предметной области.
Тем не менее, процесс построения тезауруса в соответствии с данной методикой подразумевает большой объём рутинной работы и, кроме того, требует участия человека, имеющего навыки программирования. Поэтому в дополнение к методике было разработано web-приложение, обладающее дружественным к пользователю интерфейсом и поддерживающие следующие функции:
Работоспособность данного алгоритма и web-приложения была проверена путем создания тезауруса ряда разделов предметной области ``Математика'' (``Дифференциальные уравнения'', ``Уравнения в частных производных'', ``Численный анализ'', ``Механика жидкости'' и др.) на основе предметного указателя ``Математической энциклопедии''.