В.П. Захаров
БАН, Санкт-Петербург

ПОЛНОТЕКСТОВЫЕ БАЗЫ ДАННЫХ

     Наряду с  обычными  для  библиотек  библиографическими  базами данных в
последнее время все более широкое распространение  получают  так  называемые
полнотекстовые   базы   данных  (full-text  database).  Это  связано  как  с
объективными  потребностями  библиотечно-информационной  работы,  так  и   с
появлением  в  "информационном  пространстве"  больших объемов разнообразной
текстовой информации в электронном виде.
     Среди этой  информации  можно  выделить:
     1) электронные  издания  (как  компьютерные аналоги "бумажных" изданий,
так и те, которые существуют исключительно в электронном виде);
     2) разнообразные информационные массивы сети INTERNET -  как  "лежащие"
на  серверах,  так  и  циркулирующие по сети посредством электронной почты в
виде сообщений телеконференций (USENET groups);
     3) "побочные" продукты издательской деятельности;
     4) "собственный  ввод"  -  тексты,  вводимые в компьютер специально для
решения тех или иных задач (современные технологии, базирующиеся на сканерах
и  программном  обеспечении  распознавания  текстовой информации,  позволяют
делать это легко и в больших объемах).
     Следующим фактором,   способствующим   развитию    и    распространению
полнотекстовых баз данных,  явилось появление запоминающих устройств большой
емкости (в частности, CD-ROM).
     Совершенно очевидно,  что  для  работы  с  полными  текстами  требуется
специальное программное и лингвистическое обеспечение. Не будем касаться так
называемых  система  "мультимедиа",  где  тексты  представляют  лишь одну из
"сред",  с  которой  имеет  дело  пользователь.  Для  систем,  работающих  с
"чистыми"  текстами,  достаточны  более простые и дешевые средства,  чем для
систем типа мультимедиа.  Тем не менее  обычные  системы  библиографического
поиска здесь не годятся.  То, с чем в первую очередь приходится сталкиваться
при поиске в полнотекстовых базах данных -  это  проблемы  быстродействия  и
качества   поиска.   Повышенные  требования  к  скорости  поиска  достаточно
очевидны,  когда поиск ведется по полным  текстам  документов  (при  этом  в
качестве отдельных документов могут выступать статьи и целые книги).  Говоря
о  качестве   поиска,   мы   не   будем   рассматривать   вопросы   качества
информационного  сервиса  (простота,  дружественный  интерфейс и т.п.).  Под
качеством здесь понимается эффективность выполнения основной  функции  любой
ИПС - поисковой.  Для оценки результатов поиска,  как правило,  используются
хорошо известные характеристики полноты и точности.  В обычных дескрипторных
системах  "золотая середина" между полнотой и точностью обычно лежит на пути
предварительной интеллектуальной  обработки  текста,  в  результате  которой
появляется  специальный поисковый образ документа,  по которому и проводится
поиск.
     Совершенно иная  ситуация  имеет  место при работе с полным текстом.  В
этом случае "естественного компромисса" между полнотой и  точностью  достичь
обычно  не удается,  а именно:  при вполне приемлемой полноте мы имеем,  как
правило,  большой информационный шум  (и  следовательно,  низкую  точность).
Наиболее  очевидный  способ  борьбы с шумом в этой ситуации - это усложнение
лингвистического обеспечения, в частности языка запросов.
     Другой способ  работы  с полными текстами - это использование различных
способов навигации  по  тексту,  характерных  для  различных  гипертекстовых
систем.  Фактически  предварительная гипертекстовая разметка текста является
своего рода аналогом построения поискового образа  документа,  но  при  этом
исходный текст остается неизменным и доступным для работы.
     Однако вернемся к обычной ИПС дескрипторного типа,  работающей с полным
и,   как   правило,   неразмеченным  текстом.  Такие  системы  всегда  будут
необходимы,  когда мы имеем дело с  готовыми  неструктурированными  текстами
большого объема.  Опыт использования в БАН подобных систем рассматривается в
докладе.  Системы для полнотекстовых баз данных,  вообще  говоря,  появились
совсем  недавно.  Основной  недостаток  западных  программных  продуктов для
полнотекстового  поиска  с  точки  зрения  использования  их  в   России   -
ориентированность  на языки агглютинативного типа (прежде всего английский).
Системы же,  работающие с текстами  на  русском  языке,  обязательно  должны
учитывать  его флективность.  Это важно для обеспечения как скорости,  так и
качества поиска.
     В России,  наиболее известно семейство полнотекстовых ИПС "АГАМА - МИРС
- АРТЕФАКТ".  Именно эта система (разные версии) и эксплуатируется в БАН вот
уже  на  протяжении двух с лишним лет.  Документы,  из которых строятся базы
данных,  могут быть как структурированными - разделенными  на  поля,  так  и
неструктурированными.  Размер  документа  практически  не  ограничен и может
достигать  1  мегабайта.  Инверсная  организация  базы  данных  и   качество
программирования   обеспечивают  высокую  скорость  поиска.  Лингвистическое
обеспечение системы базируется  на  автоматическом  морфологическом  анализе
документов   и  запросов,  обеспечивает  точное  отождествление  лексических
единиц.  ИПС  АРТЕФАКТ  ориентирована,  в  первую  очередь,   на   обработку
русскоязычных и англоязычных текстов произвольной тематики.  Это значит, что
для русского  и  английского  языков  производится  правильный  морфоанализ.
Однако   ввод   текстов,   написанных  на  других  языках,  не  исключается.
Оптимизированная  структура  базы  данных  и  сжатие  документов   позволяют
получить  низкий  коэффициент  накладных  расходов.  Язык  запросов  системы
включает  в  себя  как  традиционные  булевы  операторы,   так   специальные
контекстные операторы,  учитывающие структурирование документа, порядок слов
в  тексте  и  расстояние  между  словами.  Имеются  средства   обработки   и
постредактирования  найденных  документов.  Имеется специальные режим поиска
слов с опечатками.
     Более подробно   в   докладе   рассматриваются   вопросы   комплексного
использования  средств  лингвистического  обеспечения   ИПС   АРТЕФАКТ   для
повышения качества поиска и решения ряда специализированных задач.