Л.В. Артамонова, С.Р. Баженов
ГПНТБ СО РАН, г. Новосибирск

ПРОБЛЕМЫ ПОСТОБРАБОТКИ РЕЗУЛЬТАТОВ ПОИСКА В БИБЛИОГРАФИЧЕСКИХ БАЗАХ ДАННЫХ

     В ГПНТБ   СО   РАН   в   течение   года   ведется  активная  работа  по
информационному обслуживанию читателей с помощью баз данных,  хранящихся  на
компакт-дисках.  За  это  время  накоплен  некоторый  опыт работы со многими
видами программного обеспечения,  сформулированы  основные  возникающие  при
этом проблемы и решены некоторые из них.
     Рассматривается один    из    важнейших    вопросов     информационного
обслуживания: постобработка результатов поиска. Основные аспекты проблемы:
     1. Дублирующие документы.
     Возникает при выполнении одного и того же запроса  в  нескольких  базах
данных.  Например,  для  полноты  поиска  запрос  выполняется по двум сериям
CURRENT  CONTENTS  -  Clinical  Medicine  и  Life  Sciences.  Известно,  что
существует  определенная  группа  журналов,  которая  отражается в каждой из
указанных серий. Поэтому, в результате проведения одного и того же поиска мы
получим два результирующих файла,  имеющих одни и те же документы.  Проблема
осложняется тем,  что поиск приходится производить в  нескольких  совершенно
разнородных базах данных, имеющих различные структуры записей. Набор полей и
их наполнение в этих базах могут резко отличаться. Также различными являются
и форматы вывода документов.
     Для решения  проблемы  разработана  специальная программа,  выполняющая
операцию "ИЛИ" над  файлами  документов  "похожего"  формата  и  выполняющая
нумерацию  их  в  результирующем  файле.  Сравнение на дублирующие документы
производится по ISSN или ISBN.  В связи с этим  применять  данную  программу
можно  только  для файлов,  полученных по одному и тому же запросу,  и поиск
должен быть произведен в БД за один и тот  же  временной  период.  Документы
могут   иметь   достаточно   произвольный   выходной  формат.  Требования  к
документам, обрабатываемым данной программой, следующие:
     - документ   должен   начинаться  строкой,  содержащей  произвольный  N
документа, заключенный в угловые скобки;
     - каждый  документ  должен содержать (в любом его месте) слово ISSN или
ISBN и далее значение этого поля.
     Мы видим,  что требования, предъявляемые к выходной форме документов не
так уж и сильны.  Однако отметим, что, в общем случае, поставленная проблема
является  довольно  сложной  задачей и не решена для БД,  в которых выходные
форматы  документов  не  удовлетворяют  этим   требованиям   и   отсутствует
возможность изменения этих форматов.
     2. Нумерация  документов.
     Результирующие файлы,  в зависимости от программного обеспечения, могут
содержать  как  пронумерованные  по  порядку,  так и вовсе непронумерованные
документы либо документы, номера которых не соответствуют порядковым номерам
в  итогом  массиве.  Даже  в  случае  пронумерованных  документов  возникает
проблема их сквозной перенумерации,  т.к. поиск производился в нескольких БД
и  результаты  записывались  в  различные файлы.  Пользователю же необходимо
знать общее количество полученных документов,  и работать он предпочитает  с
файлом, имеющим сквозную нумерацию.
     Следовательно, требуются     программы,     осуществляющие    нумерацию
документов.  В случае проведения  поисков,  удовлетворяющих  условиям  п.  1
данного доклада,  можно использовать и программу,  разработанную для решения
той проблемы.  Иначе же необходимо применение специальной программы  слияния
файлов  с  перенумерацией.  Очевидно,  что и здесь форматы документов должны
удовлетворять некоторым, пусть и не очень жестким условиям.
     3. Универсальный  результат.
     Многие пользователи,  получая  результаты  поиска  на  свою дискету,  в
дальнейшем просматривают полученные данные с помощью  различных  редакторов.
Поэтому важно выдать для них информацию в универсальном виде,  пригодном для
любого редактора. Например, документы, имеющие длину строки 256 символов, не
удобно   просматривать  с  помощью  Лексикона.  Некоторые  результаты  могут
содержать  символы  управления  печатью,  что  также  создает   определенные
неудобства  для  последующей  обработки.  Из  вышеизложенного  следует,  что
требуются дополнительные средства для приведения результирующей информации к
универсальному виду.
     4. Выдача    информации   в   файл.
     Некоторые системы вообще не предусматривают выдачу информации в файл, а
только  на  печать.  При  большом  количестве  обслуживаемых  пользователей,
большом  объеме  найденной  информации  выдача на принтер результатов поиска
неудобна,  неэффективна,  накладна,  да  часто  может  быть  и   невозможна.
Необходимые  документы в случае надобности пользователь может распечатать на
компьютере в своей организации.  К тому же многие пользователи  предпочитают
иметь  результаты  на  своем  компьютере  для  последующего  использования в
качестве пристатейных ссылок, списков литературы по теме и т.п.
     Эта проблема  решается  в ГПНТБ СО РАН с помощью резидентной программы,
которая помещает предназначенную для печати информацию в файл.  Используется
она  в двух случаях:  во-первых,  перехватывает информацию,  направленную на
принтер из меню информационно-поисковой системы,  во-вторых, помещает в файл
копию экрана,  распечатываемую по нажатию клавиши Print Screen.  Для второго
случая иногда  удобнее  использовать  другую  программу,  которая  позволяет
сохранять в файле не весь экран,  а произвольно вырезанный его кусок. В этом
случае  уменьшается   или   совсем   исключается   необходимость   обработки
результирующего файла перед передачей его пользователю.
     5. Проблемно ориентированные базы данных.
     Приобретение и  эксплуатация  БД  на компакт-дисках требуют в настоящее
время существенных финансовых затрат.  В связи с этим  с  помощью  таких  БД
могут  эффективно  решаться только крупные информационные задачи,  такие как
информационное обслуживание большого количества потребителей, информационное
обеспечение крупных научных программ.  Для целей же обслуживания сотрудников
НИУ,  научной лаборатории,  для проведения информационного  анализа  и  т.д.
необходимо формирование проблемно ориентированных баз данных (ПОБД).
     Однако формирование ПОБД на основе обработки разнородных информационных
массивов  требует  решения  сложных  задач  сопряжения  различных   форматов
представления  данных и согласования компонент лингвистического обеспечения.
Для решения этих задач в  ГПНТБ  СО  РАН  создан  программно-технологический
комплекс решающий задачи преобразования форматов, создания рубрикатора ПОБД,
формирования и обработки созданной ПОБД для целей  информационного  анализа.