А.А. Сметанников
ГНЦ ВБ "Вектор" НИИ молекулярной биологии, г. Новосибирск

ИСПОЛЬЗОВАНИЕ В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЕ ОБРАТНОЙ СВЯЗИ ПО РЕЛЕВАНТНОСТИ ДЛЯ КЛАССИФИКАЦИИ ДОКУМЕНТОВ
THE USE OF AUTOMATIC RELEVANCE FEEDBACK IN RETRIEVAL SYSTEM FOR DOCUMENT CLASSIFICATION

                            Abstract

     The paper  presents  an  original   software   product   intended   for
information  retrieval  by  strictly sequential search in the database.  Its
query language is based on the boolean predicates with weight  coefficients.
Terms  query  contains  occurrence  frequency  in  relevance  or unrelevance
documents for calculation term weight coefficients.  The  ranked  output  is
defining the document classification.
     The software allows to perform the search in the  databases  with  text
documents showing high efficiency of retrieval system.

     Во многих  автоматизированных информационно-поисковых системах (АИПС) в
базы данных (БД) включены документы  со  свободным  индексированием,  а  для
формулирования  логических  условий (ЛУ) поисковых предписаний (ПП) запросов
используются булевые операторы.
     Настройка ПП запросов на поиск в БД,  содержащих документы со свободным
индексированием (заглавия,  рефераты,  ключевые слова) требует применения  в
логике  запросов  контекстных отношений,  логического отрицания,  увеличения
сложности логических условий,  а также расширения словарного состава за счет
разнообразия грамматических форм "свободного текста".  Поэтому эффективности
использования АИПС с булевой логикой можно добиться лишь в том случае,  если
выполняются следующие условия:
     пользователи способны полностью и точно  выразить  свою  информационную
потребность в терминах информационно-поискового языка (ИПЯ);
     ПП запроса  пользователя  представляются  в  виде  логических  условий,
которые  удовлетворяют  правилам  булевой  логики  и совместимы с принципами
индексирования документов в БД.
     При составлении    запроса    абонент   АИПС   обычно   выражает   свою
информационную  потребность  через  термины,   являющиеся   ядром   словаря,
описывающего   данную   предметную  область,  списка  которых  бывает  порой
недостаточно для получения высоких характеристик информационного поиска в БД
со   свободным   индексированием.  Использование  в  ПП  булевых  логических
операторов (И,НЕ,ИЛИ) приводит к резкому сужению или расширению  результатов
поиска,  при  этом  увеличение  точности  поиска приводит к снижению полноты
извлечения релевантных документов из  БД.  Одним  из  путей  решения  данной
проблемы  может  стать  автоматическая  классификация результатов первичного
поиска,  осуществляющая ранжирование выдаваемых ИПС документов по степени их
предполагаемой полезности для пользователя,  с использованием обратной связи
по релевантности.  Раскрытие сферы интересов абонента в  этом  случае  может
быть основано на итерационном процессе, который включает следующие этапы:
     - экспертная оценка релевантности документов,  выданных при  поиске  по
исходной форме ПП запроса;
     - выделение из документов терминов и определение их частот вхождения  в
релевантные и нерелевантные документы и вычисления их весовых коэффициентов;
     - определение  наиболее  информативных  терминов;
     - выбор  порогового  значения  веса  документа  для  классификации;
     - автоматическая   классификация   полученных   по  первичному  запросу
документов.
     В процессе  вторичного  поиска  происходит  сравнение слов документов с
терминами из словаря,  сформированного из слов и словосочетаний,  выделенных
из  текстов  релевантных и нерелевантных документов,  выданных по первичному
запросу.  При их совпадении вес документа изменяется  на  значение  весового
коэффициента   термина   из   словаря.   После  просмотра  текста  документа
производится сравнение вычисленного веса  с  заданным  пороговым  значением.
Релевантными считаются документы, у которых вес превышает заданное пороговое
значение.
     Первоначально с применением булевых операторов  был  составлен  запрос,
обеспечивающий   полноту   выдачи   документов   в   режиме   избирательного
распределения информации (ИРИ) системы "Current Contents" на ПЭВМ PC/AT.  Из
результата  поиска  по  первоначальному  запросу экспертом было выделено 493
релевантных  (класс  1)  и  1494  нерелевантных  документов  (класс  2).  Из
выбранных документов были сгенерированы термины, состоящие из отдельных слов
и словосочетаний (пар и троек слов),  входящих в  заглавия  работ,  а  также
последовательностей  ключевых слов.  Каждому термину в зависимости от частот
его встречаемости в документах,  отнесенных к 1 или 2 классу,  рассчитывался
весовой коэффициент.
     После выявления   терминов,   наиболее   значимых   для   классификации
документов,  был  сформирован поисковый словарь объемом около 2200 терминов,
не содержащий в своем составе терминов первоначального запроса.
     В процессе   повторного   поиска   после  сканирования  текста  каждого
документа  и  выявления  наличия  в  нем  терминов  из  поискового  словаря,
вычислялся  весовой  ранг  документа  в  виде  суммы  весовых  коэффициентов
встретившихся в нем терминов.  Если ранг документа превышал заданный  порог,
то документ выдавался в файл,  определяющий первый класс, иначе - во второй.
Документы,  в тексте которых отсутствовали термины  из  поискового  словаря,
относились  к первому классу.  Величина порогового значения ранга документов
определялась по обучающей выборке, для обеспечения 95% полноты в релевантной
выдаче.
     Применение программного комплекса позволило сократить число  выдаваемых
документов   на  30-40  %.  После  автоматической  классификации  документов
точность поиска увеличилась с 26 до 47%.  Ко 2 классу было ошибочно отнесено
4% релевантных документов.
     В классификации  документов  распознающими  признаками  могут  быть  не
только термины из текста документа,  но и данные из библиографических полей.
Поэтому дополнительно кроме предметного словаря абонента могут  определяться
группы  авторов,  ядро  профильных  журналов,  список информационных рубрик,
динамика публикаций работ по годам и т.п.