Пленарные заседания
Поиск ошибок в содержании документов индексированных баз данных (БД) актуален в различных приложениях, например, в каталоге гербария, библиографическом. Статистические методы для этой цели не подходят ввиду переменной длины списков ключевых слов документов.
В терминах теории распознавания образов индексирующий список документа соответствует многозначному по номинальному признаку объекту. Эта многозначность моделируется нечетким множеством (НМ). Приводится алгоритм вычисления функции принадлежности (ФП) каждого объекта обучающей выборки к НМ, то есть осуществляется преобразование исходной номинальной шкалы признака в сильную интервальную числовую шкалу.
Последующее сопоставление ключевых слов исследуемого документа с характеристиками НМ позволяет сделать прогноз степени уверенности в ошибке.
Приводится результат анализа файла из 800 документов на примере флористического таксона рода Asteraceae Artemisia по БД электронного каталога гербария NS.
Дополнительные материалы: | HTML |
Ваши комментарии А.М.Федотов |
[Головная страница] [Конференции] [СО РАН] |
© 2000, Сибирское отделение Российской академии наук, Новосибирск