V рабочее совещание по электронным публикациям - EL-PUB-2000

Новосибирск, Академгородок, ИВТ СО РАН, 21 - 23 июня 2000 г.

Тезисы докладов

Пленарные заседания

Предсказание ошибок в документах базы данных на основе нечеткого дескриптора по ключевым словам.

Красинский В.И.

Центральный Сибирский ботанический сад (Новосибирск)

Поиск ошибок в содержании документов индексированных баз данных (БД) актуален в различных приложениях, например, в каталоге гербария, библиографическом. Статистические методы для этой цели не подходят ввиду переменной длины списков ключевых слов документов.

В терминах теории распознавания образов индексирующий список документа соответствует многозначному по номинальному признаку объекту. Эта многозначность моделируется нечетким множеством (НМ). Приводится алгоритм вычисления функции принадлежности (ФП) каждого объекта обучающей выборки к НМ, то есть осуществляется преобразование исходной номинальной шкалы признака в сильную интервальную числовую шкалу.

Последующее сопоставление ключевых слов исследуемого документа с характеристиками НМ позволяет сделать прогноз степени уверенности в ошибке.

Приводится результат анализа файла из 800 документов на примере флористического таксона рода Asteraceae Artemisia по БД электронного каталога гербария NS.

Дополнительные материалы: HTML
Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
А.М.Федотов

[Головная страница]
[Конференции]
[СО РАН]