Конференции ИВТ СО РАН


«Вычислительные и информационные технологии
в науке, технике и образовании»

Алматы, Казахстан, 6 – 10 октября 2004 года

Тезисы докладов


Высокая чувствительность отклика нейроклассификатора к колебаниям входов может индицировать наличие выбросов в значениях признаков

Царегородцев В.Г.

Институт вычислительного моделирования СО РАН (Красноярск)

Конференция Tenth Annual ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD-2004) традиционно включает соревнование по обработке и анализу данных (http://kodiak.cs.cornell.edu/kddcup/). Исследование предложенных баз данных и анализ информативностей признаков на основе показателей чувствительности первого порядка [1] показало высокую чувствительность решения к малому числу показателей, тогда как остальным (подавляющему числу независимых признаков) соответствовали малые чувствительности. Но обучение нейросети на малом числе входных сигналов не дало возможности повторить достигнутую с использованием всех признаков точность решения обучающей выборки.

Двумерная визуализация распределения примеров выборки в пространствах пар наиболее чувствительных признаков позволила увидеть, что одновременно с достаточно высокой сепарабельностью классов существует и несколько точек выборки, лежащих в области распределения примеров противоположного класса.

Повторение циклов из шагов исключения таких примеров-выбросов, переоптимизации модели и нового рассчета чувствительностей привела к относительному росту чувствительности решения к все большему и большему числу признаков и выявлению новых выбросов при рассмотрении проекций на вновь отобранные координатные оси.

Результаты экспериментов говорят о том, что выбросы в значениях информативных признаков могут настолько сильно повышать чувствительность решения именно к этим признакам с выбросами, что на этом фоне нельзя будет выделить остальные информативные признаки от шумовых и неинформативных. Поэтому визуализация данных, затруднительная при большом исходном числе признаков, может быть проведена для отобранных, предположительно информативных признаков для поиска возможных выбросов в данных и их исправления. Автоматическое же исправление выбросов (например, методом [2]) тоже часто затруднено из-за разнотипных законов распределения независимых признаков или невозможности выделить кластеры при большом числе шумовых признаков. Отбор же наиболее чувствительных признаков в какой-то мере позволяет выполнить разведочный анализ во многом пост-фактум, но и это, как в описанном примере, может помочь в понимании свойств задачи и выборок данных.

1. Engelbrecht A.P., Cloete I. Selective learning using sensitivity analysis / Proc. Int. Joint Conf. on Neural Networks (IJCNN'1998), Anchorage, Alaska, USA.. – pp.1150-1155.
2. Hamalainen J.J., Jarvimaki I. Input projection method for safe use of neural networks based on process data / ibid. – pp.193-198.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск