Конференции ИВТ СО РАН



Международная конференция
«Вычислительные и информационные технологии
в науке, технике и образовании»

Павлодар, Казахстан, 20 – 22 сентября 2006 года

Тезисы докладов


Процедура поиска оптимальной структуры нейронной сети на основе покоординатного спуска в пространстве структуровоздействующих операций

Царегородцев В.Г.

Институт вычислительного моделирования СО РАН (Красноярск)

Рассматривается проблема нахождения оптимальной структуры искусственной нейронной сети, решающей задачу обучения с учителем (регрессия, классификация с учителем) [1,2]. Вместо часто используемой процедуры случайного поиска (реализуемой либо пользователем вручную, либо вариантом генетического алгоритма оптимизации) предлагается направленный покоординатный спуск в пространстве воздействий, меняющих структуру нейронной сети. В предположении информативности набора независимых признаков задачи и старта синтеза структуры сети с минимального размера в качестве меняющих структуру воздействий взяты:
- удаление наименее информативного признака задачи,
- добавление нейрона в нейронную сеть (через создание и обучение новой сети увеличенного размера, замещающей исходную, или реализацию некоторого алгоритма роста нейросети, например, алгоритма каскадной корреляции),
- синтез и подача на вход сети нового независимого признака - некоторой нелинейной комбинации значений подмножества исходных независимых признаков задачи,
- редукция избыточных синапсов (адаптивных коэффициентов) нейронов нейросети.

Переключение с текущего на иное действие при структурной адаптации нейромодели происходит при достижении минимума критериев Бартлетта [3] или Амари [4], характеризующих обобщающие свойства модели, либо при превышении рассчитанной на независимой тестовой выборке ошибки обобщения заданного пользователем максимально допустимого уровня ошибок. В пределах коридора между максимально допустимой ошибкой и оцененной/рассчитанной точностью и ведется адаптация структуры модели исходя из дополнительных требований пользователя (например, требовании минимизации числа независимых признаков, необходимых нейромодели для принятия решения).

В работе рассматривается пример пошагового чередования этапов удаления неинформативных признаков и наращивания размеров нейросетей для ряда задач из коллекции Machine Learning Repository [5] - репозитория реальных задач, ставших уже стандартными тестовыми задачами для апробации и сравнения алгоритмов обучения с учителем. Демонстрируется хорошее совпадение поведения графиков рассчитанных по тестовым выборкам ошибок обобщения и графиков значений критерия Бартлетта [3] для соответствующих нейромоделей. Это позволяет предложить данную схему и для случая отсутствия независимой тестовой выборки в задаче - путем отбора моделей и моментов переключения между адаптирующими структуру модели действиями только по значениям критериев [3,4] или подобных им критериев, дающих оценку обобщащих свойств модели только через анализ её внутренних характеристик. Эффективность и стабильность оценочного критерия Бартлетта исследовалась и демонстрировалась автором и в работе [6].

Наблюдается инвариантность определенных цепочек действий (например, последовательного удаления N входов сети и добавления M нейронов к обратной цепочке добавления сначала M нейронов, а потом удаления N входов сети). Возможно использование технологии и для стартовой ситуации с нарушением требований по минимально необходимой точности: из структуроменяющих операций будут выбраны те, которые позволят достичь требуемого уровня точности решения и/или обобщения (при достижимости заданной точности). Экспериментальные результаты также указывают на необходимость ввода в рассмотрение понятия нечувствительности характеристик нейросети к добавлению в неё нейронов с определенной нелинейной функцией и расширение этапа роста размера сети на альтернативные цепочки роста при тех или иных нелинейных видах нелинейных функций нейронов (сигмоидная, радиально-базисная,...).

Предложенные в работе технологии и обнаруженные эффекты допускают эффективную автоматизацию, позволят пользователю-неспециалисту быстро находить оптимальную структуру нейронной сети - максимизирующую точность (минимизирующую ошибку) при одновременных достижениях критериев вторичной оптимизации структуры по числу независимых признаков, размеру и топологии нейросети. По гибкости и эффективности предлагаемая схема может превзойти ныне существующие алгоритмы автоматического поиска оптимальной структуры сети, реализованные в стандартных нейропакетах типа Statistica Neural Networks.

Литература
1. Хайкин С. Нейронные сети. Полный курс. М.: Вильямс, 2006. - 1104c.
2. Осовский С. Нейронные сети для обработки информации. М.: ФиС, 2002.
3. Bartlett P.L. For valid generalization, the size of the weights is more important than the size of the network / Advances in Neural Information Processing Systems 9 (1996). MIT Press, 1997. - pp.134-140.
4. Murata Т., Yoshizawa S., Amari S. Learning curves, model selection and complexity of neural networks / Advances in Neural Information Processing Systems 5 (1992). Morgan Kaufmann, 1993. - pp.607-614.
5. http://www.ics.uci.edu/~mlearn/MLRepository.html
6. Царегородцев В.Г. Определение оптимального размера нейросети обратного распространения через сопоставление средних весов синапсов // Материалы XIV Международной конференции по нейрокибернетике, Ростов-на-Дону, 2005. Т.2. - С.60-64.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск