Конференции ИВТ СО РАН


«Вычислительные и информационные технологии
в науке, технике и образовании»

Алматы, Казахстан, 6 – 10 октября 2004 года

Тезисы докладов


Неэффективность теоретических методов оптимизации при обучении нейронной сети

Царегородцев В.Г.

Институт вычислительного моделирования СО РАН (Красноярск)

Алгоритм обратного распространения ошибки позволяет вычислять вектор градиента по подстроечным параметрам нейросети за время, сопоставимое со временем отклика нейросети на входное воздействие. Быстрота вычисления градиента позволяет использовать при обучении нейросети весь аппарат методов градиентной оптимизации. Эти методы можно упорядочить следующим образом по нарастанию сложности и предположительному росту скорости обучения (оптимизации):
1. Коррекция адаптивных параметров после просмотра очередного примера выборки (традиционный способ, используемый, например, и в теории идентификации).
2. Накопление суммарного градиента по примерам выборки и шаг в сторону минимизации суммарного критерия качества - суммы невязок отдельных примеров.
3. Адаптация шага вдоль суммарного антиградиента, или, в общем случае, одномерная оптимизация величины шага вдоль направления спуска.
4. Метод сопряженных градиентов или квазиньютоновские методы с ограниченной памятью и оптимизацией шага [2], свободные от оптимизации шага псевдоньютоновские методы [3].

Обзор этих методов применительно к нейронным сетям дан, например, в [2].

Однако, недавняя работа [1] показывает неэффективность суммарного градиента по сравнению с обучением "на лету" при неадаптивном шаге коррекции в обоих случаях.

Настоящая работа на основе экспериментов на полутора десятках баз реальных данных из UCI KDD Database Repository (http://kdd.ics.uci.edu/) показывает общую неэффективность большинства теоретических методов градиентной оптимизации по сравнению с простейшим алгоритмом коррекции. Проигрыш строгих методов заключается в основном в дополнительных затратах на точную одномерную оптимизацию шага.

Так, при наискорейшем спуске по суммарному антиградиенту для одномерной оптимизации шага требуется несколько просмотров обучающей выборки на каждой итерации, поэтому использование предварительно найденного путем грубого сканирования фиксированного шага работает быстрее. Да и предварительное определение длины фиксированного шага реально не нужно, поскольку имеется простая процедура "Bold driver" [4] грубой адаптации шага от итерации к итерации, а не точной оптимизации внутри каждой итерации. Но при любом способе управления величиной шага коррекции метод наискорейшего спуска по суммарному по выборке антиградиенту проигрывает в эффективности методу коррекции нейросети после предъявления каждого очередного примера, что подтверждает и усиливает результаты [1].

Более быстрые, по сравнению с методом наискорейшего спуска, методы оптимизации (например, метод сопряженных градиентов) действительно ускоряют обучение нейросети, но для оптимизации шага по прежнему требуют многократного просмотра выборки и в среднем по набору исследованных баз данных сопоставимы в эффективностью онлайн-обучения.

Практическая же эффективность квазиньютоновских алгоритмов без оптимизации шага (в данной работе они не исследованы) для случая обучения нейросети исследована недостаточно: фактически, первой и единственной попыткой является [3], а использование не требующего одномерного поиска квазиньютоновского метода Дэвидона в [5] нельзя признать успешным, поскольку требуется хранение оценки полной обратной матрицы Гессе, что уже в нейросетях среднего размера (тысяча и даже более адаптивных переменных в сети с несколькими десятками нейронов) может приводить к негативным численным эффектам.

Таким образом, многие эмпирические выводы, существующие в нейросетевой практике относительно применимости и эффективности методов оптимизации, являются неверными, как и отмечено в [1].

1. Wilson D.R., Martinez T.R. The general inefficiency of batch training for gradient descent learning / Neural Networks. 2003, Vol.16. Issue 10. – pp.1429-1451.
2. Battiti R. First- and second-order methods for learning: between steepest descent and Newton's method / Neural Computation,1992. Vol.4. No.2. – pp.141-166.
3. Becker S., LeCun Y. Improving the convergence for back-propagation learning with second order methods / Proc. 1988 Connectionist Models Summer School. Morgan Kaufmann, 1989. – pp.29-37.
4. Battiti R. Accelerated backpropagation learning: two optimization methods / Complex Systems, 1989. Vol.3. – pp.331-342.
5. Beigi H.S.M. Neural network learning through optimally conditioned quadratically convergent methods requiring no line search / Proc. IEEE 36th Symposium on Circuits and Systems, Detroit, Michigan, USA, 1993.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск