Институт вычислительной математики
и математической геофизики



Международная конференция по вычислительной математике
МКВМ-2004


Тезисы докладов


Параллельные численные алгоритмы

К созданию параллельных реализаций программных имитаторов искусственных нейронных сетей: новый подход

Царегородцев В.Г.

Институт вычислительного моделирования СО РАН (Красноярск)

Рассматриваются перспективы создания параллельных реализаций программных имитаторов искусственных нейронных сетей. В качестве основной нейросетевой архитектуры взяты слоистые нейронные сети (многослойные персептроны), обучаемые алгоритмами на базе обратного распространения ошибки, и решающие задачи обучения с учителем (классификация с учителем, регрессия, автоассоциация). Традиционное мнение, поддерживаемое слабой производительностью стандартных нейропрограмм вроде Statistica Neural Networks, Trajan, NeuroSolutions и других, в первую очередь предлагает для распараллеливания задачу обучения нейросети.

В работе на основе опыта автора и оценки современных научных достижений в нейроинформатике доказывается необходимость сосредоточения усилий на программировании специальных сервисных процедур и распараллеливании именно их вместо распараллеливания алгоритмов обучения единичной нейросети.

В задаче обучения нейросети коррекция сети может идти как после просмотра каждого очередного примера обучающей выборки, так и путем накопления градиентов всех примеров и использования суммарного антиградиента. Последняя группа методов может быть легко распараллелена, но теоретически и практически проигрывает по скорости обучения обучению "на лету" [1]. Также использование суммарного градиента часто приводит к переобучению нейросети [2], особенно при надстраивании над суммарным градиентом более эффективных методов оптимизации типа сопряженных градиентов [3]. Поэтому для предотвращения побочных эффектов лучше использовать попримерное обучение, которое не распараллеливается, а распараллеливать схему [4] предварительного определения оптимального шага коррекции, дающего высокую скорость обучения наравне с достижением высоких обобщающих способностей сети.

Скорость обучения очень сильно зависит от схемы предобработки данных перед их подачей нейросети [5]. Эффективно может быть распараллелено вычисление константы Липшица обучающей выборки как меры оптимальности предобработки [5], а для задач классификации с учителем перед оптимизацией предобработки можно отобрать примеры, лежащие вдоль разделяющей классы поверхности (которая затем будет идентифицирована нейросетью) эффективно распараллеливаемым методом [6]. Также обучение может идти не на всей обучающей выборке, а путем [7] селекции после каждой итерации обучения малого числа очередных обучающих примеров из их общего большого набора, что может тоже быть выполнено параллельно.

Параллельное обучение нескольких сетей на выборках разного размера, полученных из исходной, существенно повысит эффективность схемы оценивания [8] размера обучающей выборки, дающего максимальное качество дальнейшего распознавания, что нужно при недостаточном объеме исходной выборки и дороговизне сбора дополнительных данных (чтобы не собирать лишние данные).

Распараллеливание обучения единичной сети может быть полезно в схемах выбора оптимального размера сети одновременно с ее обучением – путем старта с минимального размера и добавления нейронов в сеть по-одному, причем обучается только добавленный нейрон, а остальная структура сети "замораживается". Начиная с первой работы по каскадной корреляции [9] эти схемы могут параллельно обучать нейроны, помещаемые в разные места сети (в тот или иной имеющийся слой или в новый слой), с разными нелинейными функциями [10] и т.д. и затем выбирать и реально встраивать в сеть только один нейрон с наилучшим критерием качества.

Кроме растущих сетей и сетей блочной структуры, эффективно могут быть распараллелены отдельные гибридные алгоритмы, соединяющие два и более метода, не обязательно нейросетевых, например, как метод [11] сжатия данных путем оптимизации схемы грубого квантования методом динамических ядер (нейросетей Кохонена) и более точного описания данных внутри каждого кластера.

Недавно предложенная автором схема [12] повышения надежности решения обратной задачи для нейросети-классификатора тоже содержит отдельные эффективно распараллеливаемые шаги. Может быть распараллелена схема [13] отбора и группировки информативных независимых переменных, использующая обучение и редукцию структур достаточно большого числа нейросетей.

В докладе будут даны более полная библиография и перечень методов, внедрение которых в практику повысит эффективность нейромоделирования, но которые при этом требуют значительных вычислительных затрат, т.е. являются кандидатами на распараллеливание. Необходимость включения дополнительных сервисных алгоритмов, не обязательно нейросетевых, в состав нейропрограмм и их использования при решении задач обоснована в [14]. Из вычислительно затратных методов многие наиболее эффективно могут быть распараллелены при точном знании числа параллельных процессоров, путем оптимального разделения фрагментов задачи между процессорами – такое указание будет сделано в докладе.

Литература
1. Wilson D.R., Martinez T.R. The general inefficiency of batch training for gradient descent learning / Neural Networks, 2003. Vol.16. Issue 10. – pp.1429-1451.
2. Fukumizu K. Effect of batch learning in multilayer neural networks / Proc. 5th ICONIP, 1998. – pp.67-70.
3. Lawrence S., Giles C.L. Overfitting and neural networks: Conjugate gradient and backpropagation / Proc. IJCNN'2000, Como, Italy, 2000. – pp.114-119.
4. Wilson D.R., Martinez T.R. The need for small learning rates on large problems / Proc. IJCNN'2001, Washington, DC, USA, 2001. – pp.115-119.
5. Царегородцев В.Г. Оптимизация предобработки данных: константа Липшица обучающей выборки и свойства обученных нейронных сетей // Нейрокомпьютеры: разработка, применение. 2003, №7. – c.3-8.
6. Hara K., Nakayama K., Kharaf A.A.M. A training data selection in online-training for multilayer neural networks / Proc. IEEE IJCNN'1998, Anchorage, Alaska, USA, 1998. – pp.2247-2252.
7. Robel A. Dynamic pattern selection for faster learning and controlled generalization of neural networks / Proc. ESANN'1994, Brussels, Belgium. 1994. – pp.187-192.
8. Cortes C., Jackel L.D., Solla S.A., Vapnik V., Denker J.S. Learning curves: Asymptotic values and rate of convergence / Advances in Neural Information Processing Systems 6 (1993). Morgan Kaufmann, 1994. – pp.327-334.
9. Fahlmann S.E., Lebiere C. The cascade-correlation learning architecture / Advances in Neural Information Processing Systems 2 (1989). Morgan Kaufmann, 1990. – pp.524-532.
10. Duch W., Jankowski N. Transfer functions: hidden possibilities for better neural networks / Proc. ESANN'2001, Brugge, Belgium. 2001. – pp.81-94.
11. Kambhatla N., Leen T. Fast nonlinear dimension reduction / Advances in Neural Information Processing Systems 6 (1993). Morgan Kaufmann, 1994. – pp.152-157.
12. Царегородцев В.Г. Уточнение решения обратной задачи для нейросети-классификатора // Нейрокомпьютеры: разработка, применение. 2003, №12. (в печати).
13. Царегородцев В.Г. К определению информативности независимых переменных для нейронной сети // Материалы XI Всеросc. семинара "Нейроинформатика и ее приложения", Красноярск, 2003. - 215с. – С.176-177.
14. Царегородцев В.Г. Взгляд на архитектуру и требования к нейроимитатору для решения современных индустриальных задач // там же. – С.171-175.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск
    Дата последней модификации: 06-Jul-2012 (11:52:06)