Конференции ИВТ СО РАН


«Вычислительные и информационные технологии
в науке, технике и образовании»

Алматы, Казахстан, 6 – 10 октября 2004 года

Тезисы докладов


Изучение возможности оптимизации свойств отдельных моделей boosting-коллектива с использованием идеи кривых обучения

Царегородцев В.Г.

Институт вычислительного моделирования СО РАН (Красноярск)

При объединении нескольких моделей, недостаточно точно решающих задачу прогнозирования или классификации с учителем, в коллектив на основе идей усреднения прогноза или голосования возможно получение сколь угодно высокой точности коллективного решения. Эта идея нашла свое воплощение в нескольких алгоритмах - один из них, а именно boosting-алгоритм [1] и рассматривается. Он предполагает последовательное построение моделей и обучение каждой последующей модели на выборке, в которой повышается доля примеров, неправильно решенных сформированных из ранее построенных моделей коллективом. Т.е. в процессе построения коллектива происходит фокусировка на все более и более трудных примерах, и обучающая выборка для построения очередной модели все сильнее перестает отражать генеральную совокупность, описываемую исходной выборкой данных. Именно эта идея позволяет добиться малой скоррелированности ошибок отдельных моделей, что и позволяет повысить точность коллектива по сравнению с точностью отдельной модели. Развития boosting-алгоритма, например, в плане динамической адаптации способа голосования [2] и иные здесь рассматривать не будем.

Однако, кажется перспективным дополнительная оптимизация каждой модели: при смене законов распределения признаков (поскольку каждая очередная искусственно выделяемая выборка все менее и менее отражает свойства генеральной совокупности) должна проводиться переоптимизация предобработки данных (правил нормировки значений признаков) [3,4], подтверждаться оптимальность размера очередной обучающей выборки для адекватного оценивания параметров модели фиксированной структуры (сложности) [5], либо дополнительно должна оптимизироваться и сложность модели для максимизации обобщающих способностей последней [6]. Идеи [5,6] "кривых обучения", т.е. зависимостей ошибок обучения и обобщения от размера обучающей выборки или информационной емкости модели, и применяются в работе выбора оптимальных настроек. В качестве класса моделей в работе взяты обучаемые с учителем искусственные нейронные сети, позволяющие менять сложность модели простым увеличением числа нейронов.

Иллюстративные эксперименты на основе одной из баз реальных данных из UCI KDD Database Repository (http://kdd.ics.uci.edu/) показывают четкое проявление экстремальных свойств кривых обучения, что позволяет оптимизировать каждый шаг построения очередной модели коллектива.

1. Schapire R. The strength of weak learnability / Machine Learning, 1990. Vol.5. No.2. – pp.197-227.
2. Freund Y., Schapire R. Experiments with a new boosting algorithm / Proc. 13th Conf. on Machine Learning, 1993. – pp.148-156.
3. Царегородцев В.Г. Оптимизация предобработки данных: константа Липшица обучающей выборки и свойства обученных нейронных сетей // Нейрокомпьютеры: разработка, применение. 2003, №7. – c.3-8.
4. Царегородцев В.Г. Оптимизация предобработки признаков данных: критерии оптимальности / Нейрокомпьютеры: разработка, применение. 2004. (направлено в журнал).
5. Cortes C., Jackel L.D., Solla S.A., Vapnik V., Denker J.S. Learning curves: Asymptotic values and rate of convergence / Advances in Neural Information Processing Systems 6 (1993). Morgan Kaufmann, 1994. – pp.327-334.
6. Cortes C., Jackel L.D., Chiang W.-P. Limits on learning machine accuracy imposed by data quality / Advances in Neural Information Processing Systems 7 (1994). MIT Press, 1995. – pp.239-246.

Примечание. Тезисы докладов публикуются в авторской редакции



Ваши комментарии
Обратная связь
[ICT SBRAS]
[Головная страница]
[Конференции]

© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск