Методы оптимизации

Назад § 4. Метод Ньютона Вперед

... это они от радости усложняют, из увлечения умственным трудом — раньше они голыми руками работали и без смысла в голове; пусть теперь радуются своему разуму.

— Ну, ладно, — понял Копенкин, — тогда им надо получше усложнять, следует в полной мере помочь. Ты выдумай им что-нибудь ... неясное.

А. Платонов. Чевенгур

Здесь описывается и обсуждается важнейший метод второго порядка - метод Ньютона.

4.1. Эвристические соображения, приводящие к методу Ньютона безусловной оптимизации.

Если исходить из того, что необходимым этапом нахождения решения задачи

f(x) ® min,(1)

где f: Rm ® R, является этап нахождения стационарных точек, т. е.точек, удовлетворяющих уравнению

F(x) =def f ў(x) = Q, (2)

(обозначение F для f ў мы будем сохранять на протяжении всего параграфа), то можно попытаться решать уравнение (2) известным методом Ньютона решения нелинейных уравнений

xn+1 = xn - [F ў(xn)]-1F(xn).(3)

Для задачи (1) этот метод называется методом Ньютона безусловной оптимизации и задается формулой

xn+1 = xn - [f ўў(xn)]-1f ў(xn).(4)

Формула (3) может быть выведена, исходя из следующих соображений. Пусть xn некоторое приближенное решение уравнения (2). Тогда если заменить функцию F в уравнении (2) ее линейным приближением

F(x) » F(x) =def F(xn) + F ў(xn)(x - xn)

и взять в качестве следующего приближения решение уравнения

F(x) = Q,(5)

то мы получим формулу (3).

Применительно к задаче (1) эти соображения выглядят так. Пусть так же, как и в п. 3.2 у нас уже есть некоторое приближенное решение xn задачи (1). Заменим в ней функцию f ее приближением второго порядка:


f(x) » j(x) =def f(xn) + (f ў(xn), x - xn) + 

1
2

(f ўў(xn)(x - xn), x - xn)

и в качестве следующего приближения возьмем решение задачи

j(x) ® min. (6)

З а д а ч а  4.1*. Докажите, что если f ўў(xn) > 0, то решение задачи (6) задается формулой (4).

Геометрическая интерпретация формул (3) и (4) приведена на рис. 10а и 10б.

Метод Ньютона для: а) уравнения (2); б) задачи (1)
Рис. 10.

Метод Ньютона относится к методам второго порядка, поскольку для вычисления каждой итерации требуется знание второй производной функции f. По тем же соображениям градиентный метод относят к методам первого порядка. Подчеркнем, что здесь речь идет не о порядке сходимости метода, а о порядке используемых методом производных минимизируемой функции.

4.2. Теорема о локальной сверхлинейной сходимости метода Ньютона.

Пусть f дважды непрерывно дифференцируема, а x* — невырожденная стационарная точка. Тогда найдется окрестность Vx* точки x* такая, что приближения (4), начатые из произвольной начальной точки x0 О Vx*, сверхлинейно сходятся к x*.

Д о к а з а т е л ь с т в о. Очевидно, F = f ў О C1 и поэтому


lim
x®x*
||F ў(x) - F ў(x*)|| = 0.
(7)

Поскольку F ў(x*) невырожден, в силу (7) при x достаточно близких к x* невырожден и оператор F ў(x) и более того,


lim
x®x*

||[F ў(x)]-1 - [F ў(x*)]-1|| = 0. 

Поэтому, в частности, при x достаточно близких к x*

||[F ў(x)]-1|| Ј C.(8)

Далее, в силу того, что F дифференцируема, а x* — стационарная точка,

F(x) = F(x*) + F ў(x*)(x - x*) + o(x - x*) = F ў(x*)(x - x*) + o(x - x*),

Но тогда в силу (8)

x - x* - [F ў(x)]-1F(x) = [F ў(x)]-1F ў(x)(x - x*) - [F ў(x)]-1F(x) =

= [F ў(x)]-1[F ў(x)(x - x*) - F(x)] = o(x - x*).

или

x - [F ў(x)]-1F(x) - x* = o(x - x*).

В частности, при x = xn

xn+1 - x* = xn - [F ў(xn)]-1F(xn) - x* =def

=def j(xn - x*) = o(xn - x*).
(9)

Возьмем теперь в качестве Vx*, например, окрестность {x О Rm: ||y(x - x*)|| Ј ||x - x*||/2}. В силу (9), очевидно, если x0 О Vx*, то


||xn+1 - x*|| Ј 

1
2

||xn - x*|| Ј ... Ј 

1
2n+1

||x0 - x*|| 

и, следовательно, xn ® x* при n® Ґ. Более того, для произвольного q О (0, 1) найдется e > 0 такое, что ||y(x - x*)|| Ј q||x - x*|| при ||x - x*|| Ј e. Но тогда, если ||xn - x*|| Јe, то ||xn+1 - x*|| Ј q||xn - x*||. Из последнего утверждения очевидным образом вытекает нужное соотношение ||xn - x*|| Ј Cqn.

4.3. Обсуждение метода Ньютона.

Таким образом, метод Ньютона, с одной стороны, может сходиться с более высоким чем градиентный метод порядком, а, с другой стороны, для его сходимости требуются достаточно хорошие начальные приближения (по крайней мере так требуется в доказанной теореме). Простой геометрический пример (см. рис. 11) подтверждает эту особенность метода (мы приводим пример для уравнения (2); соответствующий пример для задачи (1) получается "интегрированием" рис. 11).

Расходимость метода Ньютона для уравнения (2)
Рис. 11.

Разумеется, как метод второго порядка, метод Ньютона требует большего объема вычислительной работы, поскольку приходится вычислять вторые производные функции f.

К этому сводятся основные преимущества (высокий порядок сходимости) и недостатки (локальный характер сходимости и больший объем вычислений) метода Ньютона.

Если функция f дополнительно сильно выпукла, то можно утверждать сходимость именно к решению задачи (1), а не только к стационарной точке функции f, и, кроме того, оценить радиус окрестности, из которой приближения Ньютона сходятся.

4.4. Теорема о квадратичной сходимости метода Ньютона.

Пусть f О C2 и, более того, f ўў удовлетворяет условию Липшица с константой L. Пусть f сильно выпукла с константой l. Пусть Vx* окрестность решения задачи (1), состоящая из точек x О Rm таких, что

||f ў(x)|| < 2l2
L
.

Тогда для x0 О Vx* метод Ньютона квадратично сходится:


||xn - x*|| Ј 

2l
L

q2n, 

где q = L||f ў(x0)||/2l2 < 1.

Д о к а з а т е л ь с т в о. По теореме 2.9 и 2.10 в условиях нашей теоремы решение x* задачи (1) существует и единственно. Воспользуемся аналогом формулы Ньютона — Лейбница для функции f ў:


f ў(xn + h) - f ў(xn) = 

т1

0

f ўў(xn + sh)h ds. 

Вычитая из обеих частей этого равенства f ўў(xn)h = т01f ўў(xn)h dsи учитывая, что f ўў удовлетворяет условию Липшица, получаем (ср.).


||f ў(xn + h) - f ў(xn) - f ўў(xn)h|| Ј  

кк
кк
т1

0

[f ўў(xn + sh) - f ўў(xn)]h ds

кк
кк
 Ј

Ј т 1

0

||f ўў(xn + sh) - f ўў(xn)|| · || h|| ds Ј 

т1

0

Ls||h||2ds = 

L
2

||h||2. 

Положим в полученной оценке h = -[f ўў(xn)]-1f ў(xn):

||f ў(xn + h) - f ў(xn) + f ўў(xn)[f ўў(xn)]-1f ў(xn)|| = || f ў(xn+1)|| Ј

Ј L
2

||[f ўў(xn)]-1f ў(xn)||2 Ј 

L
2

||[f ўў(xn)]-1||2·||f ў(xn)||2. 

(10)

З а д а ч а  4.2*. Докажите, что если обратимый линейный оператор A на Rm удовлетворяет оценке A і l, то ||A-1|| Ј l-1.

Поскольку f сильно выпукла, в силу задачи 2.15, f ўў(xn) і l и поэтому (см. пред. задачу) ||[f ўў(xn)]-1|| Ј l-1. Продолжая неравенство (10), получаем


||f ў(xn+1)|| Ј 

L
2l2

||f ў(xn)||2. 

(11)

С помощью (11) индукцией по n легко доказывается неравенство


||f ў(xn)|| Ј 

ж
и
L
2l2
ц
ш
2n-1



||f ў(x0)||2n = 

2l2
L
ж
и
L
2l2

||f ў(x0)||

ц
ш
2n


 = 2l2
L

q2n. 

(12)

Наконец, в силу сильной выпуклости f, так как x* — решение задачи (1) и, следовательно, f ў(x*) = Q,

0 і f(x*) - f(xn) і (f ў(xn), x* - xn) + l||xn - x*|| 2,

или

(f ў(xn), xn - x*) і l|| xn - x*|| 2.

Но тогда

l||xn - x*|| 2 Ј (f ў(x*), xn - x*) Ј ||f ў(x*)|| · ||xn - x*||,

откуда ||f ў(x*)|| і l|| xn - x*||. Тогда из (12) следует нужное неравенство.

4.5. Продолжение обсуждения метода Ньютона.

Из доказанной теоремы следует, что чем меньше константа Липшица отображения x ® f ўў(x), т. е. чем ближе это отображение к константе, и, следовательно, чем ближе функция f к квадратичной, тем быстрее сходится метод Ньютона. В частности, если f квадратична: f(x) = (Ax, x)/2 + (b, x) + c, то метод Ньютона конечен, а именно, сходится за один шаг, причем из любой начальной точки.

З а д а ч а  4.3. Докажите.

Если снизить требования гладкости на функцию f, например, отказаться от условия Липшица для f ўў, то скорость сходимости, вообще говоря, падает.

З а д а ч а  4.4. Покажите, что для функции f(x) = |x|5/2 метод Ньютона сходится лишь линейно.

Как позволяет думать теорема 4.4, метод Ньютона даже для сильно выпуклых функций в общем случае сходится лишь локально. В следующем пункте мы описываем модификации этого метода, которые могут обладать свойством глобальной сходимости.

4.6. Методы Ньютона с регулировкой шага.

Эти методы еще называют методами Ньютона — Рафсона, или демпфированными методами Ньютона. Они строятся по аналогии с градиентными методами с переменным шагом. Общий вид их таков

xn+1 = xn - an[f ўў(xn)]-1f ў(xn).

Длина шага может выбираться с помощью алгоритма дробления шага (см. п. 3.9), требуя, например, выполнения неравенства

f(xn+1) = f(xn -an[f ўў(xn)]-1f ў(xn)) Ј

Ј f(xn) - ean(f ў(xn), [f ўў(xn)]-1f ў(xn)),
или, как в методе наискорейшего спуска полагая

an = argminaі0{f(xn - a[f ўў(xn)]-1f ў(xn))}.

Можно показать, что методы Ньютона — Рафсона для сильно выпуклых функций глобально квадратично сходятся (по крайней мере для описанных выше алгоритмов выбора шага), причем вдали от точки минимума они сходятся линейно.

4.7. Метод Левенберга — Маркардта.

Этот метод основан на следующей идее. Чтобы избежать расходимости приближений метода Ньютона, вызванных неудачным выбором начального приближения (см. рис. 11), можно попытаться запретить следующей итерации быть слишком далеко от предыдущей. Для этого следующую итерацию ищут из условия

xn+1 = argmin j(x) =def argmin {f(xn) + (f ў(xn), x - xn) +

1
2

(f ўў(xn)(x - xn), x - xn) + 

ln
2

||x - xn||2}, 

где ln — некоторый параметр (вообще говоря, свой на каждом шаге). Первые три слагаемых в определении функции j представляют собой квадратичную аппроксимацию функции f, а последнее слагаемое — "штраф", не позволяющий точке xn+1 уходить далеко от точки xn (с идеями метода штрафов мы еще столкнемся ниже). Минимум (по крайней мере, стационарная точка) функции j вычисляется в явном виде из следующего уравнения (относительно x)

Q = jў(x) = f ў(xn) + f ўў(xn)(x -xn) + ln(x- xn).

Как легко видеть,

xn+1 = argmin j(x) = xn - [f ўў(xn) + lnI]-1f ў(xn).(13)

Последняя формула и есть метод Левенберга — Маркардта.

Очевидно, что если ln = 0, то (13) представляет собой метод Ньютона, а если ln велико, то (поскольку [f ўў(xn) + lnI]-1 » (ln)-1I при больших ln) формула (13) близка к градиентному методу. Поэтому, подбирая значения параметра ln, можно добиться, чтобы метод (13), во-первых, сходился глобально, и во-вторых, квадратично. Можно, например, выбирать ln из следующих соображений: угол между направлениями шага и антиградиента должен быть острым, а значение функции на каждом шаге должно квалифицировано убывать. В этом случае ln должно удовлетворять следующим условиям (здесь мы обозначаем "антинаправление" шага [f ўў(xn) + lnI]-1f ў(xn) через yn)

(yn, f ў(xn))
||yn|| · || f ў(xn)||
 і e1,

f(xn+1) Ј f(xn) - e2(yn, f ў(xn)),

где e1 О (0, 1) и e2 О (0, 1/2) — параметры.

4.8. Еще один недостаток метода Ньютона. Модифицированный метод Ньютона.

В некоторых задачах более существенным недостатком метода Ньютона является его большая вычислительная трудность: на каждом шаге требуется вычисление оператора (матрицы) f ўў(xn) и его (ее) обращение, что при больших размерностях стóит в вычислительном плане очень дорого. Один из способов обхода этих трудностей состоит в "замораживании" оператора f ўў(xn) — использовании на каждом шаге [f ўў(x0)]-1 взамен [f ўў(xn)]-1:

xn+1 = xn - [f ўў(x0)]-1f ў(xn).(14)

Геометрическая интерпретация модифицированного метода Ньютона (14) изображена на рис. 12.

Модифицированный метод Ньютона для: а) уравнения (2); б) задачи (1)
Рис. 12.

Можно показать, что при естественных ограничениях модифицированный метод Ньютона сходится лишь линейно (это плата за уменьшение объема вычислений). Можно также не замораживать оператор [f ўў(xn)]-1 навсегда, а обновлять его через определенное число шагов, скажем k:

xn+1 = xn - [f ўў(x[n/kk)]-1f ў(xn);(15)

здесь [a] в верхнем индексе обозначает целую часть числа a. Можно доказать, что если функция f сильно выпукла и f ўў удовлетворяет условию Липшица, то

||xn+k - x*|| Ј C||xn - x*||k+1,

т. е. за k шагов порядок погрешности уменьшается в k + 1 раз, что соответствует следующей оценке погрешности на каждом шаге:

||xn+1 - x*|| Ј C||xn - x*||kЦk+1.

Другими словами, метод (15) является методом kЦk+1-го порядка сходимости. Таким образом, метод (15) занимает промежуточное положение между методом Ньютона (k = 1) и модифицированным методом Ньютона (14) (k = Ґ) как по скорости сходимости, так и по объему вычислений.

Другой способ уменьшения объема работы, связанного с вычислением функции f ўў(xn) описывается в следующем пункте.

4.9. Метод секущих.

Напомним, что метод секущих решения уравнения (2) заключается в приближенной замене функции F в этом уравнении не касательной y = F(xn) + F ў(xn)(x - xn), а секущей гиперплоскостью. Например, в одномерном случае — прямой y = F(xn) + (F(xn) - F(xn-1))(x - xn) /(xn - xn-1) (см. рис. 13). Эта замена приводит (в скалярном случае!) к следующему методу решения задачи (1):


xn+1 = xn - 

xn - xn-1
f ў(xn) - f ў(xn-1)

f ў(xn), 

который и называется методом секущих. Известно, что для достаточно гладких выпуклых функций порядок сходимости этого метода равен t, где t = (Ц5 + 1)/2 » 1.618 — известная константа (называемая золотым сечением).

Метод секущих для уравнения (2)
Рис. 13.

В многомерном случае поступают следующим образом. Пусть xn, xn-1, ..., xn-m уже вычисленные m + 1 итерации. Для каждой компоненты fjў функции f ў (j = 1, ..., m) построим в Rm+1 гиперплоскость Sj, проходящую через m + 1 точку (xi, fjў(xi)) (i = n - m, ..., n) графика этой компоненты. Пусть P "горизонтальная" проходящая через нуль гиперплоскость в Rm+1: P = {(x, y) О Rm×R; y = 0}. В качестве xn+1 возьмем точку пересечения гиперплоскостей P и Sj:


xn+1 О P З

ж
и
m
З
j = 1

Sj
ц
ш

(в общем положении эта точка единственна).

Несложные рассуждения показывают, что xn+1 можно вычислять так. Пусть a0, ..., an — решение системы

m
е
i = 0

aif ў(xn-i) = 0,   

m
е
i = 0

ai = 1. 

(16)

Тогда


xn+1 = 

m
е
i = 0

aixn-i. 

Затем описанные действия повторяются для точек xn+1, xn, ..., xn-m+1.

Отметим, что поскольку на каждом шаге в системе (16) меняется лишь один столбец, то ее решение на каждом шаге можно обновлять с помощью специальной процедуры, не требующей большого объема вычислений.

Отметим, что метод секущих, в отличие от ранее рассматривавшихся методов, не является одношаговым в том смысле, что для вычисления следующей итерации ему не достаточно информации, полученной на предыдущем шаге — нужна информация, полученная на m + 1 предыдущих шагах. Такие методы называются многошаговыми. В следующем параграфе мы рассмотрим ряд таких методов. Методы же Ньютона и градиентный являются одношаговыми: для вычисления xn+1 требуется знать поведение функции и ее производных только в точке xn.


File based on translation from TEX by TTH, version 3.05.
Created 7 Jun 2002, 21: 38.