Еще одна задача

Рассматривая вопросы случайного блуждания цены, было бы непростительно обойти вниманием еще одну важную задачу.

Допустим, что цена, начав двигаться из точки у = а ценовой оси, блуждает в интервале, имею­щем границы в точках у = 0 и у = а + b, и как только она достигнет одной из границ, блуждание прекращается. Возникает вопрос: какова вероятность того, что цена достигнет уровня у = 0 раньше, чем она достигнет уровня у = а + b? Точно также можно поставить и противоположный вопрос.

(С точки зрения биржевой торговли эти вопросы можно интерпретировать следующим образом: когда цена находится в точке у = а, то как лучше трейдеру играть – на повышение или на понижение?)

Обозначим через qа искомую вероятность того, что цена, двигаясь из точки у = а, достигнет уровня у = 0 ранее, чем уровня у = а + b. Корректно определить эту вероятность можно лишь во множестве возможных событий, которое образовано бесконечным множеством траекторий, выходящих из точки а. Чтобы не связываться с бесконечным множеством траекторий, ограничимся рассмотрением мно­жества возможных исходов, соответствующих n изменениям цены, и введем вероятность qn,a достижения ценой уровня у = 0 до момента времени n. Вероятности qn,a с ростом n убывают и имеют предел, который и называется вероятностью qа. Аналогично можно рассмотреть вероятность рa достижения ценой уровня у = а + b раньше, чем уровня у = 0. Можно показать, что ра + qа = 1, тем самым исключается необ­ходимость рассмотрения бесконечного блуждания.

В результате первого изменения цена попадает в точку а + 1 при Х1 = 1 с вероятностью р, 0 < р < 1, или в точку а – 1 при Х1 = –1 с вероятностью q = 1 – р. Тогда по формуле полной вероятности

qа = pqа+1 + qqа–1.                                                                               (18)

Это основное соотношение для нахождения вероятности qa. При этом очевидно, что q0 = 1 и qa+b = = 0. Перепишем соот­ношение (18) в более удобной форме, учитывая, что p + q =1:

q (qаqа-1) = p (qа+1qа)                                                                      (19)

и рассмотрим два случая в зависимости от значений р и q.

1) Пусть р = q = 1/2. Тогда для любого а

qаqа-1 = qа+1qа = Δ,

где Δ – некоторая постоянная, которую необходимо определить. Нетрудно подметить, что величины qa образуют арифметическую прогрессию с разно­стью Δ, так что

qа = q0+ aΔ.

Поскольку q0 = 1, qa+b = 0, имеем 0 = 1 + (а + b, откуда Δ = – 1/(a + b). Таким образом, искомая вероят­ность равна

qa = 1 – а/(a + b) = b/(a + b).                                                               (20)

Точно также, составляя соотношение для вероят­ности ра, можно получить, что:

pа = a/(а + b)

и, следовательно, ра + qa = 1.

2) Пусть р ≠ q. Обозначим q/p = λ. Тогда из (19) имеем

qа+1qа = λ (qаqа-1)

и поэтому

qа+1qа = λa(q1q0)

Если просуммировать обе части по а от 1 до произвольного a0.

(qа+1qа) = λa(q1q0),

то после сокращения и подсчета суммы геометрической прогрессии λa получаем:

q1 qa+1 = (q0q1).                                                            (21)

Учитывая, что q0 = 1 и qa+b = 0, находим из (21)

q1 = (λ – λa+b)/(1 - λa+b)

и

qa =q1(1 – λa)/(1 – λ) – (λ – λa)/(1 - λ).

Окончательно

qa =a – λa+b)/(1 - λa+b).                                                                         (22)

Точно также можно вывести, что

pa = (1 – λa)/(1 - λa+b).

И снова ра + qa = 1.

Только что рассмотренная задача имеет и другую интерпретацию – она ши­роко известна как классическая задача о разорении игрока. Традиционная постановка этой задачи такова. Допустим, что два игрока, имея начальные капиталы а и b, играют в игру «орел и решка» или в какую-нибудь ей подобную. При этом игрок с капиталом а выигрывает в каждой партии с вероятностью р и проигрывает с вероятностью q, р + q = 1 (предполагается, что ничьи исключены). При выигрыше он увеличивает свой капитал на 1, при проигрыше капитал его становится на 1 меньше. После некоторого числа партий может оказаться, что игрок проиграет весь свой капитал а или на руках у него окажется вся сумма денег а + b. Эта ситуация и называ­ется разорением либо первого, либо второго игрока. Можно признать, что если цена, двигаясь из точки а, достигает нуля, то разорен будет игрок с капиталом а, если же цена достигнет точки а + b, то разорится игрок с капиталом b (именно вследствие этого мы говорили, что блуждание прекратится). Поэтому вероятность qa назы­вается вероятностью разорения.

Итак, как мы установили, вероятность разорения игрока с капиталом а в случае одина­ковых возможностей на выигрыш в каждой партии (р = q) равна

qa = b/(a + b),

в случае неодинаковых возможностей (р ≠ q) равна

qa =a – λa+b)/(1 - λa+b).

Рассмотрим несколько примеров, сведенных в табл. 2.

Таблица 2.

p

q

a

b

qa

0,5

0,5

50

50

0,5

0,5

0,5

90

10

0,1

0,45

0,55

90

10

0,866

0,6

0,4

10

90

0,017

Табл.2 показывает, что в случае р = q = 1/2 бóльшие шансы на разорение имеет игрок с меньшим капиталом, и его шансы на разорение тем более увеличиваются, если он менее искусен (или менее везуч) в игре.

Больший интерес, однако, представляет ситуация, когда игрок, для которого результаты отдельных партий более благоприятны, играет с более богатым противником (как, например, в последней строке табл. 2). В теории рассматривается даже случай, когда у игрока с начальным капиталом а соперник «бесконечно» богат, то есть b = ∞, но при этом р > q. В этом случае в формуле (22) следует перейти к пределу при b → ∞. Тогда, поскольку λ = q/p < 1, то

qa → λa = (q/p)a

и вероятность выигрыша игрока с капиталом а стремится к величине

1 – (q/p)a.

Таким образом, игрок с капиталом а имеет неплохие шансы на выигрыш, несмотря на то, что его соперник бесконечно богат. Напротив, из р < q вытекает, что ра → 0.

В связи с рассмотренной интерпретаций решенной задачи может возникнуть вопрос о средней продолжительности игры до разорения одного из соперников. Понятно, что продолжительность игры представляет собой случайную величину, распределение которой зависит как от соотношения р и q, так и от соотношения а и b. Математиче­ское ожидание продолжительности игры вычисляется более сложным образом, чем вероятность разорения, и поэтому здесь лишь укажем, что оно равно при р = q = 1/2 произведению а • b, а при р ≠ q оно равно

Подсчеты по этим формулам показывают, что продолжитель­ность игры обычно гораздо больше, чем можно было бы пред­положить заранее. При равных шансах на выигрыш в каждой партии длительность игры пропорциональна капиталам игро­ков. Если игра более благоприятна для одного из игроков, то длительность игры в среднем может уменьшиться. Так, например, для указанных в табл. 2 случаев игра продол­жается в среднем 2500, 900, 766, 441 партий соответственно. Игра более искусного игрока (р > q) с бесконечно богатым соперником с положительной вероятностью может вообще не иметь конца.

Определение вероятностей элементарных исходов

Хотя мы и рассмотрели более общий случай асимметричного случайного блуждания цены, тем не менее, у вдумчивого читателя должна остаться некоторая неудовлетворенность. Эта неудовлетворенность связана с тем, что мы не можем априорно знать точные значения вероятностей элементарных исходов p и q, на основании которых вычислялись вероятности других, более сложных событий в рамках той или иной вероятностной модели. Более того, у читателя может возникнуть вполне оправданное подозрение, что значения вероятностей элементарных исходов p и q изменяются с течением времени. (Собственно говоря, случай симметричного блуждания нередко выбирается как результат незнания вероятностей элементарных исходов, как компромиссный вариант, при котором р = q = ½) . В этих условиях читатель может поставить под сомнение практическую ценность приведенных выше формул, а точнее, тех результатов, которые получаются в результате их применения.

По этим причинам перед нами встают задачи, по сути дела, обратные тем, которые мы рассматривали: по наблюдениям за исходами испытаний, которые представляют собой статистические данные, определить вероятности элементарных исходов p и q = 1 - p.

Скажем, в схеме испытаний Бернулли по вероятности элементарного «успеха» р предсказывалось суммарное число успехов в n испытаниях, то есть находилась для каждого значения m числа успехов Sn соответствующая ему вероятность:

Рn (m)                                                              (23)

Если веро­ятность «успеха» р заранее неизвестна, ее следует определить по наблюдениям за исходами испытаний, которые представляют собой статистические данные. Частота «успехов» в n испытаниях есть случайная величина Sn/n со значениями m/n, где m = 0, 1, …, n. При этом из формулы (23) следует, что

P{Sn/n = m/n} =  m = 0, ..., n.

Математическое ожидание случайной величины Sn/n равно

МSn/n = (1/n) MSn = (1/n)nр = р,                                                (24)

а ее дисперсия равна

DSn/n =(1/n2)DSn = (1/n2)np(1 – p) = p(1 – p)/n.

Следовательно, среднее значение частоты успеха есть не­известная вероятность успеха р, а дисперсия частоты, то есть мера рассеяния значений частоты около р, стремится к нулю при  ∞ как 1/n. Из закона больших чисел для схемы Бернулли следует, что при любом ε > 0 и n → ∞

P{│Sn/n - p│> ε} → 0.                                                                          (25)

Иначе говоря, вероятности любых наперед заданных отклонений Sn/n от р с ростом n делаются сколь угодно малыми. Из этих рассуждений естественно сделать вывод, что частота Sn/n является достаточно хорошей оцен­кой неизвестной вероятности р (в математической статистике оценки р со свойством (24) называются несмещенными, а со свойством (25) – состоятельными).

Доводы в пользу частоты Sn/n как оценки неизвест­ной вероятности успеха можно дополнить следующим рас­суждением. О значении р нам известно только то, что 0 ≤ р ≤ 1. Напротив, значение Sn/n известно по результатам n испытаний, при этом ясно, что этому значению m/n соответствует вероятность , зависящая от не­известного р. Рассмотрим при фиксированном m выражение Рn (p) как функцию от р, 0 ≤ р ≤ 1.

Будем «перебирать» возможные значения р и сравнивать соответ­ствующие им значения Рn (р) по величине. Идея этой про­цедуры состоит в том, чтобы выбрать в качестве «истинного» то значение р, для которого выражение Рn (р) принимает максимально возможное значение при фиксированном m.

«Выбор» р можно осуществить следующим образом. Поскольку биномиальный коэффициент  не зависит от р, рассмотрим вместо Рn (р) функцию L (р) = рm (1 - р)n-m, 0 ≤ р ≤ 1. Эта функция обращается в нуль в точках р = 0 и р = 1, вы­пукла, неотрицательна и имеет максимум в точке р* = m/n, 0 < р* < 1 (в последнем легко убедиться, при­равнивая производную L' (р) нулю и решая полученное уравнение). Таким образом, наибольшему значению  отвечает значение р, равное m/n.

К сожалению, в каждом конкретном случае отклонения частоты от вероятности могут быть значитель­ными, что в определенной степени подрывает практическую ценность полученных результатов. Из-за этого на практике нередко более предпочтительным оказывается метод оценивания неизвестной веро­ятности, при котором указывается не одно, а целый интервал подходящих значений р, называемый доверительным интервалом. Проиллюстрируем построение «грубого» доверительного интервала для р на основе неравенства Чебышёва.

По неравенству Чебышева

P{│Sn/n - p│≤ ε} ≥ 1 – p(1 – p)/2 ≥ 1 – 1/42,

поскольку p(1 – p) ≤ 1/4 . Зададимся числом α, 0 < α < 1, и найдем ε > 0 из уравнения

1 – 1/42 = 1 – α.

Заменяя ε на 1/2, получаем

P{│Sn/n - p│≤ 1/2} ≥ 1 – α,

или

P{│Sn/n - p│> 1/2} < α,

С вероятностью, превосходящей 1 – α, выполняется неравенство

Sn/n - p│≤ 1/2

или ему равносильное

Sn/n 1/2 pSn/n + 1/2.

Интервал с границами pmin = Sn/n 1/2 и pmax = Sn/n + 1/2называется доверительным интервалом для р с уровнем зна­чимости α. Смысл его применения заключается в том, что, доверяясь проведенному расчету, можно утверждать, что не­известная вероятность р принадлежит интервалу [pmin, pmax], а вероятность возможной ошибки, имеющей место, если этот интервал не покрывает истинное значение р, не превосходит α. Другими словами, при использовании доверительного интервала уровня значимости α для оценки р мы будем ошибаться в среднем в доле случаев, не превосходящей α (α задается заранее).

Приведем для примера доверитель­ные интервалы для α = 0,05 и значения частоты 0,6 при разных значениях n (см. табл.3):

Таблица 3

N

pmin

pmax

100

0,38

0,82

1000

0,529

0,671

10000

0,578

0,622

Из таблицы видно, что с ростом n доверительный интервал сужа­ется. Если уменьшить α, например взять а = 0,01, то для тех же данных при n = 1000 получим доверительный интер­вал [0,442, 0,758 ]. Этот доверительный интервал шире того, который соответствует уровню α = 0,05, что является ло­гичным следствием гарантированного уменьшения доли оши­бочных решений.

Часто в этой же ситуации возникает проблема проверки гипотезы о том, что неизвестная вероятность р равна задан­ному числу р0. Эту гипотезу, анализируя результаты экс­перимента, можно принять, то есть посчитать не противоре­чащей статистическим данным, или отклонить.

Можно указать такую процедуру проверки гипотезы р = р0: если p0  [pmin, pmax], где [pmin, pmax] доверительный интервал с уровнем значимости α, то гипотеза р = p0 принимается, если же p0  [pmin, pmax], то эта гипотеза отклоняется. При этом можно отклонить верную гипотезу, слишком полагаясь на «неудач­ные» в некотором смысле результаты эксперимента. Вероят­ность такой ошибки нам известна, вернее, нами задана заранее при построении доверительного интервала, и она не превосходит α. Если, например, n = 1000, р0 = 0,5, α = 0,05, то, отвергая гипотезу о том, что р = 0,5, на осно­вании того, что 0,5 [0,529,0,671] (см. табл. 3), мы ошибаемся в среднем менее чем в 5 случаях из 100.

Еще одна интересная задача возникает при необхо­димости различения двух гипотез о неизвестной вероятно­сти р. Пусть заранее известно, что или р = p1 или р = р2, где p1 и р2 — заданные числа, 0 < р1 < р2 < 1. Необходимо экспериментальным путем определить, какое из двух значений p1 и р2 больше соответ­ствует р.

На практике задачу различения двух гипотез о вероят­ности p решают, в частности, следу­ющим образом. Пусть α и β – два малых числа, 0 < α < 1, 0 < β < 1. Для проверки гипотез р = p1 и р = p2, p1 < p2, производится n независимых испытаний и подсчитывается число «удачных» m. Тогда

если m > mn, то принимается гипотеза р = р2,

если mmn, то принимается гипотеза р = р1.

Здесь mn – критическое значение m, подлежащее опреде­лению. Вероятность ошибочного отклонения верной гипотезы р = p1 равна

Pn(mn, p1) = ,

а вероятность ошибочного принятия неверной гипотезы р = p1 равна

Qn(mn, p2) = .

Спрашивается, каково наименьшее число испытаний, при котором возможно различение двух гипотез с вероятностями ошибок, не превосходящими заданных чисел α и β. Наи­меньшее значение n и соответствующее ему значение mn удовлетворяют неравенствам

Pn(mn, p1) α, Qn(mn, p2) ≤ β                                                                 (26)

Однако при решении практических задач использовать неравенства (26) для нахождения n и mn не представляется возможным, поэтому пользуются специальными таблицами, в ко­торых указываются пары (n, mn) для употребительных зна­чений р1, р2, α, β.

В качестве примера в табл. 4 приведены результа­ты решения задачи о различении гипотез для α = β = 0,05:

Таблица 4

p1

p2

n

mn

0,1

0,5

13

3

0,3

0,5

67

26

0.1

0,2

135

19

0,05

0,1

248

21

Если число испытаний не фиксировать заранее, а опре­делять в ходе эксперимента, действуя по указанной выше схеме: на каждом шаге или принимать одну из гипотез, или продолжать наблюдения, то число испытаний при тех же ограничениях на вероятности ошибок удается сократить в среднем почти вдвое.

К сожалению, чем представительнее выборка, то есть количество наблюдений n, тем больше шансы того, что мы «поймаем» не текущее, а минувшее значение p. В принципе мы здесь сталкиваемся с тем же, с чем сталкивается технический анализ – с запаздыванием. В техническом анализе это случается сплошь и рядом – возьмем для примера хотя бы скользящие средние. Чем короче период усреднения, тем больше ложных сигналов дает индикатор, построенный на скользящих средних. Чем больше период усреднения, тем надежнее сигнал индикатора, но, увы, он может прийти очень поздно, когда «поезд уже ушел» и «все сливки сняли». Несмотря на эти недостатки, технические аналитики не отказываются от скользящих средних. Точно также и недостатки рассмотренных выше методов не дают оснований для полного отказа от их использования.

А случайно ли случайное блуждание?

Увы, если некоторая величина не является детерминированной (то есть предопределенной), то из этого вовсе не следует, что она может рассматриваться как случайная. Строго говоря, случайность требует статистической устойчивости. В этой связи кроме детерминированных и случайных величин различают еще и неопределенные. К сожалению, математические модели, применяемые в настоящее время, содержат либо детерминированные, либо случайные величины, либо те и другие вместе, но не используют неопределенных. Вот почему неопределенные величины на практике приходится приближенно представлять через детерминированные и случайные. По этой причине бывает полезно выяснить, насколько случаен исследуемый временной ряд (в нашем случае это ряд цен) или же для него характерна определенная система.

Существуют различные критерии определения случайности ряда. Рассмотрим некоторые из них.

Наиболее простой критерий связан с поворотными точками и заключается в подсчете пиков и впадин ценового ряда. «Пиком» называется значение ряда, которое больше двух соседних, а «впадиной» – наоборот, которое меньше двух соседних. Оба этих значения называются «поворотными точками». Возникает вопрос: каково распределение поворотных точек в случайном ряду?

Понятно, что для определения поворотной точки требуется три последовательных значения. Для простоты представим, что эти три значения попарно не равны (для примера возьмем значения {1, 2, 3}). Тогда если ряд случаен, то эти три значения могут следовать в любом из шести возможных порядков (3! = 6) с равной вероятностью: (1 2 3), (1 3 2), (2 1 3), (2 3 1), (3 1 2), (3 2 1). Нетрудно видеть, что только в четырех из них имеется поворотная точка, то есть наибольшее или наименьшее значение, стоящее в середине. Таким образом, вероятность обнаружения поворотной точки в любой группе из трех значений случайного ряда равна 4/6 = 2/3.

Теперь рассмотрим конечный ряд из n величин: u1, u2, …, un. Ясно, что начальное значение не может быть поворотной точкой, поскольку мы не знаем значения u0; точно также не может быть поворотной точкой и последнее значение, так как неизвестно un+1.

Введем счетную переменную Хi следующим образом:

Хi

=1, ui < ui+1 >ui+2 или ui > ui+1< ui+2

=0, во всех других случаях

Тогда число поворотных точек p в ряде равняется:

p = ,

а математическое ожидание

М(р) = (n-2)*2/3.

Если число поворотных точек больше, что бывает достаточно редко, то это означает, что ряд является быстро колеблющимся, что нельзя объяснить чистой случайностью; в этом случае присутствует какая-то вынужденность.

Если же число поворотных точек меньше, то последовательные значения положительно коррелированны.

Чтобы сделать вывод о том, насколько существенна разница в количестве наблюдаемых и ожидаемых поворотных точек, необходимо знать дисперсию p, значение каковой равно (16n ‑ 29)/90.

Другим критерием случайности ряда является распределение интервала (длины фазы) между соседними поворотными точками. Так, если ui является пиком, а ui+1 – впадиной, то между ними фаза будет равняться 1. Чтобы установить наличие фазы длины d (для определенности восходящей), необходимо выявить (d +3) членов ряда, содержащих падение от первого члена до второго, потом последовательный подъем до (d + 2)-го члена и, наконец, падение к (d +3)-му члену. Всего существует (d2 + 3d +1) фаз для случая роста и столько же нисходящих фаз. Следовательно, вероятность либо восходящей, либо нисходящей фазы в группе из (d +3) значений равна:

2(d2 + 3d +1)/(d + 3)!

В ряде длины n последовательно можно выделить (nd – 2) группы по (d + 3) членов и тогда математическое ожидание числа фаз длиной d во всем ряде равняется:

2(nd – 2)(d2 + 3d +1)/(d + 3)!,

а математическое ожидание общего числа фаз длины от 1 до (n – 3) равняется:

N = 2[(2n - 7)/6 – 1/n!] или, если пренебречь значением 1/n! , N = (1/3)(2n - 7).

Еще один критерий проверки случайности ряда, заключается в подсчете количества положительных разностей первого порядка или точек возрастания ряда. Для ряда из n членов можно получить n – 1 разность. Введем для ряда счетную переменную:

Если число точек возрастания ряда обозначить как c, то математическое ожидание этой величины будет равно:

М(с) = (1/2)(n – 1),

а дисперсию можно выразить как:

D(c) = (1/12)(n + 1).

Следует отметить, что критерий, основанный на разностях, бесполезен для рядов, описывающих колебательное движение, в котором число точек возрастания всегда будет приблизительно равно (1/2)n. Поэтому он рекомендуется лишь для проверки наличия линейного тренда. Точно также критерий, основанный на поворотных точках, плохо подходит для выявления тренда, ибо наложение заметных случайных колебаний на умеренный тренд приводит примерно к тому же количеству поворотных точек, что и при отсутствии тренда.

Идею сравнения соседних значений ряда можно развить до сравнения всех значений. Для заданного ряда u1, u2, …, un подсчитаем количество случаев, когда uj > ui при j > i. Обозначим число таких случаев P. Всего для сравнения имеется (1/2)n(n – 1) пар и математическое ожидание числа P для случайного ряда равно (1/4)n(n – 1). Если фактическое P больше этого значения, то это указывает на наличие возрастающего тренда. Если значение P меньше указанного значения, то это свидетельствует о наличии нисходящего тренда.

Число P связано простым соотношением с коэффициентном ранговой корреляции :


Этот коэффициент может изменяться от -1 до +1. Его математическое ожидание для случайного ряда равно 0, а дисперсия 2(2n +5)/9n(n – 1). Данный критерий лучше всего подходит для обнаружения тренда, поскольку не требует больших вычислений и легко обновляется.

Если же предполагается, что тренда нет, то подсчет поворотных точек как критерий проверки гипотезы о случайности при альтернативной гипотезе о наличии систематических колебаний прост для применения и эффективен на практике. Но если поворотные точки появляются гроздьями, то больше подходит фазовый критерий.

Литература

Кендэл М. Временные ряды. – М.: Финансы и статистика, 1981.

Колмогоров А.Н., Журбенко И.Г., Прохоров А.В. Введение в теорию вероятностей. – М.: Наука, 1982.

Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. – М.: Финансы и статистика, 2003.

Такач Л. Комбинаторные методы в теории случайных процессов. – М.: Мир, 1971.