21.09.2019

Методом наибольшего правдоподобия оценить значение параметра. Методы получения оценок


В предыдущем разделе рассматривалась байесовская теория оценивания. Одной из наиболее полезных оценок, полученных там, является оценка по максимуму апостериорной плотности вероятности. Значения этой оценки определяются путем максимизации условной плотности

относительно переменной . Для этой оценки было введено специальное обозначение . Так как безусловная плотность не зависит от параметра , то значения оценки могут отыскиваться путем максимизации совместной плотности

относительно . Можно также максимизировать значение натурального логарифма от этой плотности. В этом случае значение оценки при каждой выборке является корнем уравнения

Предположим теперь, что никаких априорных сведений о параметре нет. Если бы параметр был случайным и имел нормальную плотность вероятности

,

то рассматриваемый здесь случай можно было бы получить предельным переходом при неограниченном увеличении дисперсий всех компонент вектора . Так как при этом

,

то при имеем . Таким образом, при отсутствии априорных сведений о параметре можно положить

. (6.27)

Получающаяся при этом из ур-ния (6.26) оценка называется оценкой максимального правдоподобия. Она является корнем уравнения

(6.28)

или, что эквивалентно,

. (6.29)

Оценка максимального правдоподобия была предложена раньше, чем была развита байесовская теория оценивания . Она определялась как значение параметра , при котором функция правдоподобия принимает наибольшее значение. Из приведенных выше рассуждений должно быть очевидным, что точность оценки максимального правдоподобия будет хуже, чем байесовской оценки. Несмотря на это, существуют достаточно веские причины, из-за которых использование этой оценки оказывается разумным. Так, довольно часто встречаются задачи оценивания, в которых

Параметр не является случайным, а его значение неизвестно;

Параметр является случайным, однако его априорная плотность вероятности неизвестна;

Выражение для апостериорной плотности [или для ] оказывается настолько сложным, что его трудно использовать для вычислений, в то время как функция правдоподобия имеет относительно простой вид.

В первом случае вообще нет возможности найти байесовскую оценку, поскольку о плотности вероятности вообще нельзя говорить. Один из возможных путей преодоления этой трудности состоит в том, чтобы использовать псевдобайесовские оценки. Такие оценки будут рассмотрены в § 6.5.

Пример 6.6. Рассмотрим одну из классических задач оценивания, которая была решена с использованием оценок максимального правдоподобия. Пусть требуется оценить среднее значение и дисперсию нормальной случайной величины по выборке из независимых наблюдений этой величины. Для наблюдаемой величины при этом имеем

, где

В силу независимости наблюдений можно зависать

В этой задаче подлежащие оцениванию параметры и не являются случайными, так чтобайесовские оценки найти нельзя.

Это уравнение имеет единственный корень , который и следует принять в качестве оценки максимального правдоподобия для среднего значения. Так как математическое ожидание этой оценки совпадает со значением оцениваемого параметра, т. е. то эту оценку называют несмещенной.

Случай 2. Предположим теперь, что значение параметра известно. Оценка максимального правдоподобия для дисперсии в этом случае является корнем уравнения

.

Решив это уравнение, получаем

.

Эта оценка также является несмещенной, поскольку .

Рассмотрим теперь задачу оценивания стандартного отклонения . Можно предположить, что эта оценка представляется как корень квадратный из оценки для дисперсии. Это действительно так, поскольку оценка

является корнем уравнения

Случай 3. Значения обоих параметров и неизвестны. В этом случае оцениваться должны два параметра и . Вычисляя производные функции правдоподобия по переменным и , приравнивая их нулю и решая найденную систему из двух уравнений, получаем

; .

Оценка среднего значения здесь вновь является несмещенной, а среднее значение оценки дисперсии равно значению оцениваемого параметра, т. е. в указанных условиях является смещенной. Можно было бы, введя поправку, получить несмещенную оценку , которая не является, однако, более оценкой максимального правдоподобия.

Часто полезно иметь алгоритмы последовательного вычисления оценок и . Здесь нижние индексы оценок максимального правдоподобия заменены индексом , который указывает объем используемой для оценивания выборки. При объеме выборки, равном , оценка . Поэтому алгоритм последовательного вычисления этой оценки имеет вид . Алгоритм последовательного вычисления оценки отыскивается несколько сложнее. Воспользуемся уже полеченным ранее выражением для оценки

и выпишем аналогичное выражение для оценки

.

Оценку теперь представим в рекуррентном виде. Тогда из двух выписанных равенств после немногочисленных алгебраических преобразований получаем

Рекуррентные алгоритмы вычисления оценок и должны использоваться совместно.

Пример 6.7. Найдем оценку максимального правдоподобия для параметра рассматривавшегося в примере 6.1. Теперь плотность вероятности

Оценка максимального правдоподобия определяется как корень уравнения

и имеет вид

В рассматриваемом случае можно найти и байесовскую оценку

Если принять, что , , то оценка, обеспечивающая минимум среднеквадратической ошибки, совпадает с оценкой максимального правдоподобия. Интересно отметить, что в этом случае оценка с минимальной дисперсией, которая совпадает также с байесовской оценкой при модульной функции стоимости и с оценкой по максимуму апостериорной плотности вероятности, так же, как и оценка максимального правдоподобия, является несмещенной.

Чрезвычайно полезно вычислить корреляционные матрицы вектора ошибок этих двух оценок. Для байесовской оценки такая матрица уже была вычислена и было показано, что

Для оценки максимального правдоподобия получаем

Если теперь воспользоваться представлением , то

Корреляционная матрица вектора ошибок при использовании оценки максимального правдоподобия всегда больше, чем корреляционная матрица вектора ошибок для оценки с минимальной среднеквадратической ошибкой. Эти матрицы совпадают только в том случае, когда .

Полезно рассмотреть также случай, когда матрица является единичной, т. е . При этом .

Оценка максимального правдоподобия, байесовская оценка и их корреляционные матрицы в этом случае принимают вид

Здесь нельзя ожидать, что оценка максимального правдоподобия окажется достаточно точной, поскольку ее значения просто совпадают со значениями получаемой выборки.

Если объем выборки намного больше размерности оцениваемого параметра , то оценка максимального правдоподобия может оказаться достаточно хорошей. Например, пусть , где - скалярный параметр, а векторы и имеют размерность . Предположим также, что

и . Рассматривающиеся здесь оценки и их среднеквадратические ошибки при этом определяются соотношениями

; ;

; .

Часто оказывается, что для достаточно больших значений выполняется неравенство . В этом случае среднеквадратические ошибки обеих оценок будут фактически одинаковы.

Аналогичные результаты можно получить при непрерывном времени для примера 6.3. Если модель наблюдений в последнем примере с дискретным временем трактовать как дискретный аналог следующей модели наблюдаемого процесса

; .

где - нормальный белый шум с нулевым средним значением, то, используя обозначения примера 6.3, можно получить

; .

Отсюда следует, что если вид функции не изменяется при изменении , то среднеквадратическая ошибка оценивания уменьшается с ростом . Если же энергия сигнала , определяемая как , должна оставаться постоянной при любом значении параметра , то значение среднеквадратической ошибки не зависит ни от длительности , ни от формы сигнала . Если , то среднеквадратическая ошибка байесовской оценки фактически будет такой же, как и у оценки максимального правдоподобия. Если же это не так и справедливо обратное неравенство , то это означает, что либо имеется достаточно интенсивный шум ( велико), либо имеется хорошая априорная оценка для , с которой можно начать ( мало). Значения оценки с минимальной среднеквадратической ошибкой и среднеквадратическая ошибка этой оценки при этом мало отличаются от соответствующих параметров априорного распределения и можно записать

;

.

Так что в этом случае среднее значение априорного распределения принимается в качестве наилучшей оценки для параметра . В примере 6.5 уже отмечалось, что при больших отношениях сигнал/шум среднеквадратические ошибки оценивания при использовании оценки по максимуму апостериорной плотности и оценки с минимальной среднеквадратической ошибкой практически одинаковы. Из результатов этого примера следует, что при больших значениях отношения сигнал/шум (здесь при ) точность оценок и практически такая же, как и у оценки максимального правдоподобия

Пример 6.8. Приведем теперь подробный анализ простой задачи оценивания по методу максимального правдоподобия при наличии окрашенного шума. В процессе решения этой задачи будут проиллюстрированы соображения, которыми можно будет пользоваться при практическом выборе интервала дискретизации. Пусть наблюдению доступны реализации скалярного процесса , , где - постоянный скалярный параметр, и

Для решения задачи оценивания параметра поступим следующим образом. Введем соответствующую модель наблюдений при дискретном времени , , , где период отсчетов выбирается так, чтобы изменения процесса на таком интервале были хорошо заметны. Для этой модели имеем

Наблюдаемый процесс можно теперь записать в векторной форме:

.

Оценка максимального правдоподобия параметра

где ковариационная матрица шума имеет элементы: (или от периода отсчетов компоненты вектора (или ) при дальнейшем, даже неограниченном, увеличении объема выборки оказывается незначительным.

Рис. 6.8. Зависимость дисперсии ошибки оценивания от объема выборки (пример 6.8.): 1 - алгоритм, ориентированный на белый шум; 2 - алгоритм, ориентированный на окрашенный шум.

Приведенное выше выражение для справедливо только в том случае, если компоненты вектора в самом деле независимы. Истинное значение среднеквадратической ошибки оценивания при использовании оценки в случае окрашенного шума может быть найдено из соотношения

) алгоритм, ориентированный на белый шум, обеспечивает значение среднеквадратической ошибки, лишь незначительно превышающее значение ошибки для алгоритма, ориентированного на окрашенный шум. Поскольку алгоритмы для белого шума намного проще, чем алгоритмы для окрашенного шума, то в практических приложениях можно поступить следующим образом, объем выборки принять равным 40 и использовать простые алгоритмы оценивания, ориентированные на белый шум, если такая высокая частота отсчетов допустима. Среднеквадратическая ошибка оценивания по выборке объема при использовании алгоритма для окрашенного шума (когда шум на самом деле окрашен) равна среднеквадратической ошибке оценивания по выборке объема при использовании алгоритма для белого шума. Отношение этих среднеквадратических ошибок при равно примерно двум.

Известный таксономист Джо Фельзенштейн (Felsenstein, 1978) был первым, кто предложил оценивать филогенетические теории не на основе парсимо-

нии, а средствами математической статистистики. В результате был разработан метод максимального правдоподобия (maximum likelihood).

Этот метод основывается на предварительных знаниях о возможных путях эволюции, то есть требует создания модели изменений признаков перед проведением анализа. Именно для построения этих моделей и привлекаются законы статистики.

Под правдоподобим понимается вероятность наблюдения данных в случае принятия определенной модели событий. Различные модели могут делать наблюдаемые данные более или менее вероятными. Например, если вы подбрасываете монету и получаете «орлов» только в одном случае из ста, тогда вы можете предположить, что эта монета бракованная. В случае принятия вами данной модели, правдоподобие полученного результата будет достаточно высоким. Если же вы основываетесь на модели, согласно которой монета является небракованной, то вы могли бы ожидать увидеть «орлов» в пятидесяти случаях, а не в одном. Получить только одного «орла» при ста подбрасываниях небракованной монеты статистически маловероятно. Другими словами, правдоподобие получения результата один «орел» на сто «решек» является в модели небракованной монеты очень низким.

Правдоподобие – это математическая величина. Обычно оно вычисляется по формуле:

где Pr(D|H) – это вероятность получения данных D в случае принятия гипотезы H. Вертикальная черта в формуле читается как «для данной». Поскольку L часто оказывается небольшой величиной, то обычно в исследованиях используется натуральный логарифм правдоподобия.

Очень важно различать вероятность получения наблюдаемых данных и вероятность того, что принятая модель событий правильна. Правдоподобие данных ничего не говорит о вероятности модели самой по себе. Философ-биолог Э.Собер (Sober) использовал следующий пример для того, чтобы сделать ясным это различие. Представьте, что вы слышите сильный шум в комнате над вами. Вы могли бы предположить, что это вызвано игрой гномов в боулинг на чердаке. Для данной модели ваше наблюдение (сильный шум над вами) имеет высокое правдоподобие (если бы гномы действительно играли в боулинг над вами, вы почти наверняка услышали бы это). Однако, вероятность того, что ваша гипотеза истинна, то есть, что именно гномы вызвали этот шум, – нечто совсем иное. Почти наверняка это были не гномы. Итак, в этом случае ваша гипотеза обеспечивает имеющимся данным высокое правдоподобие, но сама по себе в высшей степени маловероятна.

Используя данную систему рассуждений, метод максимального правдоподобия позволяет статистически оценивать филогенетические деревья, полученные средствами традиционной кладистики. По сути, этот метод заключа-

ется в поиске кладограммы, обеспечивающей наиболее высокую вероятность имеющегося набора данных.

Рассмотрим пример, иллюстрирующий применение метода максимального правдоподобия. Предположим, что у нас имеется четыре таксона, для которых установлены последовательности нуклеотидов определенного сайта ДНК (рис.16).

Если модель предполагает возможность реверсий, то мы можем укоренить это дерево в любом узле. Одно из возможных корневых деревьев изображено на рис. 17.2.

Мы не знаем, какие нуклеотиды присутствовали в рассматриваемом локусе у общих предков таксонов 1-4 (эти предки соответствуют на кладограмме узлам X и Y). Для каждого из этих узлов существует по четыре варианта нуклеотидов, которые могли там находиться у предковых форм, что в результате дает 16 филогенетических сценариев, приводящих к дереву 2. Один из таких сценариев изображен на рис. 17.3.

Вероятность данного сценария может быть определена по формуле:

где P A – вероятность присутствия нуклеотида A в корне дерева, которая равна средней частоте нуклеотида А (в общем случае = 0,25); P AG – вероятность замены А на G; P AC – вероятность замены А на С; P AT – вероятность замены А на T; последние два множителя – это вероятность созраниния нуклеотида T в узлах X и Y соответственно.

Еще один возможный сценарий, который позволяет получить те же данные, показан на рис. 17.4. Поскольку существует 16 подобных сценариев, может быть определена вероятность каждого из них, а сумма этих вероятностей будет вероятностью дерева, изображенного на рис. 17.2:

Где P tree 2 – это вероятность наблюдения данных в локусе, обозначенном звездочкой, для дерева 2.

Вероятность наблюдения всех данных во всех локусах данной последовательности является произведением вероятностей для каждого локуса i от 1 до N:

Поскольку эти значения очень малы, используется и другой показатель – натуральный логарифм правдоподобия lnL i для каждого локуса i. В этом случае логарифм правдоподобия дерева является суммой логарифмов правдоподобий для каждого локуса:

Значение lnL tree – это логарифм правдоподобия наблюдения данных при выборе определенной эволюционной модели и дерева с характерной для него

последовательностью ветвления и длиной ветвей. Компьютерные программы, применяемые в методе максимального правдоподобия (например, уже упоминавшийся кладистический пакет PAUP), ведут поиск дерева с максимальным показателем lnL. Удвоенная разность логарифмов правдоподобий двух моделей 2Δ (где Δ = lnL tree A- lnL treeB) подчиняется известному статистическому распределению х 2 . Благодаря этому можно оценить, действительно ли одна модель достоверно лучше, чем другая. Это делает метод максимального правдоподобия мощным средством тестирования гипотез.

В случае четырех таксонов требуется вычисления lnL для 15 деревьев. При большом числе таксонов оценить все деревья оказывается невозможным, поэтому для поиска используются эвристические методы (см. выше).

В рассмотренном примере мы использовали значения вероятностей замены (субституции) нуклеотидов в процессе эволюции. Вычисление этих вероятностей является самостоятельно статистической задачей. Для того чтобы реконструировать эволюционное дерево, мы должны сделать определенные допущения по поводу процесса субституции и выразить эти допущения в виде модели.

В самой простой модели вероятности замен какого-либо нуклеотида на любой другой нуклеотид признаются равными. Эта простая модель имеет только один параметр - скорость субституции и известна как однопарамет-рическая модель Джукса - Кантора или JC (Jukes, Cantor, 1969). При использовании этой модели нам необходимо знать скорость, с которой происходит субституция нуклеотидов. Если мы знаем, что в момент времени t= 0 в некотором сайте присутствует нуклеотид G, то мы можем вычислить вероятность того, что в этом сайте через некоторый промежуток времени t нуклеотид G сохранится, и вероятность, того, что в этом сайте произойдет замена на другой нуклеотид, например A. Эти вероятности обозначаются как P(gg) и P (ga) соответственно. Если скорость субституции равна некоторому значению α в единицу времени, тогда

Поскольку в соответствии с однопараметрической моделью любые субституции равновероятны, более общее утверждение будет выглядеть следующим образом:

Разработаны и более сложные эволюционные модели. Эмпирические наблюдения свидетельствуют, что некоторые субституции могут происходить

чаще, чем другие. Субституции, в результате которых один пурин замещается другим пурином, называются транзициями, а замены пурина пиримидином или пиримидина пурином называются трансверсиями. Можно было бы ожидать, что трансверсии происходят чаще, чем транзиции, так как только одна из трех возможных субституций для какого-либо нуклеотида является транзицией. Тем не менее, обычно происходит обратное: транзиции, как правило, происходят чаще, чем трансверсии. Это в частности характерно для митохондриальной ДНК.

Другой причиной того, что некоторые субституции нуклеотидов происходят чаще, чем другие, является неравное соотношение оснований. Например, митохондриальная ДНК насекомых более богата аденином и тимином по сравнению с позвоночными. Если некоторые основания более распространены, можно ожидать, что некоторые субституции происходят чаще, чем другие. Например, если последовательность содержит очень немного гуанина, маловероятно, что будут происходить субституции этого нуклеотида.

Модели различаются тем, что в одних определенный параметр или параметры (например, соотношение оснований, скорости субституции) остаются фиксированными и варьируют в других. Существуют десятки эволюционных моделей. Ниже мы приведем наиболее известные из них.

Уже упомянутая Модель Джукса - Кантора (JC) характеризуется тем, что частоты оснований одинаковы: π A = π C = π G = π T , трансверсии и транзиции имеют одинаковые скорости α=β, и все субституции одинаково вероятны.

Двупараметрическая модель Кимуры (K2P) предполагает равные частоты оснований π A =π C =π G =π T , а трансверсии и транзиции имеют разные скорости α≠β.

Модель Фельзенштейна (F81) предполагает, что частоты оснований разные π A ≠π C ≠π G ≠π T , а скорости субституции одинаковы α=β.

Общая обратимая модель (REV) предполагает различные частоты оснований π A ≠π C ≠π G ≠π T , а все шесть пар субституций имеют различные скорости.

Упомянутые выше модели подразумевают, что скорости субституции одинаковы во всех сайтах. Однако в модели можно учесть и различия скоростей субституции в разных сайтах. Значения частот оснований и скоростей субституции можно как назначить априорно, так и получить эти значения из данных с помощью специальных программ, например PAUP.

Байесовский анализ

Метод максимального правдоподобия оценивает вероятность филогенетических моделей после того, как они созданы на основе имеющихся данных. Однако знание общих закономерностей эволюции данной группы позволяет создать серию наиболее вероятных моделей филогенеза без привлечения основных данных (например, нуклеотидных последовательностей). После того, как эти данные получены, появляется возможность оценить соответствие между ними и заранее построенными моделями, и пересмотреть вероятность этих исходных моделей. Метод, который позволяет это осуществить именуется байесовским анализом , и является новейшим из методов изучения филогении (см. подробный обзор: Huelsenbeck et al. , 2001).

Согласно стандартной терминологии, первоначальные вероятности принято называть априорными вероятностями (так как они принимаются прежде, чем получены данные) а пересмотренные вероятности – апостериорными (так как они вычисляются после получения данных).

Математической основой байесовского анализа является теорема Байеса, в которой априорная вероятность дерева Pr[Tree ] и правдоподобие Pr[Data|Tree ] используются, чтобы вычислить апостериорную вероятность дерева Pr[Tree|Data ]:

Апостериорная вероятность дерева может рассматриваться как вероятность того, что это дерево отражает истинный ход эволюции. Дерево с самой высокой апостериорной вероятностью выбирается в качестве наиболее вероятной модели филогенеза. Распределение апостериорных вероятностей деревьев вычисляется с использованием методов компьютерного моделирования.

Метод максимального правдоподобия и байесовский анализ нуждаются в эволюционных моделях, описывающих изменения признаков. Создание математических моделей морфологической эволюции в настоящее время не представляется возможным. По этой причине статистические методы филогенетического анализа применяются только для молекулярных данных.

непрерывная случайная величина с плотностью Вид плотности известен, но неизвестны значения параметров Функцией правдоподобия называется функция (здесь - выборка объема п из распределения случайной величины £). Легко видеть, что функции правдоподобия можно придать вероятностный смысл, а именно: рассмотрим случайный вектор компоненты которого независимые в совокупности одинаково распределенные случайные величины с законом Д(ж). Тогда элемент вероятности вектора Е имеет вид т.е. функция правдоподобия связана с вероятностью получения фиксированной выборки в последовательности экспериментов П. Основная идея метода правдоподобия состоит в том, что в качестве оценок параметров А предлагается взять такие значения (3), которые доставляют максимум функции правдоподобия при данной фиксированной выборке, т. е. предлагается считать выборку, полученную в эксперименте, наиболее вероятной. Нахождение оценок параметров pj сводится к решению системы к уравнений (к - число неизвестных параметров): Поскольку функция log L имеет максимум в той же точке, что и функция правдоподобия, то часто систему уравнений правдоподобия (19) записывают в виде В качестве оценок неизвестных параметров Д следует брать решения системы (19) или (20), действительно зависящие от выборки и не являющиеся постоянными. Вслучае, когда £ дискретна с рядом распределения, функцией правдоподобия называют функцию и оценки ищут как решения системы Метод максимального правдоподобия или эквивалентной ей Можно показать, что оценки максимального правдоподобия обладают свойством состоятельности. Следует отмстить, что метод максимального правдоподобия приводит к более сложным вычислениям, нежели метод моментов, но теоретически он более эффективен, так как оценки максимального правдоподобия меньше уклоняются от истинных значений оцениваемых параметров, чем оценки, полученные по методу моментов. Для наиболее часто встречающихся в приложениях распределений оценки параметров, полученные по методу моментов и по методу максимального правдоподобия, в большинстве случаев совпадают. Пршир 1. Отклонение (размера детали от номинала является нормально распределенной случайной личиной. Требуется по выборке определить систематическую ошибку и дисперсию отклонения. М По условию (- нормально распределенная случайная величина с математическим ожиданием (систематическая ошибка) и дисперсией, подлежащими оценке по выборке объема п: Х\>...уХп. В этом случае Функция правдоподобия Система (19) имеет вид Отсюда, исключай решения, не зависящие от Хх, получаем т е. оценки максимального правдоподобия в этом случае совпадают с уже известными нам эмпирическими средним и дисперсией > Пример 2. Оценить по выборке параметр /i экспоненциально распределенной случайной величины. 4 Функция правдоподобия имеет вид Уравнение правдоподобия приводит нас к решению совпадающему с оценкой этого же параметра, полученной по методу моментов, см. (17). ^ Пример 3. Пользуясь методом максимального правдоподобия, оценить вероятность появления герба, если при десяти бросаниях монеты герб появился 8 раз. -4 Пусть подлежащая оценке вероятность равна р. Рассмотрим случайную величину (с рядом распределения. Функция правдоподобия (21) имеет вид Метод максимального Уравнение правдоподобия дает в качестве оценки неизвестной вероятности р частоту появления герба в эксперименте Заканчивая обсуждение методов нахождения оценок, подчеркнем, что, даже имея очень большой объем экспериментальных данных, мы все равно не можем указать точного значения оцениваемого параметра, более того, как уже неоднократно отмечалось, получаемые нами оценки близки к истинным значениям оцениваемых параметров только «в среднем» или «в большинстве случаев». Поэтому важной статистической задачей, которую мы рассмотрим далее, является задача определения точности и достоверности проводимого нами оценивания.

Кроме метода моментов, который изложен в предыдущем параграфе, существуют и другие методы точечной оценки неизвестных параметров распределения. К ним относится метод наибольшего правдоподобия, предложенный Р. Фишером.

А. Дискретные случайные величины. Пусть X - дискретная случайная величина, которая в результате n испытаний приняла значения х 1 , х 2 , ..., х п . Допустим, что вид закона распределения величины X задан, но неизвестен параметр θ , которым определяется этот закон. Требуется найти его точечную оценку.

Обозначим вероятность того, что в результате испытания величина X примет значение х i (i = 1 , 2, . . . , n ), через p (х i ; θ ).

Функцией правдоподобия дискретной случайной вели чины X называют функцию аргумента θ :

L (х 1 , х 2 , ..., х п ; θ ) = p (х 1 ; θ ) р (х 2 ; θ ) . . . p (х n ; θ ),

где х 1 , х 2 , ..., х п - фиксированные числа.

В качестве точечной оценки параметра θ принимают такое его значение θ * = θ * (х 1 , х 2 , ..., х п ), при котором функция правдоподобия достигает максимума. Оценку θ * называют оценкой наибольшего правдоподобия.

Функции L и ln L достигают максимума при одном и том же значении θ , поэтому вместо отыскания максимума функции L ищут (что удобнее) максимум функции ln L .

Логарифмической функцией правдоподобия называют функцию ln L . Как известно, точку максимума функции ln L аргумента θ можно искать, например, так:

3) найти вторую производную ; если вторая производная приθ = θ * отрицательна, то θ * - точка максимума.

Найденную точку максимума θ * принимают в качестве оценки наибольшего правдоподобия параметра θ .

Метод наибольшего правдоподобия имеет ряд достоинств: оценки наибольшего правдоподобия, вообще говоря, состоятельны (но они могут быть смещенными), распределены асимптотически нормально (при больших значениях n приближенно нормальны) и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра θ существует эффективная оценка θ *, то уравнение правдоподобия имеет единственное решение θ *; этот метод наиболее полно использует данные выборки об оцениваемом параметре, поэтому он особенно полезен в случае малых выборок.

Недостаток метода состоит в том, что он часто требует сложных вычислений.

Замечание 1. Функция правдоподобия - функция от аргумента θ ; оценка наибольшего правдоподобия - функция от независимых аргументов х 1 , х 2 , ..., х п .

Замечание 2. Оценка наибольшего правдоподобия не всегда совпадает с оценкой, найденной методом моментов.

Пример 1. λ распределения Пуассона

где m - число произведенных испытаний; x i - число появлений события в i -м (i =1, 2, ..., n ) опыте (опыт состоит из т испытаний).

Решение. Составим функцию правдоподобия, учитывая, что. θ= λ :

L = p (х 1 ; λ :) p (х 2 ; λ :) . . .p (х n ; λ :),=

.

Напишем уравнение правдоподобия, для чего приравняем первую производную нулю:

Найдем критическую точку, для чего решим полученное уравнение относительно λ:

Найдем вторую производную по λ:

Легко видеть, что при λ = вторая производная отрицательна; следовательно,λ = - точка максимума и, значит, в качестве оценки наибольшого правдоподобия параметра λ распределения Пуассона надо принять выборочную среднюю λ* = .

Пример 2. Найти методом наибольшего правдоподобия оценку параметра p биномиального распределения

если в n 1 независимых испытаниях событие А появилось х 1 = m 1 раз и в п 2 независимых испытаниях событие А появилось х 2 = т 2 раз.

Решение. Составим функцию правдоподобия, учитывая, что θ = p :

Найдем логарифмическую функцию правдоподобия:

Найдем первую производную по р:

.

.

Найдем критическую точку, для чего решим полученное уравнение относительно p :

Найдем вторую производную по p :

.

Легко убедиться, что при вторая производная отрицательна; следовательно, - точка максимума и, значит, ее надо принять в качестве оценки наибольшего правдоподобия неизвестной вероятности p биномиального распределения:

Б. Непрерывные случайные величины. Пусть X - непрерывная случайная величина, которая в результате n испытаний приняла значения х 1 , х 2 , ..., x п . Допустим, что вид плотности распределения f (x ) задан, но не известен параметр θ , которым определяется эта функция.

Функцией правдоподобия непрерывной случайной вели чины X называют функцию аргумента θ :

L (х 1 , х 2 , ..., х п ; θ ) = f (х 1 ; θ ) f (х 2 ; θ ) . . . f (x n ; θ ),

где х 1 , х 2 , ..., x п - фиксированные числа.

Оценку наибольшего правдоподобия неизвестного параметра распределения непрерывной случайной величины ищут так же, как в случае дискретной величины.

Пример 3. Найти методом наибольшего правдоподобия оценку параметра λ, показательного распределения

(0< х < ∞),

если в результате n испытаний случайная величина X , распределенная по показательному закону, приняла значения х 1 , х 2 , ..., х п .

Решение. Составим функцию правдоподобия, учитывая, что θ= λ:

L = f (х 1 ; λ ) f (х 2 ; λ ) . . . f (х n ; λ ) =.

Найдем логарифмическую функцию правдоподобия:

Найдем первую производную по λ:

Напишем уравнение правдоподобия, для чего приравняем первую производную нулю:

Найдем критическую точку, для чего решим полученное уравнение относительно λ:

Найдем вторую производную по λ:

До сих пор мы считали, что оценка неизвестного параметра известна и занимались изучением ее свойств с целью использования их при построении доверительного интервала. В этом параграфе рассмотрим вопрос о способах построения оценок.

Методы правдоподобия

Пусть требуется оценить неизвестный параметр, вообще говоря, векторный, . При этом предполагается, что вид функции распределения известен с точностью до параметра,

В таком случае все моменты случайной величины становятся функциями от:

Метод моментов требует выполнения следующих действий:

Вычисляем k «теоретических» моментов

По выборке строим k одноименных выборочных моментов. В излагаемом контексте это будут моменты

Приравнивая «теоретические» и одноименные им выборочные моменты, приходим к системе уравнений относительно компонент оцениваемого параметра

Решая полученную систему (точно или приближенно), находим исходные оценки. Они, конечно, являются функциями от выборочных значений.

Мы изложили порядок действий, исходя из начальных - теоретических и выборочных - моментов. Он сохраняется при ином выборе моментов, начальных, центральных или абсолютных, который определяется удобством решения системы (25.1) или ей подобной.

Перейдем к рассмотрению примеров.

Пример 25.1. Пусть случайная величина распределена равномерно на отрезке [ ; ] , где - неизвестные параметры. По выборке () объема n из распределения случайной величины. Требуется оценить и.

В данном случае распределение определяется плотностью

1) Вычислим первые два начальных «теоретических» момента:

2) Вычислим по выборке два первых начальных выборочных момента

3) Составим систему уравнений

4) Из первого уравнения выразим через

и подставим во второе уравнение, в результате чего придём к квадратному уравнению

решая которое, находим два корня

Соответствующие значения таковы

Поскольку по смыслу задачи должно выполнятся условие < , выбираем в качестве решения системы и оценок неизвестных параметров

Замечая, что есть не что иное, как выборочная дисперсия, получаем окончательно

Если бы мы выбрали в качестве «теоретических» моментов математическое ожидание и дисперсию, то пришли бы к системе (с учетом неравенства <)

которая линейна и решается проще предыдущей. Ответ, конечно, совпадает с уже полученным.

Наконец, отметим, что наши системы всегда имеет решение и при том единственное. Полученные оценки, конечно, состоятельны, однако свойствам несмещенности не обладают.

Метод максимального правдоподобия

Изучается, как и прежде, случайная величина, распределение которой задается либо вероятностями её значений, если дискретна, либо плотностью распределения, если непрерывна, где - неизвестный векторный параметр. Пусть () - выборка значений. Естественно в качестве оценки взять то значение параметра, при котором вероятность получения уже имеющейся выборки максимальна.

Выражение

называют функцией правдоподобия , она представляет собой совместное распределение или совместную плотность случайного вектора с n независимыми координатами, каждая из которых имеет то же распределение (плотность), что и.

В качестве оценки неизвестного параметра берется такое его значение, которое доставляет максимум функции, рассматриваемой как функции от при фиксированных значениях. Оценку называют оценкой максимального правдоподобия . Заметим, что зависит от объема выборки n и выборочных значений

и, следовательно, сама является случайной величиной.

Отыскание точки максимума функции представляет собой отдельную задачу, которая облегчается, если функция дифференцируема по параметру.

В этом случае удобно вместо функции рассматривать её логарифм, поскольку точки экстремума функции и её логарифма совпадают.

Методы дифференциального исчисления позволяют найти точки, подозрительные на экстремум, а затем выяснить, в какой из них достигается максимум.

С этой целью рассматриваем вначале систему уравнений

решения которой - точки, подозрительные на экстремум. Затем по известной методике, вычисляя значения вторых производных

по знаку определителя, составленного из этих значений, находим точку максимума.

Оценки, полученные по методу максимального правдоподобия, состоятельны, хотя могут оказаться смещенными.

Рассмотрим примеры.

Пример 25.2. Пусть производится некоторый случайный эксперимент, исходом которого может быть некоторое события А, вероятность Р(А) которого неизвестна и подлежит оцениванию.

Введем случайную величину равенством

если событие А произошло,

если событие А не произошло (произошло событие).

Распределение случайной величины задается равенством

Выборкой в данном случае будет конечная последовательность (), где каждое из может быть равно 0 либо 1.

Функция правдоподобия будет иметь вид

Найдем точку её максимума по р, для чего вычислим производную логарифма

Обозначим - это число равно количеству единиц «успехов» в выбранной последовательности.


© 2024
art4soul.ru - Преступления, наркотики, финансирование, наказание, заключение, порча