22.09.2019

Многофакторный регрессионный и корреляционный анализ линейный многофакторный. Многофакторный корреляционный и регрессионный анализ


Многофакторный регрессионный анализ в оценке недвижимости

Регрессия в математической статистике – это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.

Как известно, явления общественной жизни складываются под воздействием не одного, а целого ряда факторов , т. е. эти явления многофакторны. Между факторами существуют сложные взаимосвязи, поэтому их влияние комплексное и его нельзя рассматривать как простую сумму изолированных влияний.

Факторный анализ позволяет определить, какое влияние на изучаемый показатель оказало изменение того или иного фактора.

При моделировании функциональных факторных моделей необходимо соблюдать ряд требований:

1. Факторы, включаемые в модель, должны реально существовать и иметь конкретноефизическое значение.

2. Факторы, которые входят в систему факторного анализа, должны иметь причинно-следственную связь с изучаемым показателем.

3. Факторная модель должна обеспечивать измерение влияния конкретного фактора на общий результат.

Метод применяется для построения прогноза какого-либо показателя с учетом существующих связей между ним и другими показателями. Сначала в результате качественного анализа выделяется k факторов (X 1 , X 2 ,..., X k), влияющих на изменение прогнозируемого показателя Y , и строится чаще всего линейная регрессионная зависимость типа:

где Ai - коэффициенты регрессии, i = 1,2,...,k.

Значения коэффициентов регрессии (A 0 , A 1 , A 2 ,..., A k) определяются в результате сложных математических вычислений , которые обычно проводятся с помощью стандартных статистических компьютерных программ.

Определяющее значение при использовании данного метода имеет нахождение правильного набора взаимосвязанных признаков, направления причинно-следственной связи между ними и вида этой связи, которая не всегда линейна.

Для успешного применения данного метода необходимо выполнение трёх основных условий :

Ø наличие обширной и достоверной базы данных о сделках купли-продажи с описанием физических и экономических характеристик объектов недвижимости, участвовавших в этих сделках;

Ø наличие критерия подбора аналогов из вышеуказанной базы данных;

Ø существование методологии расчёта соответствующих поправок к стоимости выбранных аналогов.

В основном, при подборе аналогов и внесении поправок эксперты-оценщики руководствуются профессиональным опытом и интуицией , что является заведомо субъективным подходом . Привлечение современных статистических методов для обработки и анализа данных, используемых для сопоставления, позволяет снизить влияние субъективизма оценщика.

Для решения задач, связанных с обработкой и анализом статистической информации применяются методы математической статистики. Эти методы позволяют выявить закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, давать оценку вероятностей их выполнения или невыполнения . В последнее время статистические методы, а в частности методы корреляционного и регрессионного анализа, находят всё более широкое применение в оценочной деятельности, правда. Оценщику, владеющему принципами, методами и навыками статистического моделирования, значительно легче обосновать результаты оценки, а также спрогнозировать рыночную стоимость на базе имеющихся данных.

После того, как выявлены наиболее существенные факторы, влияющие на стоимость рассматриваемых объектов, встает вопрос о подборе вида функциональной зависимости, т. е. виде многофакторной регрессионной модели. От правильности этого выбора зависит то, насколько построенная модель будет адекватна изучаемому явлению, т. е. будет ли она соответствовать ему при заданном уровне точности, что, в свою очередь, предопределяет практическую ценность получаемых результатов.

Запас кривых для описания статистических данных, которыми располагает математический анализ, бесконечно разнообразен . Для выбора той из них, которая наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинной зависимости между изучаемым показателем и обуславливающими его факторами, исходят из соображений самого различного характера - логического, графического и статистического.

При прочих равных условиях предпочтение отдается модели, зависящей от меньшего числа параметров , т. к. для их оценки требуется меньшее количество эмпирических данных.

На практике наибольшее распространение получили линейные (1), степенные (2) и экспоненциальные (3) формы зависимости.

y = a 0 + a 1 x 1 + a 2 x 2 + … + a n x n (1)

y = a 0 x 1 a1 x 2 a2 … x n an (2)

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://сайт

Многофакторная модель корреляционно-регрессионного ан а лиза

С помощью корреляционно-регрессионного анализа мы сможем определить динамику стоимости недвижимости, и влияние отдельных факторов на стоимость недвижимости, а так же установим, какие из этих факторов оказывают наибольшее влияние на стоимость недвижимости.

Система факторов всегда формируется на стадии логического анализа. Конкретное построение модели осуществляется на основе собранной исходной информации с количественными оценками факторов.

Показатели, включаемые в статистическую модель, должны быть качественно однородны, независимы друг от друга, достаточны по количеству измерителей для статистической обоснованности результатов регрессионного анализа. Количество измерений должно превосходить число факторов не менее чем в 2 раза.

Этапы выполнения работы:

1. Ввод исходных данных;

2. Расчет корреляционной матрицы;

3. Определить коллинеарность;

4. Определить параметры уравнения регрессии;

5. Анализ факторов по коэффициенту эластичности;

6. Оценка параметров уравнения регрессии;

7. Оценить значимость показателей тесноты связи r;

8. Оценка значимости коэффициента детерминации R 2 ;

9. Доверительные интервалы для коэффициентов уравнения регрессии;

10. Доверительные интервалы для средних значений факторных признаков;

11. Автокорреляция

Пример расчета

1. Ввод исходных данных

Систему функциональных показателей формируем на стадии логического анализа.

При построении многофакторной модели прогнозирования стоимости недвижимости, могут быть включены следующие факторы:

Результирующий признак: Y -стоимость недвижимости, $;

Факторные признаки:

Х 1 -стоимость одного квадратного метра объекта, $;

Х 2 - валютный курс;

Х 3 - уровень доходности населения, $;

Х 4 - социально-политическое положение, баллы;

Х 5 - инфраструктура, баллы;

Х 6 - состояние объекта, ремонт, баллы;

Х 7 - количество телефонов, штук;

Х 8 - количество телефонов

Так как для статистического анализа требуется ввести факторы за какой-то промежуток времени, то нами была составлена таблица данных факторов для нескольких наблюдений за 10 лет, которая представлена ниже:

2. Расчет корреляционной матрицы

Введем составленную матрицу в Excel. С помощью надстройки Анализ данных в меню Сервис рассчитаем корреляционную матрицу. Для этого в появившемся окне “Анализ данных” в поле “Инструменты анализа” активизируем строку “Корреляция”. В окне “Корреляция” введем входной интервал, выделяя с помощью мыши столбы и строки исходной таблицы, включая заголовки (за исключением столбца годы); установим флаг на “Метки в первой строке”; затем в поле “Выходной интервал” укажем левую верхнюю ячейку, начиная с которой должна появиться матрица результатов - корреляционная матрица.

Корреляционная матрица:

Корреляционная матрица - симметричная матрица, в которой относительно главной диагонали, на пересечении i-ой строки и j-го столбца, расположены коэффициенты парной корреляции между i-мы и j-ми факторами. По главной диагонали коэффициенты равны 1.

В последней строке корреляционной матрицы расположены коэффициенты парной корреляции между факторными и результирующим признаками.

Учитывая, что, при r < 0 связь обратная, при r > 0 - связь прямая.

Анализируя первый столбец корреляционной матрицы, отберем факторы, влияющие на результирующий признак.

Если коэффициент корреляции, то связь между i-ым фактором и результирующим признаком тесная, тогда этот фактор влияет на среднемесячную заработную плату и остается в модели. В соответствии с этим выпишем соответствующие коэффициенты корреляции:

Вывод: Анализ последней строчки корреляционной матрицы показывает, что факторы Х2 , Х4 , Х5 , Х6 , Х8 исключаются из модели, так как коэффициент корреляции, а для дальнейшего рассмотрения в данной модели остаются факторы Х1 , Х3 , Х7 .

3 . Определение колинеарности

Колинеарность - это зависимость факторных признаков между собой. Связь между факторными и результирующим признаками должна быть более тесная, чем связь между самими факторами, то есть для любой пары отобранных факторов должно выполнять отношение:

Если соотношения данной системы выполняются, то оба фактора остаются в модели. Если соотношения не выполняются, то один из факторов нужно исключить из модели. Обычно исключаются факторы с меньшим коэффициентом корреляции, зависимость которых с результирующим меньше. Но при удалении факторов в каждой конкретной задаче необходимо смотреть смысловое содержание факторов. Формальный подход не допустим.

Определяем колинеарность между факторами:

условие выполняется, оба фактора остаются в модели;

условие не выполняется, фактор Х 7 исключается, так как;

Вывод: Таким образом, в результате анализа, для составления прогнозируемой функции оставляем фактор Х 1 , Х 3 . Тогда уравнение регрессии приобретает следующий вид:

Y 0 + a 1 x 1 + a 2 x 3

4 . Определение параметров уравнения регрессии.

В рабочем поле Excel с помощью команды копирования создадим новую таблицу с исходными данными из оставшихся факторов и найдем средние значения по столбцам:

Для решения полученного уравнения регрессии после активизации сервисной программы Анализ данных в меню Сервис воспользуемся инструментом анализа - Регрессия. В данном диалоговом окне введем с помощью мыши входной интервал Y и X-ов; устанавим флаг на Метки; укажем начальную ячейку для выходного интервала и подтвердим начало расчета кнопкой ОК. В третьей из полученных таблиц ВЫВОДА ИТОГОВ найдем коэффициенты Y-пересечения и Х 1 , Х 3 и подставим полученные значения вместе со средними значениями Х-ов в уравнение регрессии:

Описательная статистика

Стандартная ошибка

Стандартное отклонение

Асимметричность

Интервал

Максимум

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

корреляционный регрессия матрица эластичность

Вывод:

1. Уравнение регресс имеет следующий вид:

2. Зависимость между стоимостью недвижимости (У) и стоимостью одного квадратного метра (Х 1), между стоимостью недвижимости (У) и уровнем доходности населения (Х 3), является более тесной, чем между стоимостью недвижимости и остальными факторами.

5 . Анализ факторов по коэффициенту эластичности

О значимости факторов нельзя судить по значению коэффициента регрессии. Анализ осуществляется по коэффициенту эластичности.

Коэффициент эластичности показывает, на сколько процентов изменяется резул ьтирующий признак при изменении факторного признака на 1%. Обычно берется 10%. Знак коэффициента эластичности всегда совпадает со знаком коэффициентов регрессии. Чем больше по модулю значение коэффициента эластичности, тем большее влияние оказывает этот фактор на результирующий признак.

.

Увеличим каждый фактор на 10%:

Подставляя средние значения факторов Х 1 , Х 3, а также их последовательно увеличенные на 10% значения в соответствующие уравнения регрессии, вычислим коэффициенты эластичности:

Коэффициент эластичности принято изображать графически.

Зависимость между Х 1 (стоимостью одного метра квадратного) и Y (стоимостью недвижимости объекта):

Вывод: при увеличении факторного признака Х 1 на 10 % результативный признак увеличивается на 11,91 %.

Зависимость между Х 3 (уровнем доходности населения) и Y (стоимостью недвижимости объекта)

Вывод: при увеличении факторного признака Х 3 на 10 % результативный признак сокращается на 3,42 %.

ВЫВОД: Анализ факторов по коэффициенту эластичности показал, что наибольшее влияние на стоимость недвижимости оказывает стоимость одного метра квадратного (фактор Х 1), затем уровень доходности населения (фактор Х 3).

6 . Оценка параметров уравнения регрессии

Для того, чтобы оценить параметры уравнения регрессии используется t- критерий Стьюдента. В таблице «дисперсионный анализ», в графе «t- статистика» содержатся рассчитанные на компьютере данные:

Эти значения сравниваются t - критическим, учитывая принятый уровень значимости б = 0,05 и k - число степеней свободы k = n-m-1; k=10-2-1=7, затем по таблице Стьюдента определяем, что: t кр = 2,365, либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку СТЮДРАСПОБР , с помощью которой компьютер возвращает t-значение распределения Стьюдента как функцию вероятности и числа степеней свободы, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, а в поле степень свободы -7

Параметры уравнения регрессии признаются типичными, если выполняются неравенства:

Подставим имеющие данные для сравнения:

Условие не выполняется

Условие не выполняется.

Вывод: Анализ параметров уравнения регрессии показал, что рассчитанные на компьютере данные не удовлетворяют условию сравнения. Поэтому математическая формула регрессии не может быть использована для прогнозирования стоимости недвижимости, а может быть использована только для практических расчетов.

7. Оценить значимость показателей тесноты связи r

Для этого применяется t- критерий Стьюдента. Расчетные значения t r для факторов Х 1 , Х 3 определяется по формуле:

где r - значения, рассчитанные в корреляционной матрице (столбец У) для объясняющих факторов

n - количество наблюдений.

Подставляя имеющиеся данные в формулу, получаем:

Рассчитанные значения надо сравнить с t- критическим равное 2,365. Показатели тесноты связи признаются типичными, если

Подставляя полученные данные, получим:

Условие выполняется

Условие выполняется

Вывод: все коэффициенты корреляции, соответствующие оставшимся факторам, признаются типичным, так как условие неравенства выполняется.

8 . Оценка значимости коэффициента детерминации R 2

Для этого используется F- критерий Фишера, величина которого берется из таблицы Фишера со степенями свободы:

к 1 = m = 2 - число объясняющих факторов.

к 2 = n-m-1= 10-2-1=7

Либо рассчитываем это значение в Excel с помощью вставки функции < fx > в поле «Категория» выбираем Статистические в поле «выберите функцию» активизируем строку F РАСПОБР , с помощью которой компьютер возвращает обратное значение для F-распределения вероятностей, затем нажимаем «ОК». Компьютер запрашивает аргументы функции: в поле вероятность ставим значение 0,05, в поле степень свободы1 ставим число объясняющих факторов, т.е. 2, а в поле степень свободы2 вводим к 2 = 7

Для определения статистической значимости коэффициента детерминации R 2 используется неравенство:

Значение F R рассчитывается по формуле:

Подставляя данные в неравенство получим: F расч =337,55 F крит. =4,737

Вывод:

Коэффициент детерминации R 2 является значимым, так как неравенство выполняется;

Величина R 2 =0,990- это означает, что 99 % общей вариации результативного признака объясняется изменением факторных признаков Х 1 ,Х 3 , а 1 % объясняется изменениями других факторов.

9. Доверительные интервалы для коэффициентов уравнения регрессии

Доверительные интервалы для коэффициентов множественной регрессии определяются:

а=499,986; Sa=29,254; tкрит.= 2,365

a 2 =-779,762; Sa 2 =644,425; tкрит.= 2,365

Вывод:

95% коэффициента регрессии а 1 лежит в интервале, а 5% вне этого интервала.

95% коэффициента регрессии а 2 лежит в интервале, а 5% вне этого интервала.

10 . Доверительные интервалы для средних значений факторных призн а ков

Доверительные интервалы для средних значений факторных признаков определяются:

где -стандартное отклонение (среднеквадратическое отклонение);

n - число наблюдений;

t находится по функции таблицы Лапласа

95% факторного признака (стоимость 1 м 2) лежит в интервале, а 5% вне этого интервала.

95% факторного признака (уровень доходности населения) лежит в интервале, а 5% вне этого интервала.

1 1 . Автокорреляция

А) Для определения величины коэффициента автокорреляции используются значения остатков, которые имеют следующий вид:

ВЫВОД ОСТАТКА

Дополнительные расчеты

Наблюдение

Предсказанное Y

Остатки i

Для определения величины коэффициента автокорреляции используется формула Дарвина - Оутсона:

использование, которой связано с дополнительными расчетами. Подставим данные в формулу и получим:

Коэффициент корреляции изменяется в пределах 0?dw?4.

Значит и размер автокорреляционного поля должен иметь эти же пределы.

Б) В автокорреляции содержатся (слева направо):

1. Зона положительной автокорреляции

2. Зона неопределенности

3. Зона отсутствия автокорреляции

4. Зона неопределенности

5. Зона отрицательной автокорреляции.

Размер зон неопределенности зависят от показателей таблицы Дарвина-Оутсона.

Для того чтобы найти в таблице нужные показатели надо знать номер столбца и строки.

Номер нужного столбца - это число объясняющих факторов уравнения регрессии: k=m=2;

Номер строки- это количество наблюдений: n=10.

В таблице находятся показатели d l и d u:

В левой половине автокорреляционного поля:

Нижняя граница зоны равна d l =0,697

Верхняя граница зоны равна d u = 1,641

Для правой половины автокорреляционного поля границы неопределенности надо рассчитать:

Верхняя граница зоны равна 4-d u = 4-1,641= 2,359

Нижняя граница зоны равна 4-d l =4-0,697= 3,303

Общая картина автокорреляционного поля может быть представлена в виде:

В) Коэффициент автокорреляции, его значение соответствует зоне отсутствия автокорреляции.

Размещено на сайт

Подобные документы

    Сущность корреляционно-регрессионного анализа и его использование в сельскохозяйственном производстве. Этапы проведения корреляционно-регрессионного анализа. Области его применения. Анализ объекта и разработка числовой экономико-математической модели.

    курсовая работа , добавлен 27.03.2009

    Расчет стоимости оборудования с использованием методов корреляционного моделирования. Метод парной и множественной корреляции. Построение матрицы парных коэффициентов корреляции. Проверка оставшихся факторных признаков на свойство мультиколлинеарности.

    задача , добавлен 20.01.2010

    Расчёт параметров линейного уравнения регрессии. Оценка регрессионного уравнения через среднюю ошибку аппроксимации, F-критерий Фишера, t-критерий Стьюдента. Анализ корреляционной матрицы. Расчёт коэффициентов множественной детерминации и корреляции.

    контрольная работа , добавлен 29.08.2013

    Сущность корреляционно-регрессионного анализа и экономико-математической модели. Обеспечение объема и случайного состава выборки. Измерение степени тесноты связи между переменными. Составление уравнений регрессии, их экономико-статистический анализ.

    курсовая работа , добавлен 27.07.2015

    Построение регрессионных моделей. Смысл регрессионного анализа. Выборочная дисперсия. Характеристики генеральной совокупности. Проверка статистической значимости уравнения регрессии. Оценка коэффициентов уравнения регрессии. Дисперсии случайных остатков.

    реферат , добавлен 25.01.2009

    Построение математической модели выбранного экономического явления методами регрессионного анализа. Линейная регрессионная модель. Выборочный коэффициент корреляции. Метод наименьших квадратов для модели множественной регрессии, статистические гипотезы.

    курсовая работа , добавлен 22.05.2015

    Ознакомление с основами модели простой регрессии. Рассмотрение основных элементов эконометрической модели. Характеристика оценок коэффициентов уравнения регрессии. Построение доверительных интервалов. Автокорреляция и гетероскедастичность остатков.

    лекция , добавлен 23.12.2014

    Статистический анализ по выборке. Проведение регрессионного анализа исходных данных и выбор аналитической формы записи производственной функции. Выполнение экономического анализа в выбранной регрессионной модели на основе коэффициентов эластичности.

    курсовая работа , добавлен 22.07.2015

    Оценка корреляционной матрицы факторных признаков. Оценки собственных чисел матрицы парных коэффициентов корреляции. Анализ полученного уравнения регрессии, определение значимости уравнения и коэффициентов регрессии, их экономическая интерпретация.

    контрольная работа , добавлен 29.06.2013

    Расчет параметров линейной регрессии. Сравнительная оценка тесноты связи с помощью показателей корреляции, детерминации, коэффициента эластичности. Построение поля корреляции. Определение статистической надежности результатов регрессионного моделирования.

В подразд. 10.2 была рассмотрена однофакторная линейная модель. Но чаще всего изучаемые нами природные и общественные явления зависят не от одного, а от целого ряда факторов. Корреляционная зависимость результативного признака от нескольких факторных признаков называется уравнением множественной регрессии. Рассмотрим линейную многофакторную модель, к ней часто можно свести криволинейные модели.

Главные задачи, которые стоят при построении уравнения множественной регрессии таковы:

  • 1) надо отобрать те факторные признаки, которые оказывают наибольшее влияние на признак следствия;
  • 2) правильно выбрать регрессионную модель.

Если данные пункты выполнены правильно, то все остальное дело техники. Мы рассматриваем пока линейную многофакторную регрессию, поэтому задача выбора модели перед нами не стоит, нужно только определиться с количеством факторных признаков, влияющих на признак следствие. Решение первой задачи основано на рассмотрении матрицы парных коэффициентов корреляции (о ней будет сказано ниже). Принимаются во внимание и частные коэффициенты детерминации для каждого факторного признака. Их значения говорят об объясняющей способности каждого из факторных признаков. Заметим, что уравнение многофакторной регрессии должно быть как можно проще. Чем проще тип уравнения, тем очевиднее интерпретация параметров, входящих в него, и лучше его использование с целью анализа и прогноза. Поэтому чаще всего используют линейное уравнение множественной регрессии, которое имеет вид

Параметры а р а 2 , ..., а т, Ъ уравнения множественной регрессии (10.55) можно находить по МНЕ. Затем с помощью корреляционного анализа делают проверку адекватности полученной модели и, если модель адекватна, делают ее интерпретацию. Так поступают в том случае, если заранее известно, например на основании предшествующих исследований, что все основные признаки-факторы, оказывающие влияние на результативный признак, учтены (мы не говорим о выборе типа модели, так как пока рассматриваем только линейную модель).

Если мы не уверены в том, что учтены все факторные признаки, или, наоборот, учтены лишние, сначала проводим корреляционный анализ (находим парные коэффициенты корреляции, частные коэффициенты корреляции, совокупный коэффициент множественной корреляции), а потом, уточнив модель, строим уравнение множественной линейной регрессии по МНК.

Покажем, как находятся параметры a v а 2 , ..., а т, Ъ уравнения регрессии (10.55) по МНК. Условие МНК в этом случае имеет вид

Теперь подставляем (10.55) в (10.56) и получаем

Теперь записываем необходимые условия экстремума функции, содержащей (m + 1) переменных (a v а 2 ,..., а т, Ъ).

Находим частные производные функции F по неизвестным параметрам а 1 ,а 2 ,а т,Ъ и получаем следующее:

После преобразования системы (10.59) получаем так называемую систему нормальных уравнений:

Решая систему нормальных уравнений (10.60) (они линейные), определяем неизвестные параметры множественной линейной регрессионной модели: a v а 2 , ..., а т, Ъ. Разумеется, решение системы проводят на ПЭВМ, например, методом Гаусса или одной из его модификаций (в том случае, если количество неизвестных параметров не превышает нескольких сотен). В том случае, если количество искомых параметров несколько тысяч, можно использовать итерационные методы решения системы нормальных уравнений (10.60), например, методом Якоби или методом Зейделя.

После нахождения неизвестных параметров уравнения множественной линейной регрессии надо провести проверку ее адекватности с помощью корреляционного анализа.

Так как на изучаемый результативный признак влияет не один факторный признак, а несколько факторных признаков), то появляется задача изолированного измерения тесноты связи результативного признака с каждым из признаков- факторов, а также задача определения тесноты связи между результативным признаком и всеми факторными признаками, включенными в модель множественной регрессии.

При рассмотрении линейной однофакторной модели мы находим один парный коэффициент корреляции (вернее его оценку) между признаком-следствием и факторным признаком. В случае множественной линейной модели число парных коэффициентов корреляции будет равно:

где C (2 m+1) - число сочетаний из (m + 1) по два, а (га +1)! - читается (га + 1) факториал и равно: (га + 1)! = 1-2-...-га(га + 1). Заметим, что 0! = 1. Все коэффициенты парной корреляции рассчитываются по формуле (10.15) (их называют еще коэффициентами нулевого порядка).

Найденные коэффициенты парной корреляции удобно записывать в виде матрицы коэффициентов парной корреляции. Напомним, что матрица - это прямоугольная таблица, содержащая некоторые математические объекты, в данном случае коэффициенты парной корреляции. Число строк и столбцов матрицы коэффициентов парной корреляции будет равно, т. е. она будет квадратной. Так как коэффициент парной корреляции - это симметричная мера связи (f i; - = при i*j), то матрица коэффициентов корреляции записывается или как верхняя, или как нижняя треугольная, на главной диагонали которой расположены единицы, так как и т. д. Поэтому матрица коэффициентов парной корреляции (коэффициентов нулевого порядка) имеет вид:


На основе коэффициентов нулевого порядка (см. (10.61)) можно найти коэффициенты частной корреляции первого порядка, если элиминируется (устраняется) корреляция с одной переменной. Например,

В формуле (10.62) исключаем влияние признака х.

На основе коэффициентов частной корреляции первого порядка определяют коэффициенты частной корреляции второго порядка. В этом случае элиминируется корреляция с двумя переменными, например,

В формуле (10.63) исключили влияние факторов х 2 и х 3 . На основе коэффициентов частной корреляции второго порядка находят коэффициенты частной корреляции третьего порядка и т. д. Коэффициенты частной корреляции являются мерами линейной зависимости и принимают значения от -1 до 1. Квадрат коэффициента частной корреляции называется коэффициентом частной детерминации.

Показателем тесноты связи, которая устанавливается между признаком-следствием и факторными признаками факторных признаков) является совокупный коэффициент множественной корреляции К уХ]Х2 ... Хт. Если известны парные коэффициенты корреляции, то его можно найти по формуле:

Квадрат совокупного коэффициента множественной корреляции Ry X X х , который называется совокупным коэффициентом множественной детерминации, показывает, какая доля вариации результативного признака объясняется влиянием факторных признаков, которые включены в уравнение множественной регрессии. Возможные значения -R yX]X2 ... Xm и Щ х х х могут находиться в пределах отрезка . Следовательно, чем ближе Щ Хг х 2 _ х к единице, тем вариация результативного признака в большей мере характеризуется влиянием учтенных факторных признаков.

Подробно рассмотрим частный случай линейной множественной регрессии - двухфакторную линейную регрессию и приведем конкретный числовой пример.

Уравнение двухфакторной линейной регрессии записывается следующим образом:

где - расчетные значения результативного признака;

х и, х 2 . - полученные в результате проведения статистического наблюдения значения факторных признаков;

a v а 2 , Ъ - параметры уравнения регрессии, подлежащие определению.

Для нахождения параметров уравнения регрессии вида (10.65) используем МНК. Условие МНК в данном случае имеет вид:

Функция (10.66) - функция трех независимых аргументов: a v а 2 , Ъ. Запишем необходимое условие экстремума этой функции:

После нахождения частных производных имеем:

После преобразования системы (10.68) получаем систему нормальных уравнений:

Для решения системы (10.69) используем метод Крамера (о методе Крамера можно причитать, например, в ). Для нахождения решения системы (10.69) можно применить и метод Гаусса.

Сначала находим определитель системы, который не должен равняться нулю:

Определители A v A , А 3 расписываются так же, как определитель А (эти разложения не приведены, чтобы не загромождать вывод).

Зная значение определителей А, А х, Д 2 , А, находим искомые параметры уравнения регрессии по следующим формулам:

Теперь найдем коэффициенты парной корреляции (коэффициенты нулевого порядка), их количество будет равно

Поэтому матрица коэффициентов парной корреляции (10.61) в данном случае будет иметь вид:

В нашем случае парные коэффициенты корреляции находятся по формулам:

А ковариации (корреляционные моменты) находятся из выражений:


Коэффициенты частной корреляции первого порядка в данном случае находятся по следующим формулам:

г определяется по уже приведенной формуле (10.62)


(в этой формуле исключено влияние факторного признака а^).


(в этой формуле исключено влияние результативного признака у).

Теперь по формуле (10.64) определяем совокупный коэффициент множественной корреляции. Для случая двухфакторной линейной модели формула (10.64) примет вид:

Как уже говорилось, величина Щ Х]Х. 2 называется совокупным коэффициентом множественной детерминации. Он показывает, какая часть дисперсии результативного признака у объясняется за счет двух учтенных факторных признаков и х 2 . Заметим, что на основе парных коэффициентов корреляции и средних квадратических отклонений можно определить параметры линейной двухфакторной регрессионной модели вида (10.65) (см. например ).

Теперь приведем конкретный числовой пример. Для этого используем исходные данные примера 10.2. Поместим эти данные в табл. 10.12.

По данным табл. 10.12 вычисляем коэффициенты системы нормальных уравнений (10.69):


Таблица 10.12

Преступления (у {)

Хищения оружия

Административные правонарушения (х,.)

Следовательно, система нормальных уравнений (10.69) имеет вид:

Решаем полученную систему (10.76) методом Крамера:

Теперь по формулам (10.70) находим искомые параметры уравнения регрессии:

Поэтому получаем следующее уравнение двухфакторной линейной регрессии.

Основная цель регрессионного анализа состоит в определении аналитической формы связи, в которой изменение результативного признака обусловлено влиянием одного или нескольких факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Задачи регрессионного анализа :
а) Установление формы зависимости. Относительно характера и формы зависимости между явлениями, различают положительную линейную и нелинейную и отрицательную линейную и нелинейную регрессию.
б) Определение функции регрессии в виде математического уравнения того или иного типа и установление влияния объясняющих переменных на зависимую переменную.
в) Оценка неизвестных значений зависимой переменной. С помощью функции регрессии можно воспроизвести значения зависимой переменной внутри интервала заданных значений объясняющих переменных (т. е. решить задачу интерполяции) или оценить течение процесса вне заданного интервала (т. е. решить задачу экстраполяции). Результат представляет собой оценку значения зависимой переменной.

Парная регрессия - уравнение связи двух переменных у и х: , где y - зависимая переменная (результативный признак); x - независимая, объясняющая переменная (признак-фактор).

Различают линейные и нелинейные регрессии.
Линейная регрессия: y = a + bx + ε
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:

Регрессии, нелинейные по оцениваемым параметрам: Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, Используют метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
.
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно a и b:

Можно воспользоваться готовыми формулами, которые вытекают из этой системы:

Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции для линейной регрессии :

и индекс корреляции - для нелинейной регрессии:

Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации .
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
.
Допустимый предел значений - не более 8-10%.
Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения:
.

Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
,
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, обусловленная регрессией («объясненная» или «факторная»);
- остаточная сумма квадратов отклонений.
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2:

Коэффициент детерминации - квадрат коэффициента или индекса корреляции.

F-тест - оценивание качества уравнения регрессии - состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического F факт и критического (табличного) F табл значений F-критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
,
где n - число единиц совокупности; m - число параметров при переменных х.
F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости a. Уровень значимости a - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно a принимается равной 0,05 или 0,01.
Если F табл < F факт, то Н о - гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > F факт, то гипотеза Н о не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н о о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
; ; .
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:



Сравнивая фактическое и критическое (табличное) значения t-статистики - t табл и t факт - принимаем или отвергаем гипотезу Н о.
Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством

Если t табл < t факт то H o отклоняется, т.е. a, b и не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если t табл > t факт то гипотеза Н о не отклоняется и признается случайная природа формирования а, b или .
Для расчета доверительного интервала определяем предельную ошибку D для каждого показателя:
, .
Формулы для расчета доверительных интервалов имеют следующий вид:
; ;
; ;
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение определяется путем подстановки в уравнение регрессии соответствующего (прогнозного) значения . Вычисляется средняя стандартная ошибка прогноза :
,
где
и строится доверительный интервал прогноза:
; ;
где .

Пример решения

Задача №1 . По семи территориям Уральского района За 199Х г. известны значения двух признаков.
Таблица 1.
Требуется: 1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной (предварительно нужно произвести процедуру линеаризации переменных, путем логарифмирования обеих частей);
в) показательной;
г) равносторонней гиперболы (так же нужно придумать как предварительно линеаризовать данную модель).
2. Оценить каждую модель через среднюю ошибку аппроксимации и F-критерий Фишера.

Решение (Вариант №1)

Для расчета параметров a и b линейной регрессии (расчет можно проводить с помощью калькулятора).
решаем систему нормальных уравнений относительно а и b:
По исходным данным рассчитываем :
y x yx x 2 y 2 A i
l 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9
2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7
3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7
4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1
5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7
6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4
7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2
Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7
Ср. знач. (Итого/n) 57,89 54,90 3166,05 3048,34 3383,68 X X 8,1
s 5,74 5,86 X X X X X X
s 2 32,92 34,34 X X X X X X


Уравнение регрессии: у = 76,88 - 0,35х. С увеличением среднедневной заработной платы на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта.
Рассчитаем линейный коэффициент парной корреляции:

Связь умеренная, обратная.
Определим коэффициент детерминации:

Вариация результата на 12,7% объясняется вариацией фактора х. Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения . Найдем величину средней ошибки аппроксимации :

В среднем расчетные значения отклоняются от фактических на 8,1%.
Рассчитаем F-критерий:

поскольку 1< F < ¥ , следует рассмотреть F -1 .
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
1б. Построению степенной модели предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:


где Y=lg(y), X=lg(x), C=lg(a).

Для расчетов используем данные табл. 1.3.

Таблица 1.3

Y X YX Y 2 X 2 A i
1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3
2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0
3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2
4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1
5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4
6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9
7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4
Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3
Среднее значение 1,7605 1,7370 3,0572 3,1011 3,0194 X X 28,27 8,0
σ 0,0425 0,0484 X X X X X X X
σ 2 0,0018 0,0023 X X X X X X X

Рассчитаем С иb:


Получим линейное уравнение:.
Выполнив его потенцирование, получим:

Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата. По ним рассчитаем показатели: тесноты связи - индекс корреляции и среднюю ошибку аппроксимации

Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь.

. Построению уравнения показательной кривой

предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:

Для расчетов используем данные таблицы.

Y x Yx Y 2 x 2 A i
1 1,8376 45,1 82,8758 3,3768 2034,01 60,7 8,1 65,61 11,8
2 1,7868 59,0 105,4212 3,1927 3481,00 56,4 4,8 23,04 7,8
3 1,7774 57,2 101,6673 3,1592 3271,84 56,9 3,0 9,00 5,0
4 1,7536 61,8 108,3725 3,0751 3819,24 55,5 1,2 1,44 2,1
5 1,7404 58,8 102,3355 3,0290 3457,44 56,4 -1,4 1,96 2,5
6 1,7348 47,2 81,8826 3,0095 2227,84 60,0 -5,7 32,49 10,5
7 1,6928 55,2 93,4426 2,8656 3047,04 57,5 -8,2 67,24 16,6
Итого 12,3234 384,3 675,9974 21,7078 21338,41 403,4 -1,8 200,78 56,3
Ср. зн. 1,7605 54,9 96,5711 3,1011 3048,34 X X 28,68 8,0
σ 0,0425 5,86 X X X X X X X
σ 2 0,0018 34,339 X X X X X X X

Значения параметров регрессии A и В составили:


Получено линейное уравнение: . Произведем потенцирование полученного уравнения и запишем его в обычной форме:

Тесноту связи оценим через индекс корреляции :

Многофакторный корреляционно - регрессионный анализ

Таблица 4. Исходные данные.

уровеньбезраб-цы

доходнасел-я

индексцен

индексВРП

Для анализа необходимо из нескольких факторов произвести предварительный отбор факторов для регрессионной модели. Сделаем это по итогам расчета коэффициента корреляции, т.е. возьмем те факторы, связь которых с результативным признаком будет выражена в большей степени. Рассмотрим следующие факторы:

Доход на душу населения - x 1 (%)

Индекс потребительских цен - x 2 (%)

Индекс ВРП - x 3 (%)

Рассчитаем коэффициент корреляции для линейной связи и для имеющихся факторов - x 1 , x 2 и x 3:

Для фактора x 1 получаем коэффициент корреляции: r 1 = 0,042

Для фактора x 2 получаем коэффициент корреляции: r 2 =0,437

Для фактора x 3 получаем коэффициент корреляции: r 3 =0,151

По полученным данным можно сделать вывод о том, что:

1)Связь между x 1 и y отсутствует, так как коэффициент корреляции меньше 0,15. Таким образом, возникает необходимость исключить данный фактор из дальнейших исследований.

2)Связь между x 2 и y прямая (так как коэффициент корреляции положительный) и умеренная, так как она находится между 0,41 и 0,50. Поэтому, будем использовать фактор в дальнейших расчётах.

3)Связь между x 3 и y прямая (так как коэффициент корреляции положительный) и слабая. Тем не менее, будем использовать фактор в дальнейших расчетах.

Таким образом, два наиболее влиятельных фактора - Индекс потребительских цен - x 2 и индекс ВРП - x 3 . Для имеющихся факторов x 2 и x 3 составим уравнение множественной регрессии.

Проверим факторы на мультиколлинеарность, для чего рассчитаем коэффициент корреляции r x2x3 . Подставив имеющиеся данные (из таблицы 10) в формулу, имеем следующее значение: r x2x3 =0,747. Полученный коэффициент говорит об очень высокой связи, поэтому дальнейший анализ по обоим факторам вестись не может. Однако в учебных целях продолжим анализ.

Проводим оценку существенности связи с помощью коэффициента множественной корреляции: R=0,512

Так как R < 0,8, то связь признаем не существенной, но, тем не менее, в учебных целях, проводим дальнейшее исследование.

Уравнение прямой имеет следующий вид: y = a + bx 1 + cx 3

Для определения параметров уравнения необходимо решить систему:

Решив систему, получим уравнение: Y=41,57-0,042 x 1 -0,183x 3

Для данного уравнения найдем ошибку аппроксимации:

А> 5%, то данную модель нельзя использовать на практике.

Проведем оценку параметров на типичность. Рассчитаем значения величин:

m a =0,886; m b =0,0003; m с =0,017;

t a =41,57/0,886=46,919; t b =-0,042/0,0003=-140; t c =-0,183/0,017=-10,77.

Сравним полученные выше значения t для б = 0,05 и числа степеней свободы (n-2) с теоретическим значением t-критерия Стьюдента, который t теор = 2,1788. Расчетные значения t b и t с < t теор, значит данные параметры не значимы и данное уравнение не используется для прогнозирования.

где: n - число уровней ряда; к - число параметров; R - коэффициент множественной корреляции.

После расчета получаем: F=1,41

Сравним F расч с F теор для числа степеней свободы U 1 = 9 и U 2 = 2, видим, что 1,41 < 19,40, то есть F расч < F теор - связь признаётся не существенной, то есть корреляция между факторами x 2 , x 3 и у не существенна.


© 2024
art4soul.ru - Преступления, наркотики, финансирование, наказание, заключение, порча