Однофакторный дисперсионный анализ. Область применения дисперсионного анализа. Пропущенные ячейки и проверка специфического эффекта

В практической деятельности врачей при проведении медико-биологических, социологических и экспериментальных исследований возникает необходимость установить влияние факторов на результаты изучения состояния здоровья населения, при оценке профессиональной деятельности, эффективности нововведений.

Существует ряд статистических методов, позволяющих определить силу, направление, закономерности влияния факторов на результат в генеральной или выборочной совокупностях (расчет критерия I, корреляционный анализ, регрессия, Χ 2 - (критерий согласия Пирсона и др.). Дисперсионный анализ был разработан и предложен английским ученым, математиком и генетиком Рональдом Фишером в 20-х годах XX века.

Дисперсионный анализ чаще используют в научно-практических исследованиях общественного здоровья и здравоохранения для изучения влияния одного или нескольких факторов на результативный признак. Он основан на принципе "отражения разнообразий значений факторного(ых) на разнообразии значений результативного признака" и устанавливает силу влияния фактора(ов) в выборочных совокупностях.

Сущность метода дисперсионного анализа заключается в измерении отдельных дисперсий (общая, факториальная, остаточная), и дальнейшем определении силы (доли) влияния изучаемых факторов (оценки роли каждого из факторов, либо их совместного влияния) на результативный(е) признак(и).

Дисперсионный анализ - это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)- средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Факторные признаки - это те признаки, которые влияют на изучаемое явление.
Результативные признаки - это те признаки, которые изменяются под влиянием факторных признаков.

Для проведения дисперсионного анализа могут использоваться как качественные (пол, профессия), так и количественные признаки (число инъекций, больных в палате, число койко-дней).

Методы дисперсионного анализа:

Метод по Фишеру (Fisher) - критерий F (значения F см. в приложении N 1);
Метод применяется в однофакторном дисперсионном анализе, когда совокупная дисперсия всех наблюдаемых значений раскладывается на дисперсию внутри отдельных групп и дисперсию между группами.
Метод "общей линейной модели".
В его основе лежит корреляционный или регрессионный анализ, применяемый в многофакторном анализе.

Обычно в медико-биологических исследованиях используются только однофакторные, максимум двухфакторные дисперсионные комплексы. Многофакторные комплексы можно исследовать, последовательно анализируя одно- или двухфакторные комплексы, выделяемые из всей наблюдаемой совокупности.

Условия применения дисперсионного анализа:

Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).
Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.
Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. - random), т.е. выбранные наугад.
Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.
Независимость (не связанность) распределения наблюдений в группах.
Наличие частоты (повторность) наблюдений.

Нормальность распределения определяется кривой Гаусса (Де Мавура), которую можно описать функцией у = f(х), так как она относится к числу законов распределения, используемых для приближенного описания явлений, которые носят случайный, вероятностный характер. Предмет медико-биологических исследований - явления вероятностного характера, нормальное распределение в таких исследованиях встречается весьма часто.

Принцип применения метода дисперсионного анализа

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала*, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.
__________________________________
* Максимальную приемлемую вероятность отвергнуть верную нулевую гипотезу называют уровнем значимости и обозначают α = 0,05.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

D oбщ. = D факт + D ост. ,

D oбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

D факт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков - наблюдается межгрупповое разнообразие.

D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака - фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Классический дисперсионный анализ проводится по следующим этапам:

Построение дисперсионного комплекса.
Вычисление средних квадратов отклонений.
Вычисление дисперсии.
Сравнение факторной и остаточной дисперсий.
Оценка результатов с помощью теоретических значений распределения Фишера-Снедекора (приложение N 1).

АЛГОРИТМ ПРОВЕДЕНИЯ ДИСПЕРСИОННОГО АНАЛИЗА ПО УПРОЩЕННОМУ ВАРИАНТУ

Алгоритм проведения дисперсионного анализа по упрощенному способу позволяет получить те же результаты, но расчеты выполняются значительно проще:

I этап. Построение дисперсионного комплекса

Построение дисперсионного комплекса означает построение таблицы, в которой были бы четко разграничены факторы, результативный признак и подбор наблюдений (больных) в каждую группу.

Однофакторный комплекс состоит из нескольких градаций одного фактора (А). Градации - это выборки из разных генеральных совокупностей (А1, А2, АЗ).

Двухфакторный комплекс - состоит из нескольких градаций двух факторов в комбинации между собой. Этиологические факторы заболеваемостью пневмонией те же (А1, А2, АЗ) в сочетании с разными формами клинического течения пневмонии (Н1 - острое, Н2 - хроническое).

Результативный признак (количество койко-дней в среднем)	Этиологические факторы развития пневмоний
	А1		А2		А3
	Н1	Н2	Н1	Н2	Н1	Н2
М = 14 дней

II этап. Вычисление общей средней (М обш)

Вычисление суммы вариант по каждой градации факторов: Σ Vj = V 1 + V 2 + V 3

Вычисление общей суммы вариант (Σ V общ) по всем градациям факторного признака: Σ V общ = Σ Vj 1 + Σ Vj 2 + Σ Vj 3

Вычисление средней групповой (М гр.) факторного признака: М гр. = Σ Vj / N,
где N - сумма числа наблюдений по всем градациям факторного I признака (Σn по группам).

III этап. Расчет дисперсий:

При соблюдении всех условий применения дисперсионного анализа математическая формула выглядит следующим образом:

D oбщ. = D факт + D ост.

D oбщ. - общая дисперсия, характеризуется разбросом вариант (наблюдаемых значений) от общего среднего;
D факт. - факторная (межгрупповая) дисперсия, характеризует разброс групповых средних от общего среднего;
D ост. - остаточная (внутригрупповая) дисперсия, характеризует рассеяние вариант внутри групп.

Вычисление факториальной дисперсии (D факт.): D факт. = Σ h - H
Вычисление h проводится по формуле: h = (Σ Vj) / N
Вычисление Н проводится по формуле: H = (Σ V) 2 / N
Вычисление остаточной дисперсии: D ост. = (Σ V) 2 - Σ h
Вычисление общей дисперсии: D oбщ. = (Σ V) 2 - Σ H

IV этап. Расчет основного показателя силы влияния изучаемого фактора Показатель силы влияния (η 2) факторного признака на результат определяется долей факториальной дисперсии (D факт.) в общей дисперсии (D oбщ.), η 2 (эта) - показывает какую долю занимает влияние изучаемого фактора среди всех других факторов и определяется по формуле:

V этап. Определение достоверности результатов исследования методом Фишера проводят по формуле:

F - критерий Фишера;
F st. - табличное значение (см.приложение 1).
σ 2 факт, σ 2 ост. - факториальная и остаточная девиаты (от лат. de - от, via - дорога) - отклонение от средней линии, определяются по формулам:

r - число градаций факторного признака.

Сравнение критерия Фишера (F) со стандартным (табличным) F проводят по графам таблицы с учетом степеней свободы:

v 1 = n - 1
v 2 = N - 1

По горизонтали определяют v 1 по вертикали - v 2 , на их пересечении определяют табличное значение F, где верхнее табличное значение р ≥ 0,05, а нижнее соответствует р > 0,01, и сравнивают с вычисленным критерием F. Если значение вычисленного критерия F равно или больше табличного, то результаты достоверны и Н 0 не отвергается.

Условие задачи:

На предприятии Н. повысился уровень травматизма в связи с чем врач провел исследование отдельных факторов, среди которых изучался стаж работы работающих в цехах. Выборки сделаны на предприятии Н. из 4 цехов с близкими условиями и характером труда. Уровни травматизма рассчитаны на 100 работающих за прошлый год.

При исследовании фактора рабочего стажа получены следующие данные:

На основании данных проведённого исследования была выдвинута нулевая гипотеза (Н 0) о влиянии стажа работы на уровень травматизма работников предприятия А.

Задание
Подтвердите или опровергните нулевую гипотезу методом одно-факторного дисперсионного анализа:

определите силу влияния;
оцените достоверность влияния фактор.

Этапы применения дисперсионного анализа
для определения влияния фактора (стажа работы) на результат (уровень травматизма)

Вывод. В выборочном комплексе выявлено, что сила влияния стажа работы на уровень травматизма составляет 80% в общем числе других факторов. Для всех цехов завода можно с вероятностью 99,7% (13,3 > 8,7) утверждать, что стаж работы влияет на уровень травматизма.

Таким образом, нулевая гипотеза (Н 0) не отвергается и влияние стажа работы на уровень травматизма в цехах завода А считается доказанным.

Значение F (критерий Фишера) стандартного при р ≥ 0,05 (верхнее значение) при р ≥ 0,01 (нижнее значение)

	1	2	3	4	5	6	7	8	9	10	11
6	6,0 13,4	5,1 10,9	4,8 9,8	4,5 9,2	4,4 8,8	4,3 8,5	4,2 8,3	4,1 8,1	4,1 8,0	4,1 7,9	4,0 7,8
7	5,6 12,3	4,7 9,6	4,4 8,5	4,1 7,9	4,0 7,5	3,9 7,2	3,8 7,0	3,7 6,8	3,7 6,7	3,6 6,6	3,6 6,5
8	5,3 11,3	4,6 8,7	4,1 7,6	3,8 7,0	3,7 6,6	3,6 6,4	3,5 6,2	3,4 6,0	3,4 5,9	3,3 5,8	3,1 5,7
9	5,1 10,6	4,3 8,0	3,6 7,0	3,6 6,4	3,5 6,1	3,4 5,8	3,3 5,6	3,2 5,5	3,2 5,4	3,1 5,3	3,1 5,2
10	5,0 10,0	4,1 7,9	3,7 6,6	3,5 6,0	3,3 5,6	3,2 5,4	3,1 5,2	3,1 5,1	3,0 5,0	2,9 4,5	2,9 4,8
11	4,8 9,7	4,0 7,2	3,6 6,2	3,6 5,7	3,2 5,3	3,1 5,1	3,0 4,9	3,0 4,7	2,9 4,6	2,9 4,5	2,8 4,5
12	4,8 9,3	3,9 6,9	3,5 6,0	3,3 5,4	3,1 5,1	3,0 4,7	2,9 4,7	2,9 4,5	2,8 4,4	2,8 4,3	2,7 4,2
13	4,7 9,1	3,8 6,7	3,4 5,7	3,2 5,2	3,0 4,9	2,9 4,6	2,8 4,4	2,8 4,3	2,7 4,2	2,7 4,1	2,6 4,0
14	4,6 8,9	3,7 6,5	3,3 5,6	3,1 5,0	3,0 4,7	2,9 4,5	2,8 4,3	2,7 4,1	2,7 4,0	2,6 3,9	2,6 3,9
15	4,5 8,7	3,7 6,4	3,3 5,4	3,1 4,9	2,9 4,6	2,8 4,3	2,7 4,1	2,6 4,0	2,6 3,9	2,5 3,8	2,5 3,7
16	4,5 8,5	3,6 6,2	3,2 5,3	3,0 4,8	2,9 4,4	2,7 4,2	2,7 4,0	2,6 3,9	2,5 3,8	2,5 3,7	2,5 3,6
17	4,5 8,4	3,6 6,1	3,2 5,2	3,0 4,7	2,8 4,3	2,7 4,1	2,6 3,9	2,6 3,8	2,5 3,8	2,5 3,6	2,4 3,5
18	4,4 8,3	3,5 6,0	3,2 5,1	2,9 4,6	2,8 4,2	2,7 4,0	2,6 3,8	2,5 3,7	2,7 3,6	2,4 3,6	3,4 3,5
19	4,4 8,2	3,5 5,9	3,1 5,0	2,9 4,5	2,7 4,2	2,6 3,9	2,5 3,8	2,5 3,6	2,4 3,5	2,4 3,4	2,3 3,4
20	4,3 8,1	3,5 5,8	3,1 4,9	2,9 4,4	2,7 4,1	2,6 3,9	2,5 3,7	2,4 3,6	2,4 3,4	2,3 3,4	2,3 3,3

Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. 464 с.
Архипова ГЛ., Лаврова И.Г., Трошина И.М. Некоторые современные методы статистического анализа в медицине. - М.: Метроснаб, 1971. - 75 с.
Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика. - СПб.: ООО "Издательство ФОЛИАНТ", 2003. - 432 с.
Платонов А.Е. Статистический анализ в медицине и биологии: задачи, терминология, логика, компьютерные методы. - М.: Издательство РАМН, 2000. - 52 с.
Плохинский Н.А. Биометрия. - Издательство Сибирского отделения АН СССР Новосибирск. - 1961. - 364 с.

При планировании эксперимента бывают ситуации, когда исследуемую систему необходимо разбить на группы, отличающиеся между собой в количественном отношении, и установить сходство или различие между ними по влиянию различных факторных величин на признак. Например, определить степень влияния географических условий на ход тех или иных процессов, явлений. Таким условиям лучше всего отвечает дисперсионный анализ, который нашел применение в физической географии.

Дисперсионный анализ позволяет утверждать с определенной долей уверенности наличие влияния на изучаемый объект каждого из условий в отдельности или в их сочетаниях. Обязательным условием применения дисперсионного анализа является разбивка каждого учитываемого фактора не менее чем на две группы. Они могут быть представлены как качественными, так и количественными показателями. Качественные показатели приводятся в виде баллов. Анализу подвергаются лишь определяющие поведение объекта факторы, которые установлены исследователем. По количеству определяющих факторов дается название виду дисперсионного анализа (одно-, двух-, трехфакторный и т. д.).

Обработка данных дисперсионного анализа - весьма трудоемкий процесс; облегчает вычисления правильная организация опыта. Порядок расчета в различных видах дисперсионного анализа будет различным, но логическая схема остается единой. Факторы в дисперсионном анализе должны быть независимыми друг от друга; каждый фактор следует разделить на группы, количество которых зависит от поставленной задачи.

Дисперсионный анализ применяется в случаях нормального или близкого к нему распределения выборочных совокупностей. Выборки должны иметь близкие по значению показатели дисперсии σ 2 . Количество повторностей в каждой выделенной группе принимается одинаковым.

Основная трудность при использовании дисперсионного анализа - составление комбинационной таблицы для обработки данных (дисперсионный комплекс). Если число наблюдений над результативным признаком по отдельным группам изучаемого фактора одинаково, то дисперсионный комплекс называется равномерным, если разное, то неравномерным. Общее число наблюдений над результативным признаком принято называть объемом дисперсионного комплекса.

Порядок действия по каждому виду дисперсионного анализа определяется его основной задачей, которая состоит в делении суммарного или общего варьирования изучаемого признака на доли: варьирование, вызываемое действием отдельных факторов; варьирование, вызываемое взаимодействием факторов между собой; остаточное варьирование объекта, которое определяется неучитываемыми факторами.

Однофакторный дисперсионный анализ

Среди различных видов дисперсионного анализа наиболее часто используется однофакторный. Для выполнения однофакторного анализа в опыте должно быть предусмотрено две повторности и более. Исследуемый фактор разбивается на группы с целью выявления его оптимальной величины, влияющей на результативный признак. Для облегчения расчета можно уменьшить все показатели в пределах дисперсионного комплекса на определенную величину, а затем увеличить конечные результаты на ту же величину.

Географы исследуют не только природные, но и сельскохозяйственные ландшафты (агроландшафты), претерпевающие существенные изменения под воздействием агротехногенеза. Использование системного анализа позволяет не только констатировать изменения в агроландшафте, но и активно включаться в его преобразование.

Известно, что оптимальным условиям питания растений соответствует дерновая легкосуглинистая гумусированная нейтральная почва. Ее можно создать путем внесения в пахотный горизонт добавок минерального грунта определенного механического состава и торфа. Формирование искусственной антропогенной почвы требует полевых экспериментов. В связи с этим поставлена следующая задача: определить влияние на урожай зерна ячменя разных доз торфа (200, 300, 400 т абсолютно сухого вещества на гектар) при внесении его на фоне минеральных, органических удобрений и доломитовой муки. Исходная почва - дерново-подзолистая глееватая связносупесчаная осушенная. После получения сведений об урожайности ячменя в названных условиях составляется таблица дисперсионного комплекса (табл. 2.1), куда заносится исходная информация по группам влияющего фактора (вариантам опыта) и некоторые результаты расчетов (для удобства сделано округление по урожайности до целых чисел). Вначале производим расчет данных по вариантам опыта (строкам).

Результаты разносим по столбцам. Суммарный урожай ячменя по повторностям Σx i и по каждому варианту опыта вносим в столбец 6 в числителе. Аналогично поступаем с квадратами этих показателей Σx i 2 . Затем в столбце 7 приводим квадраты суммарного урожая ячменя по повторностям (Σx i ) 2 . И, наконец, вычисляем среднее арифметическое М i по каждому варианту опыта, заносим в столбец 8; вычисляем общее среднее М общ.

После получения данных по вариантам опыта произ-водим расчет необходимых показателей по повторностям (х k ). Сначала суммируем данные урожайности ячменя и приводим в строке под чертой Σx k . Суммы сумм урожайности ячменя по вариантам опыта и повторностям должны совпасть и дать сумму всех вариант (ΣΣx i , k = 495). Аналогично суммируем квадраты этих показателей по повторностям (Σx k 2). Суммы сумм квадратов по вариантам и повторностям опыта должны совпасть и дать сумму квадратов всех вариант (Σx i 2 = Σx k 2 =15 935). Ниже вписываем результаты возведения в квадрат сумм вариант по каждой повторности (Σx k ) 2 и суммируем их: Σ(Σx k ) 2 = 61 269. Вычисляем средние арифметические по каждой повторности опыта М k . Общее среднее арифметическое всех вариант опыта составляет М общ = (Σx i , k )/N = 495: 16 = 30,93.

Таблица 2.1 Однофакторный дисперсионный анализ

Варианты		Урожай ячменя по повторностям, ц/га*				По повторностям (признакам) (i )

Как было уже отмечено, дисперсионный метод тесно связан со статистическими группировками и предполагает, что изучаемая совокупность подразделена на группы по факторным признакам, влияние которых должно быть изучено.

На основе дисперсионного анализа производится:

1. оценка достоверности различий в групповых средних по одному факторному признаку или нескольким;

2. оценка достоверности взаимодействий факторов;

3. оценка частных различий между парами средних.

В основе применения дисперсионного анализа лежит закон разложения дисперсий (вариаций) признака на составляющие.

Общая вариация D о результативного признака при группировке может быть разложена на следующие составные части:

1. на межгрупповую D м связанную с группировочным признаком;

2. на остаточную (внутригрупповую) D B , не связанную с группировочным признаком.

Соотношение между этими показателями выражается следующим образом:

D о = D м + D в. (1.30)

Рассмотрим применение дисперсионного анализа на примере.

Допустим, требуется доказать, влияют ли сроки посева на урожайность пшеницы. Исходные опытные данные для дисперсионного анализа представлены в табл. 8.

Таблица 8

В данном примере N = 32, K = 4, l = 8.

Определим общую суммарную вариацию урожайности, которая представляет собой сумму квадратов отклонений индивидуальных значений признака от общей средней:

где N – число единиц совокупности; Y i – индивидуальные значения урожайности; Y o – общая средняя урожайности по всей совокупности.

Для определения межгрупповой суммарной вариации, определяющей вариацию результативного признака за счет изучаемого фактора, необходимо знать средние значения результативного признака по каждой группе. Эта суммарная вариация равна сумме квадратов отклонений групповых средних величин от общей средней величины признака, взвешенной на число единиц совокупности в каждой из групп:

Внутригрупповая суммарная вариация равна сумме квадратов отклонений индивидуальных значений признака от групповых средних по каждой группе, суммированной по всем группам совокупности.

Влияние фактора на результативный признак проявляется в соотношении между D м и D в: чем сильнее влияние фактора на величину изучаемого признака, тем больше D м и меньше D в.

Для проведения дисперсионного анализа нужно установить источники варьирования признака, объем вариации по источникам, определить число степеней свободы для каждой компоненты вариации.

Объем вариации уже установлен, теперь необходимо определить число степеней свободы вариации. Число степеней свободы – это число независимых отклонений индивидуальных значений признака от его среднего значения. Общее число степеней свободы, соответствующее общей сумме квадратов отклонений в дисперсионном анализе, разлагается по составляющим вариации. Так, общей сумме квадратов отклонений D о соответствует число степеней свободы вариации, равное N – 1 = 31. Групповой вариации D м соответствует число степеней свободы вариации, равное K – 1 = 3. Внутригрупповой остаточной вариации соответствует число степеней свободы вариации, равное N – K = 28.

Теперь, зная суммы квадратов отклонений и число степеней свободы, можно определить дисперсии для каждой составляющей. Обозначим эти дисперсии: d м – групповые и d в – внутригрупповые.

После вычисления этих дисперсий приступим к установлению значимости влияния фактора на результативный признак. Для этого находим отношение: d M /d B = F ф,

Величина F ф, называемая критерием Фишера , сравнивается с табличным, F табл. Как уже было отмечено, если F ф > F табл, то влияние фактора на результативный признак доказано. Если F ф < F табл то можно утверждать, что различие между дисперсиями находится в пределах возможных случайных колебаний и, следовательно, не доказывает с достаточной вероятностью влияние изучаемого фактора.

Теоретическая величина связана с вероятностью, и в таблице ее значение приводится при определенном уровне вероятности суждения. В приложении имеется таблица, позволяющая установить возможную величину F при вероятности суждения, наиболее часто используемой: уровень вероятности «нулевой гипотезы» – 0,05. Вместо вероятностей «нулевой гипотезы» таблица может быть названа таблицей для вероятности 0,95 существенности влияния фактора. Повышение уровня вероятности требует для сравнения более высокого значения F табл.

Величина F табл зависит также от числа степеней свободы двух сравниваемых дисперсий. Если число степеней свободы стремится к бесконечности, то F табл стремится к единице.

Таблица значений F табл построена следующим образом: в столбцах таблицы указаны степени свободы вариации для большей дисперсии, а в строках – степени свободы для меньшей (внутригрупповой) дисперсии. Величина F находится на пересечении столбца и строки соответствующих степеней свободы вариации.

Так, в нашем примере F ф = 21,3/3,8 = 5,6. Табличное же значение F табл для вероятности 0,95 и степеней свободы, соответственно равных 3 и 28, F табл = 2,95.

Значение F ф полученное в опыте, превышает теоретическое значение даже для вероятности 0,99. Следовательно, опыт с вероятностью более 0,99 доказывает влияние изучаемого фактора на урожайность, т. е. опыт можно считать надежным, доказанным, а значит, сроки посева оказывают существенное влияние на урожайность пшеницы. Оптимальным сроком посева следует считать период с 10 по 15 мая, так как именно при этом сроке посева получены наилучшие результаты урожайности.

Нами рассмотрена методика дисперсионного анализа при группировке по одному признаку и случайному распределению повторностей внутри группы. Однако часто бывает так, что опытный участок имеет какие-то различия в плодородии почвы и т. д. Поэтому может возникнуть такая ситуация, что большее число делянок одного из вариантов попадет на лучшую часть, и его показатели будут завышены, а другого варианта – на худшую часть, и результаты в этом случае, естественно, будут хуже, т. е. занижены.

Чтобы исключить варьирование, которое вызывается не относящимися к опыту причинами, надо из внутригрупповой (остаточной) дисперсии вычленить дисперсию, рассчитанную по повторностям (блокам).

Общая сумма квадратов отклонений подразделяется в этом случае уже на 3 составляющие:

D о = D м + D повт + D ост. (1.33)

Для нашего примера сумма квадратов отклонений, вызванная повторностями, будет равна:

Стало быть, собственно случайная сумма квадратов отклонений будет равна:

D ост = D в – D повт; D ост = 106 – 44 = 62.

Для остаточной дисперсии число степеней свободы будет равно 28 – 7 = 21. Результаты дисперсионного анализа представлены в табл. 9.

Таблица 9

Поскольку фактические значения F-критерия для вероятности 0,95 превышают табличные, то влияние сроков посева и повторностей на урожайность пшеницы следует считать существенным. Рассмотренный способ построения опыта, когда участок предварительно делится на блоки с относительно выровненными условиями, а проверяемые варианты распределяются внутри блока в случайном порядке, называется способом рендомизированных блоков.

С помощью анализа дисперсионным методом можно изучить влияние не только одного фактора на результат, а двух и более. Дисперсионный анализ в этом случае будет называться многофакторным дисперсионным анализом .

Двухфакторный дисперсионный анализ отличается от двух однофакторных тем, что он может ответить на следующие вопросы:

1. 1каково влияние обоих факторов вместе?

2. какова роль сочетания этих факторов?

Рассмотрим дисперсионный анализ опыта, в котором следует выявить влияние не только сроков посева, но и сортов на урожайность пшеницы (табл. 10).

Таблица 10. Данные опыта по влиянию сроков посева и сортов на урожайность пшеницы

– это сумма квадратов отклонений индивидуальных значений от общей средней.

Вариация по совместному влиянию сроков посева и сорта

– это сумма квадратов отклонений средних по подгруппам от общей средней, взвешенных на число повторностей, т. е. на 4.

Вычисление вариации по влиянию только сроков посева:

Остаточная вариация определяется как разность между общей вариацией и вариацией по совместному влиянию изучаемых факторов:

D ост = D о – D пс = 170 – 96 = 74.

Все расчеты можно оформить в виде таблицы (табл. 11).

Таблица 11. Результаты дисперсионного анализа

Результаты дисперсионного анализа показывают, что влияние изучаемых факторов, т. е. сроков посева и сорта, на урожайность пшеницы существенно, так как F-критерии фактические по каждому из факторов значительно превышают табличные, найденные для соответствующих степеней свободы, и при этом с достаточно высокой вероятностью (р = 0,99). Влияние же сочетания факторов в данном случае отсутствует, так как факторы независимы друг от друга.

Анализ влияния трех факторов на результат ведется по такому же принципу, что и для двух факторов, только в этом случае будет три дисперсии по факторам и четыре дисперсии по сочетанию факторов. С увеличением числа факторов резко увеличивается объем расчетных работ и, кроме того, становится затруднительно оформлять исходную информацию в комбинационную таблицу. Поэтому вряд ли целесообразно изучать влияние многих факторов на результат с использованием дисперсионного анализа; лучше взять меньшее их число, но выбрать наиболее существенные факторы с точки зрения экономического анализа.

Нередко исследователю приходится иметь дело с так называемыми непропорциональными дисперсионными комплексами, т. е. такими, в которых не соблюдается пропорциональность численностей вариантов.

В таких комплексах вариация суммарного действия факторов не равна сумме вариации по факторам и вариации сочетания факторов. Она отличается на величину, зависящую от степени связей между отдельными факторами, возникающих вследствие нарушения пропорциональности.

В этом случае возникают трудности при определении степени влияния каждого фактора, так как сумма частных влияний не равна суммарному влиянию.

Одним из способов приведения непропорционального комплекса к единой структуре является способ его замены пропорциональным комплексом, в котором частоты усреднены по группам. Когда такая замена произведена, задача решается по принципам пропорциональных комплексов.

Тема 2.3. Дисперсионный анализ

План.

Сущность и схема дисперсионного анализа
Оценка значимости разности между средними по НСР
Область применения дисперсионного анализа

1. Сущность и схема дисперсионного анализа

Откуда произошло название Дисперсионный анализ ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии.

Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.

Итак, дисперсионный анализ основан на работах знаменитого математика Р.А.Фишера. Несмотря на достаточно солидный «возраст», данный метод до сих пор остается одним из основных при проведении биологических и сельскохозяйственных исследований. Идеи, положенные в основу дисперсионного анализа, широко используются во многих других методах математического анализа экспериментальных данных, а также при планировании биологических и сельскохозяйственных экспериментов.

Дисперсионный анализ позволяет:

1) сравнивать две или несколько выборочных средних;

2) одновременно изучать действие нескольких независимых факторов, при этом можно определить как эффект каждого фактора в изменчивости изучаемого признака, так и их взаимодействие;

3) правильно планировать научный эксперимент.

Изменчивость живых организмов проявляется в виде разброса или рассеяния значений отдельных признаков в пределах, которые определяются степенью биологической выравненности материала и характером взаимосвязей с условиями среды. Признаки, изменяющиеся под воздействием тех или иных причин, называют результативными .

Факторы это любые воздействия или состояния, разнообразие которых может так или иначе отражаться на разнообразии результативного признака. Под статистическим влиянием факторов в дисперсионном анализе понимается отражение в разнообразии результативного признака того разнообразия изучаемых факторов, которое организовано в исследовании.

Под разнообразием будем понимать наличие неодинаковых значений каждого признака у разных особей, объединенных в группу. Разнообразие группы особей по изучаемому признаку может иметь разную степень, которая обычно измеряется показателями разнообразия (или изменчивости): лимитами, средним квадратическим отклонением, коэффициентом вариации. В дисперсионном анализе степень разнообразия индивидуальных и средних значений признака измеряется и сравнивается особыми способами, составляющими специфику этого общего метода.

Организация факторов заключается в том, что каждому изучаемому фактору придается несколько значений. В соответствии с этими значениями каждый фактор разбивается на несколько градаций; для каждой градации подбирается по принципу случайной выборки несколько особей, у которых впоследствии и измеряется величина результативного признака.

Для того, чтобы выяснить степень и достоверность влияния изучаемых факторов, надо измерить и оценить ту часть общего разнообразия, которая вызывается этими факторами.

Факторы, влияющие на степень варьирования результативного признака, делятся на:

1)регулируемые

2) случайные

Регулируемые (систематические) факторы вызываются действием изучаемого в эксперименте фактора, который имеет в опыте несколько градаций. Градация фактора - это степень его воздействия на результативный признак. В соответствии с градациями признака выделяется несколько вариантов опыта для сравнения. Поскольку эти факторы предварительно обусловлены, их называют регулируемыми в исследованиях, т.е. заданными, зависящими от организации опыта. Следовательно, регулируемые факторы – факторы, действие которых изучается в опыте, именно они и обусловливают различия между средними выборочными разных вариантов - межгрупповую (факториальную) дисперсию.

Случайные факторы определяются естественным варьированием всех признаков биологических объектов в природе. Это неконтролируемые в опыте факторы. Они оказывают случайное влияние на результативный признак, обусловливают экспериментальные ошибки и определяют внутри каждого варианта разброс (рассеяние) признака. Этот разброс носит название внутригрупповой (случайной) дисперсии .

Таким образом, относительная роль отдельных факторов в общей изменчивости результативного признака характеризуется дисперсией и может быть изучена с помощью дисперсионного анализа или анализа рассеяния

Дисперсионный анализ основан на сравнении межгрупповой и внутригрупповой дисперсий . Если межгрупповая дисперсия не превышает внутригрупповую, значит, различия между группами имеют случайный характер. Если межгрупповая дисперсия существенно выше, чем внутригрупповая, то между изучаемыми группами (вариантами) существуют статистически значимые различия, обусловленные действием изучаемого в опыте фактора.

Из этого следует, что при статистическом изучении результативного признака при помощи дисперсионного анализа следует определить его варьирование по вариантам, повторениям, остаточное варьирование внутри этих групп и общее варьирование результативного признака в опыте. В соответствии с этим различают три вида дисперсий:

1) Общую дисперсию результативного признака (S y 2);

2) Межгрупповую, или частную, между выборками (S y 2);

3) Внутригрупповую, остаточную (S z 2).

Следовательно, дисперсионный анализ это расчленение общей суммы квадратов отклонений и общего числа степеней свободы на части или компоненты, соответствующие структуре эксперимента, и оценка значимости действия и взаимодействия изучаемых факторов по F-критерию. В зависимости от числа одновременно исследуемых факторов различают двух-, трех-, четырехфакторный дисперсионный анализ.

При обработке полевых однофакторных статистических комплексов, состоящих из нескольких независимых вариантов, общая изменчивость результативного признака, измеряемая общей суммой квадратов (С y), расчленяется на три компонента: варьирование между вариантами (выборками) - С V , варьирование повторений (варианты связаны между собой общим контролируемым условием – наличием организованных повторений) - С p и варьирование внутри вариантов С z .. В общей форме изменчивость признака представлена следующим выражением:

С y = С V +С p + С z .

Общее число степеней свободы (N -1) также расчленяется на три части:

степени свободы для вариантов (l – 1);

степени свободы для повторений (n – 1);

случайного варьирования (n – 1) × (l – 1).

Суммы квадратов отклонений, по данным полевого опыта – статистического комплекса с вариантами – l и повторениями – n, находят следующим образом. Сначала с помощью исходной таблицы определяют суммы по повторениям - Σ P , вариантам - Σ V и общую сумму всех наблюдений - Σ X.

Затем вычисляют следующие показатели:

Общее число наблюдений N = l × n;

Корректирующий фактор (поправку) С кор = (Σ X 1) 2 / N;

Общую сумму квадратов Cy = Σ X 1 2 – C кор;

Сумму квадратов для повторений C p = Σ P 2 / (l –C кор);

Сумму квадратов для вариантов C V = Σ V 2 / (n – 1);

Сумму квадратов для ошибки (остаток) C Z = C y - C p - C V .

Полученные суммы квадратов C V и C Z делят на соответствующие им степени свободы и получают два средних квадрата (дисперсии):

Вариантов S v 2 = C V / l – 1;

Ошибки S Z 2 = C Z / (n – 1)×(l – 1).

Оценка существенности разностей между средними

Полученные средние квадраты используют в дисперсионном анализе для оценки значимости действия изучаемых факторов путем сравнения дисперсии вариантов (S v 2) с дисперсией ошибки (S Z 2) по критерию Фишера (F = S Y 2 / S Z 2). За единицу сравнения принимают средний квадрат случайной дисперсии, который определяет случайную ошибку эксперимента.

Применение критерия Фишера позволяет установить наличие или отсутствие существенных различий между выборочными средними, но не указывает конкретных различий между средними.

Проверяемой H o - гипотезой является предположение - все выборочные средние являются оценками одной генеральной средней и различия между ними несущественны. Если F факт = S Y 2 / S Z 2 ≤ F теор , то нулевая гипотеза не отвергается. Между выборочными средними нет существенных различий, и на этом проверка заканчивается. Нулевая гипотеза отвергается при F факт = S Y 2 / S Z 2 ≥ F теор Значение F- критерия для принятого в исследовании уровня значимости находят в соответствующей таблице с учетом степеней свободы для дисперсии вариантов и случайной дисперсии. Обычно пользуются 5% -ным уровнем значимости, а при более строгом подходе 1% - ным и даже 0,1% -ным.

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных:

Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2 . Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим величину 28 . Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различие между суммами квадратов. В самом деле, если использовать для анализа этих данных модуль Дисперсионный анализ , то будет получена следующая таблица, называемая таблицей дисперсионного анализа:

	ГЛАВНЫЙ ЭФФЕКТ
	SS	ст.св.	MS	F	p
Эффект Ошибка	24.0 4.0	1 4	24.0 1.0	24.0	.008

Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4 ; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св).

SS ошибок и SS эффекта. Внутригрупповая изменчивость (SS ) обычно называется остаточной компонентой или дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или компоненту дисперсии между группами) можно объяснить различием между средними значениями в группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями.

Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо , нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Зависимые и независимые переменные. Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными.

Многофакторный дисперсионный анализ

В рассмотренном выше простом примере вы могли бы сразу вычислить t- критерий для независимых выборок, используя соответствующую опцию модуля Основные статистики и таблицы. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа. Однако дисперсионный анализ содержит гораздо более гибкие и мощные технические средства, позволяющие исследовать планы практически неограниченной сложности.

Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t- критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен. Вам нужно сделать определенные усилия, чтобы овладеть техникой дисперсионного анализа, реализованной на STATISTICA, и ощутить все ее преимущества в конкретных исследованиях.

Управление факторами. Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол - Gender . Пусть каждая группа теперь состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы 2 на 2:

	Экспериментальная группа 1	Экспериментальная группа 2
Мужчины	2 3 1	6 7 5
Среднее	2	6
Женщины	4 5 3	8 9 7
Среднее	4	8

До проведения вычислений можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника: (1) случайная ошибка (внутригрупповая дисперсия), (2) изменчивость, связанная с принадлежностью к экспериментальной группе, и (3) изменчивость, обусловленная полом объектов наблюдения. (Отметим, что существует еще один возможный источник изменчивости - взаимодействие факторов , который мы обсудим позднее). Что произойдет, если мы не будем включать пол как фактор при проведении анализа и вычислим обычный t -критерий? Если мы будем вычислять суммы квадратов, игнорируя пол (т.е. объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии и получив при этом сумму квадратов для каждой группы равную SS =10 и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповая дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8).

Итак, при введении дополнительного фактора: пол , остаточная дисперсия уменьшилась. Это связано с тем, что среднее значение для мужчин меньше, чем среднее значение для женщин , и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия. На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t -критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями других факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t- критерий.

Эффекты взаимодействия

Существует еще одно преимущество дисперсионного анализа перед обычным t -критерием: дисперсионный анализ позволяет обнаружить эффекты взаимодействия между факторами и, поэтому, позволяет проверять более сложные гипотезы. Рассмотрим еще один пример, иллюстрирующий только что сказанное.

Главные эффекты, попарные (двухфакторные) взаимодействия. Предположим, что имеется две группы студентов, причем психологически студенты первой группы настроены на выполнение поставленных задач и более целеустремленны, чем студенты второй группы, состоящей из более ленивых студентов. Разобьем каждую группу случайным образом пополам и предложим одной половине в каждой группе сложное задание, а другой - легкое. После этого измерим, насколько напряженно студенты работают над этими заданиями. Средние значения для этого (вымышленного) исследования показаны в таблице:

Какой вывод можно сделать из этих результатов? Можно ли заключить, что: (1) над сложным заданием студенты трудятся более напряженно; (2) честолюбивые студенты работают упорнее, чем ленивые? Ни одно из этих утверждений не отражает сущность систематического характера средних, приведенных в таблице. Анализируя результаты, правильнее было бы сказать, что над сложными заданиями работают упорнее только честолюбивые студенты, в то время как над легкими заданиями только ленивые работают упорнее. Другими словами характер студентов и сложность задания взаимодействуя между собой влияют на затрачиваемое усилие. Это является примером попарного взаимодействия между характером студентов и сложностью задания. Заметим, что утверждения 1 и 2 описывают главные эффекты .

Взаимодействия высших порядков. В то время как объяснить попарные взаимодействия еще сравнительно легко,то взаимодействия высших порядков объяснить значительно сложнее. Представьте, что в рассматриваемый выше пример, введен еще один фактор пол и получена следующая таблица средних значений:

Какие теперь выводы можно сделать из полученных результатов? Графики средних позволяют объяснять сложные эффекты. Модуль дисперсионного анализа позволяет строить эти графики практически одним щелчком мыши. Изображение на этих графике внизу представляет собой изучаемое трехфакторное взаимодействие.

Глядя на график, можно сказать, что у женщин существует взаимодействие между характером и сложностью теста: целеустремленные женщины работают над трудным заданием более напряженно, чем над легким. У мужчин то же взаимодействие носит обратный характер. Видно, что описание взаимодействия между факторами становится более запутанным.

Общий способ описания взаимодействий. В общем случае взаимодействие между факторами описывается в виде изменения одного эффекта под воздействием другого. В рассмотренном выше примере двухфакторное взаимодействие можно описать как изменение главного эффекта фактора, характеризующего сложность задачи, под воздействием фактора, описывающего характер студента. Для взаимодействия трех факторов из предыдущего параграфа можно сказать, что взаимодействие двух факторов (сложности задачи и характера студента) изменяется под воздействием Пола. Если изучается взаимодействие четырех факторов, можно сказать, что взаимодействие трех факторов, изменяется под воздействием четвертого фактора, т.е. существуют различные типы взаимодействий на разных уровнях четвертого фактора. Оказалось, что во многих областях взаимодействие пяти или даже большего количества факторов не является чем-то необычным.

2. Оценка значимости разности между средними по наименьшей существенной разности

Наименьшей существенной разностью (НСР) является своеобразной ценой деления, разрешающей способностью опыта при оценке разности выборочных средних. Критерий НСР = t 0,5 * S d указывает предельную ошибку для разности двух выборочных средних.

Если фактическая разность больше НСР 0,5 (d ≥ НСР 0,5), то она значима, существенна, при d ≤ НСР 0,5 – несущественна.

Для определения НСР необходимо по данным дисперсионного анализа вычислить обобщенную ошибку средней: Sx = √ S 2 / n и ошибку разности средних S d = √ 2S 2 / n. Значения t - критерия для принятого уровня значимости и числа степеней свободы остаточной дисперсии берут из таблицы.

В многофакторном опыте изучается действие и взаимодействие нескольких факторов на изменчивость результативного признака, поэтому каждому фактору задают несколько градаций. Это позволяет изучать действие каждого из них при нескольких градациях других факторов.

Эффект взаимодействия факторов составляет ту часть общей изменчивости, которая вызвана различным действием одного фактора при разных градациях другого. В полевом опыте часто эффект от совместного применения изучаемых факторов может быть выше (синергизм) или ниже (антагонизм) суммы эффектов от раздельного применения каждого из них. В первом случае имеет место положительное, во втором – отрицательное взаимодействие факторов. Если же факторы не взаимодействуют, то эффект от совместного применения равен сумме эффектов от раздельного их применения (аддитивизм).

При дисперсионном анализе данных многофакторного опыта используют те же принципы и расчеты дисперсий, что и при однофакторном. Однако при этом усложняется математическая модель анализа.

При обработке данных двухфакторного опыта сумма квадратов расчленяется на следующие компоненты:

C y = C A + C B + C AB + C P + C Z .

Соответственно с указанными компонентами расчленяется и общее число степеней свободы:

N -1 = (l A -1) + (l B – 1) + (l A - 1)* (l B -1) + (n – 1) + (l – 1)* (n – 1).

Вегетационные опыты представляют собой статистические комплексы, состоящие из нескольких независимых выборок (вариантов). Независимость сопоставляемых вариантов достигается регулярным перемещением сосудов на вагонетке. Следовательно, в вегетационных опытах обычно нет территориально организованных повторений. Поэтому в однофакторном вегетационном опыте общее варьирование результативного признака разлагается на два компонента – варьирование вариантов и случайное варьирование и общее число степеней свободы:

С y = С V + С z , N – 1 = (l -1) + (N -l).

3.Область применения дисперсионного анализа

Дисперсионный анализ может использоваться для изучения действия самых разнообразных факторов как на количественные, так и на качественные признаки. Однако область применения дисперсионного анализа имеет два важных ограничения:

1) Исследуемые группы должны иметь нормальное распределение;

2) Исследуемые группы должны иметь равные дисперсии.

При планировании и проведении многофакторного дисперсионного анализа рекомендуется использовать выборки равного и пропорционального объема (в каждом варианте должно быть одинаковое или пропорциональное число повторностей).

Контрольные вопросы

Что такое функциональная и корреляционная связь, в чем их различие?
С помощью каких показателей оценивается корреляционная связь?
Что такое коэффициент простой линейной корреляции, какие значения он может принимать?
В чем суть и значение коэффициента регрессии?
Что такое доверительная зона регрессии?
В чем смысл коэффициента детерминации?

Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): , а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках , дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F-критерия Фишера , можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок : , которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным .

Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).

Примеры задач

В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеющих номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.

Пример 1: В течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели.

Пример 2: Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.

Пример 3: Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.

Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.

Пример 5: Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.

Пример 6: Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.

Перечень методов

Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач ; факторы, влияющие на объёмы продаж .

Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности:

Однофакторная параметрическая модель : метод Шеффе .
Однофакторная непараметрическая модель [Лагутин М.Б., 237]: критерий Краскела-Уоллиса [Холлендер М., Вульф Д.А., 131], критерий Джонкхиера [Лагутин М.Б., 245].

Общий случай модели с постоянными факторами, теорема Кокрена [Афифи А., Эйзен С., 234].

Данные представляют собой двухкратные повторные наблюдения:

Двухфакторная непараметрическая модель : критерий Фридмана [Лапач, 203], критерий Пейджа [Лагутин М.Б., 263]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
Двухфакторная непараметрическая модель для неполных данных

История

Откуда произошло название дисперсионный анализ ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Литература

Шеффе Г. Дисперсионный анализ. - М., 1980.
Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
Кобзарь А. И. Прикладная математическая статистика. - М.: Физматлит, 2006.
Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. - Киев: Морион, 2002.
Лагутин М. Б. Наглядная математическая статистика. В двух томах. - М.: П-центр, 2003.
Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ.
Холлендер М., Вульф Д.А. Непараметрические методы статистики.

Ссылки

Дисперсионный анализ - Электронный учебник StatSoft.