WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 |   ...   | 3 | 4 || 6 |

- - ~ 12 = С1 С212, = = = где C1 и C2 - матрицы размерности k1(k1-1) и k2(k2-1), имеющие описанную выше структуру (матрица C).

Теперь компоненту совместного влияния можно записать следующим образом:

~ ~ ~ ~ = = = (Z1 Z2 )(C1 C2 )12 = (Z1C1 ) (Z2C2 )12 = Z1 Z212 = Z1212, = = = = = = а уравнение, включающее эту компоненту (форма “б”) X = Z + Z00 + Z11 + Z22 + Z1212 +.

= + + + + + = + + + + + = + + + + + В общем случае имеется L качественных факторов, j-й фактор принимает kj значений. Пусть упорядоченное множество {1,2,...,L} обозначается F, а J - его подмножества. Общее их количество, включая пустое подмножество, равно 2L.

Каждому такому подмножеству взаимно однозначно соответствует число, например, в системе исчисления с основанием max k, и их можно упорядочить по j j возрастанию этих чисел. Если пустое подмножество обозначить 0, то можно записать J = 0,1,...,L,{1,2},...,{1,L},{2,3},...,{1,2,3},...,F. Тогда уравнение регрессии записывается следующим образом:

F F F ~ ~ = + J + = + + = + + X = Z + ZJ~ + = Z + ZJCJJ + = Z + ZJJ +, = + + = + + = + + = + + = + + = + + =0 =0 = J = J = J = = = = = = = ~ = = где ZJ = Z, CJ = при j > 0; C0 = 1. Выражение jJ = ~ j = = = Cj jJ jJ означает, что j принимает значения последовательно с 1-го по последний элемент подмножества J.

Очевидно, что приведенная выше запись уравнения для L = 2 является частным случаем данной записи.

Если p(J) - количество элементов в подмножестве J, то ~ ZJ~ или ZJJ - J-е эффекты, эффекты p(J)-го порядка, при p(J) = 1 J главные эффекты, при p(J) > 1 - эффекты взаимодействия, эффекты совместного влияния или совместные эффекты.

~ J или J - параметры соответствующих J-х эффектов или также сами эти эффекты.

6.3. Дисперсионный анализ Рассматривается частный случай уравнения регрессии с фиктивными переменными, когда оно включает только такие (фиктивные) переменные, и для каждого сочетания значений факторов имеется одно и только одно наблюдение за = изучаемой переменной. Тогда N = kj и уравнение имеет вид:

= = jF F X = = = = = = = ZJJ = Z, J = == = в котором отсутствует вектор ошибок, т.к. при учете эффектов всех порядков их сумма в точности равняется X.

Матрица Z имеет размерность NN и она не вырождена. Поэтому = Z-1X. Но чтобы получить общие результаты, имеющие значение и для частных моделей, в которых эффекты высоких порядков принимаются за случайную ошибку, ниже используется техника регрессионного анализа.

Это - регрессионная модель полного (учитываются эффекты всех порядков) одномерного (изучаемая переменная единственна) многофакторного дисперсионного анализа без повторений (для каждого сочетания значений фактров есть одно наблюдение).

Обычному линейному индексу i = 1, N компонент вектора X можно = = = поставить в соответствие мультииндекс I, принимающий значения из множества {1, kj}, так что, если I = {i1,i2,...,iL}, то jF i = ( ((i1 - 1)k2 + (i2 - 1))k3 + )kL + iL, и - при этом - обозначения xi и = - + - + + = - + - + + = - + - + +......

- -L- 4 L- - xI эквивалентны. При таком соответствии обычного индекса и мультииндекса в линейной последовательности значений мультииндекса быстрее меняются его младшие компоненты (с большим порядковым номером).

~ = NJ = k, если j > 0, и N0 = 1 - количество столбцов в матрице ZJ ;

= = j jJ = NJ == = (k j - 1), если j > 0, и N0 = 1 - количество столбцов в матрице - - - - jJ F F = = ZJ ; очевидно, что N = NJ = N ;

= = = = J = = = = = IJ = {i1,..., ip(J)} - мультииндекс с множеством значений = = {1, k j};

jJ I = IF.

Mb = m - система нормальных уравнений, где M - N N-матрица, b и m - N-вектора-столбцы и, как обычно, M = Z/Z, m = Z/X.

= = = = = = N N При выбранном порядке следования значений факторов от наблюдения к наблюдению (быстее меняют свои значения более младшие факторы) ~ = ZJ = где j есть Ik j, если jJ, или 1k j, в противном случае.

= = j jF Тогда = ZJ = где j есть Cj, если jJ, или 1k j, в противном случае, и = = j jF далее / ZJ ZJ = 0, если J J, т.е. переменные разных эффектов ортогональны = = = друг другу, / / MJ = ZJ ZJ = CJ CJ =, M0 = 1;

= = = = = = = = = M j N NJ jJ // / / 11 ~ = = = CJ XJ, mJ = ZJ X = CJ ZJ X = = = = = = = N N NJ / NJ ~ где XJ = ZJ X - NJ-вектор-столбец средних по сочетаниям значений = = = N факторов J с мультииндексом компонент IJ (xJJ является средним значением x по I тем наблюдениям, в которых 1-й фактор из множества J принимает i1-е значение, 2й - i2-е значение и т.д.); X0 = x, XF = X.

= = = = = = M - блочно-диагональная матрица {MJ}, m - вектор-столбец {mJ}.

После решения системы нормальных уравнений и перехода к “полным” векторам параметров эффектов получается следующее:

// ~ = = = bJ = CJ (CJ CJ )-1CJ XJ = BJXJ = ( = = = = = = Bj)XJ, jJ = - = где Bj = Ik j - 1k j (как и прежде, 1k j = 1k j1/ ), B0 = 1.

= - = = - = k j k j ~ Параметры разных эффектов bJ (разных по J) не зависят друг от друга, и исключение из уравнения некоторых из них не повлияет на значения параметров оставшихся эффектов.

Чтобы получить более “прозрачные” формулы для определения парметров эффектов, следует ввести понятие сопоставимых векторов этих параметров.

Если J J, то ~ = bJJ = BJJXJ - NJ-вектор-столбец параметров J -го эффекта, сопоставимый = = ~ ~ с вектором bJ : он имеет ту же размерность, что и bJ, и каждая компонента вектора NJ ~ ~ bJ повторена в нем раз - так, что любой компоненте bJJ вектора bJ в I J N ~ векторе bJJ соответствует компонента bJJ, для которой IJ является I подмножеством тех же элементов IJ, что и J по отношению к J.



В этом выражении для сопоставимых векторов параметров эффектов = BJJ =, где j равен Bj, если jJ, или 1k j, в противном = = j kj jJ J случае ( B0J = 1N, BJJ = BJ ).

= = = = = = NJ J = Эти матрицы обладают следующим свойством: BJJ = IN J, откуда = = =J = = = получается выражение J ~~ ~ XJ = bJJ = bJJ + bJ = =+ = = + = = + =0 J J J = = = J J для рекурентного расчета параметров эффектов (например, если известны b0, b1, b2, то b12i2 = x12i2 - b0 - b1 - b2 ).

= - - = - - = - - i1 i2 i1 i1 i1 iПри J = F это выражение представляет собой другую форму записи основного уравнения регрессии:

F ~ ~ = = X = bJF, т.е. ZJ bJ = bJF.

= = = = = J = = = F = s2 = = = s2 - основное тождество дисперсионного анализа, показывающее xJ J == = = распределение общей дисперсии изучаемой величины по факторам и их взаимодействиям, / где s2 = XJ ~ - дисперсия, объясненная совместным влиянием = = bJ = J NJ факторов J; представляет собой сумму квадратов с NJ степенями свободы.

Все эти дисперсии не зависят друг от друга. Если совместное влияние факторов J так же существенно (или не существенно) как и факторов J, то статистика J s2 N J (предполагается, что она больше единицы) s2 NJ J имеет FN J,N J -распределение (предполагается, что x нормально распределено).

- - - - Этот факт можно использовать для проверки гипотез о сравнительной существенности факторов и их взаимодействий.

Обычно эффекты высоких порядков отождествляют со случайной ошибкой.

Уравнение регрессии приобретает свою обычную форму и можно воспользоваться tи F-критериями для проверки значимости отдельных факторов и их взаимодействий. Важно, что оценки оставшихся в уравнении эффектов при этом не меняются.

Переходя к более общему и более сложному случаю модели дисперсионного анализа с повторениями, полезно вспомнить следующее. Если в модели регрессионного анализа X = Z + = + = + = + несколько строк матрицы Z одинаковы, то можно перейти к сокращенной модели, в которой из всех этих строк оставлена одна, а в качестве соответствующей компоненты вектора X взято среднее по этим наблюдениям с одинаковыми значениями независимых факторов. Т.е. совокупность наблюдений с одинаковыми значениями независимых факторов заменяется одним групповым наблюдением. При исходной гипотезе E(/ ) = 2I дисперсия остатка по этому наблюдению равна ng2, где ng - количество замененных наблюдений, и значения переменных в групповом наблюдении должны быть умножены на ng (в соответствии с ОМНК).

Значения оценок параметров по исходной и сокращенной модели будут одинаковыми, но полная (X/ X ) и остаточная (e/e) суммы квадратов в исходной модели будут больше, чем в сокращенной на сумму квадратов отклонений переменных x по исключенным наблюдениям от своей средней.

Пусть теперь рассматривается регрессионная модель одномерного однофакторного дисперсионного анализа с повторениями:

~ = + X = [Z0,Z] ~ +.

= + = + Фактор принимает k значений, и для каждого i-го значения существует ni наблюдений (ni повторений), т.е. исходная совокупность X разбита по какому-то признаку на k групп, причем сначала в ней идут наблюдения по 1-й группе, потом по 2-й и т.д..

1n1 0. k ~ 0 1n2. = N = ni ; Z - Nk-матрица структуры.

= = = i== =....

0 0. 1nk Всем повторениям в матрице Z соответствуют одинаковые строки, поэтому можно перейти к сокращенной модели.

k = x - среднее и s2 - дисперсия по i-й группе; s2 = nis2 - суммарная = = i i e i N = i == = дисперсия по группам. Сокращенная модель имеет следующий вид:

= + i = ni x = ni (0 + ), i = 1, k.

= + = = + = i k При естественном требовании b0 = x, которое эквивалентно nibi = 0, = = = = i== = - n2 n - -.. - nk - - n1 - n - - - n 1 0.. матрица C имеет вид и bi = x - x.

= = = i 0 1......

....

0 0.. k s2 = nib2 - объясненная дисперсия, равная полной дисперсии в = = = q i N = i == = сокращенной модели.

Полная дисперсия в исходной модели распадается на две части:

= + s2 = s2 + s= + = + x q e - объясненную и остаточную, или в терминах дисперсионного анализа межгрупповую и внутригрупповую дисперсии, которые имеют, соответственно, k и - N-k-1 степеней свободы. Применяя F-критерий, можно оценить статистическую - - значимость использования данной группировки в целом или выделения отдельных групп.

Теперь рассматривается общий случай L-факторной модели.

В этом случае N больше NF на общее число повторений по всем сочетаниям значений факторов. Пусть nI - число наблюдений при I-м сочетании значений факторов;

nI 1, nI = N ;

= = = I xI - среднее значение и s2 - дисперсия наблюдений при I-м сочетании;

I s2 = nIs2 - суммарная внутригрупповая или остаточная дисперсия для = = = e I N I исходной модели с N-NF-1 степенями свободы.

Сокращенная модель имеет вид:

= n0.5X = n0.5Z, = = где n - диагональная NF-матрица {nI};

X - NF-вектор-столбец {xI};

Z, - аналогичны L-факторной модели без повторений.

Пусть далее ~ M = n, = = = N ~ ~ ~ ~ ~ J JJ = N NJ -матрица M = ZJ / MZJ, в частности NMJJ - диагональная = = NJ- матрица {nJJ }, где nJJ - количество наблюдений при IJ-м сочетании значений I I ~~ FF факторов J ( M = M );





= = = ~ J JJ JJ N NJ -матрица M = CJ / M CJ, = = = - - - - ~ NJ -вектор-столбец mJ = CJ / MJJXJ, = = = -~ ~ ~ где XJ = MJJ ZJ / MX - NJ-вектор-столбец средневзвешенных x по = = = сочетаниям значений факторов J.

Матрица M и вектор m системы нормальных уравнений для b составляются JJ естественным образом из блоков M и mJ.

Формулы для MJ (в данном случае MJJ), mJ и XJ, приведенные для модели без повторений, являются частным случаем этих формул при n = IN F.

= = = F ~ - - 2 - = - =~ ~ -1 s2 = m/M-1m - x = X/M(M - 1N )MX - полная дисперсия в = - = = - = q сокращенной модели или объясненная дисперсия в исходной модели.

JJ Разные эффекты могут оставаться ортогональными ( M = 0 при J J ) в = = = одном специальном случае, когда каждый более младший фактор делит все ~~ выделенные до него подгруппы в одинаковых пропорциях, т.е. M = (в = = = M jj jF частности, когда количество повторений nI для всех сочетаний I одинаково). В этом случае для ортогональности эффектов достаточно матрицы Сj выбрать так, чтобы ~ j 1/ MCj = 0. Эти требования удовлетворяются, если данные матрицы обладают = = = k j описанной выше (для однофакторной модели с повторениями) структурой:

-cj j j = = Сj =, где cj = (n2,..., nk j ).

= = = = j nk I j - - - - Такие матрицы обобщают структуру матриц Сj модели без повтрений.

Для этого специального случая можно построить формулы решения задачи дисперсионного анализа, обобщающие приведенные выше формулы для модели без повторений.

В общем случае указанный выбор матриц Сj обеспечивает равенство нулю только M0j. Особым выбором CJ (p(J)>1) можно добиться равенства нулю еще некоторых блоков общей матрицы M.

Матрица CJ не обязательно должна равняться прямому произведению Сj по jJ. Она должна быть размерности NJ NJ и иметь ранг NJ, т.е., например, - - - - -cJ - - - обладать структурой, где cJ - (NJ - NJ ) NJ -матрица. Поэтому для - - - - IN J определения этой матрицы необходимо иметь (NJ - NJ ) NJ условий.

- - - - Поскольку J - = NJ - NJ = N, - = - = -- - - J J J J нужное количество условий содержат требования ~ = = MJJ = CJ / MJJCJ = = = = = N для всех J J, J J, включая пустое множество J = 0 (C0 = 1).

= = = Таким образом, матрицы CJ всегда можно определить так, чтобы эффекты нулевого и высшего порядков были ортогональны друг с другом и с остальными эффектами, и, в частности, b0 = x.

= = = Дисперсия s2 в общем случае не делится на факторные дисперсии, как это q было в модели без повторений; точно в ней выделяется только дисперсия эффектов высшего порядка (при указанном выборе CJ):

~ ~ ~ = s2 = X/MCF(CF / MCF)-1CF / MX, = = F и для нее непосредственно можно проверить нулевую гипотезу с помощью Fкритерия F s2 N F.

F s2 (N - N - 1) - - - e Нулевые гипотезы для остальных факторных дисперсий имеют вид J = 0, и в числителе F-статистики помещается величина -bJ / (MJJ )-1 bJ NJ, -где MJJ - соответствующий блок матрицы M-1, а в знаменателе F F F s2 (N - N - 1) или (s2 + s2 ) (N + N- - N - 1) - если - - + + - - - + + - - - + + - e e F нулевая гипотеза для s2 не отвергается.

F Теоретические вопросы и задания 1(*). Доказать смещенность МНК-оценок в случае наличия ошибок в независимых переменных.

2. Почему, если известна оценка W ковариационной матрицы ошибок независимых переменных, то приведенная формула расчета оценок параметров простой регрессии обеспечивает их несмещенность 3. Вывести формулу оценки Вальда углового коэффициента регрессии.

4(*). Почему при наличии ошибок во всех переменных применима ортогональая регрессия Каким образом в этом случае регрессия в метрике - играет роль взвешенной регрессии 5. Для модели с фиктивными переменными вывести формулы, связывающие ~ параметры, и в общем случае.

6(*). Показать эквивалентность обоих приведенных способов устранения линейной зависимости между фиктивными переменными в исходной форме уравнения регрессии.

7. Оценка параметров систем уравнений 7.1. Невзаимозависимые системы x, - k-вектора-строки центрированных значений изучаемых (эндогеных) переменных и их случайных ошибок; E() = 0, E(/) = 2;

z - n-вектор-строка центрированых значений независимых факторов (экзогенных переменных);

A - n k-матрица коэффициентов регрессии;

x = zA + - система уравнений регрессии;

= + = + = + X = Z A + - та же система по N наблюдениям; в каждом наблюдении = + = + = + матожидание ошибок равно нулю, их матрица ковариации одинакова (равна 2) и они не скоррелированы по наблюдениям.

-A = MZZMZX, = = = = = где MZZ = Z/ X, MZX = Z/ Z, т.е. факт скоррелированности = = = = N N ошибок разных изучаемых переменных ( Ik ) не создает дополнительных проблем, и уравнения системы могут оцениваться по отдельности с помощью обычного МНК.

Пусть для коэффициентов матрицы A имеются априорные ограничения, и эта матрица имеет, например, следующую структуру:

a1 0.. 0 a2..,....

....

0 0.. ak где ai - ni-вектор-столбец коэффициентов в i-м уравнении (для i-й изучаемой k = переменной); ni = n. Т.е. для каждой изучаемой переменной имеется свой набор = = = i== = ni-матрицей наблюдений Z (Z = [Z,Z,...,Z ]), объясняющих факторов с N = = = i 1 2 k и система уравнений записывается как совокупность внешне не связанных между собой уравнений:

X = Z ai + i, i = 1, k.

Pages:     | 1 |   ...   | 3 | 4 || 6 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.