WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 | 2 || 4 | 5 |   ...   | 6 |

В этих предположениях a относится к классу линейных оценок, т.к.

a = LX, где L = (Z/Z)-1Z/ - неслучайный (n+1) (N+1)-оператор оценивания;

а также доказывается что - a является несмещенной оценкой, их матрица ковариации Ma равна 2M-1 (в обозначениях сокращенной формы уравнения регрессии это N выражение давало бы - как показано в предыдущем пункте - матрицу ковариации коэффициентов регрессии при независимых факторах, а дисперсия свободного члена + определялась бы по формуле (1 + zM-1z/ ) ), и дисперсия любой их линейной + + N комбинации минимальна на множестве линейных оценок, т.е. они относятся к классу BLUE - Best Linear Unbiased Estimators;

- несмещенной оценкой 2 является N = s2 = s2 = e/e.

= = e e N - n - 1 N - n - - - - - - - - - - Для расчета коэффициента детерминации можно использовать следующую формулу:

q - x R2 =, = = = mxx - x -где q = a/Ma = m/M m = m/a = a/m, = = = = = = = = = = = = / mxx = XX.

= = = N Если предположить, что (и, следовательно, их оценки e) распределены нормально:

~ N(0,2IN ), то оценки a также будут иметь нормальное распределение:

a ~ N(, Ma ), они совпадут с оценками максимального правдоподобия, будут несмещенными, состоятельными и эффективными.

В этом случае можно строить доверительные интервалы для оценок и использовать статистические критерии проверки гипотез.

(1- )100-процентный доверительный интервал для i, i =1,...,n+ (n+1= ), строится следующим образом:

ai ± sa i tN - n-1,1-, ± ± ± - - - - - - - - - - где sa i = s m-1 - среднеквадратическое отклонение ai ( m-1 - ii-й = = = e ii ii N элемент матрицы M-1);

tN-n-1,1- - (1)100-процентный двусторонний квантиль tN-n-1-распределения.

Для проверки нулевой гипотезы i = 0 применяется t-критерий. Гипотеза отвергается (влияние i-го фактора считается статистически значимым) с вероятностью ошибки (1-го рода), если ai tN - - -, - - - - sa i - n-1,1- ai т.к. при выполнении нулевой гипотезы величина имеет tN-n-1-распределение.

sa i Эта величина называется t-статистикой (ti-статистикой) и ее фактическое значение обозначается в дальнейшем tc.

i При использовании современных статистических пакетов программ не требуется искать нужные квантили t-распределения в статистических таблицах, поскольку в них (пакетах) рассчитывается уровеньошибки c, с которой можно i отвергнуть нулевую гипотезу, т.е. такой, что:

tc = tN - n-1,1- c, = = = i - - - - - - - i и, если он меньше желаемого значения либо равен ему, то нулевая гипотеза отвергается.

Для проверки нулевой гипотезы об отсутствии искомой связи = 0, i = 1,..., n применяется F-критерий. Если эта гипотеза верна, величина = = = = = = i R2(N - n - 1) - - - (1 - R2)n имеет Fn,N-n-1-распределение. Данная величина называется F-статистикой и ее фактическое значение обозначается в дальнейшем Fc. Нулевая гипотеза отвергается (влияние z на x считается статистически значимым) с вероятностью ошибки (1-го рода), если Fc Fn,N - n-1,1-, - - - - - - - где Fn,N-n-1,1- - (1)100-процентный (односторонний) квантиль Fn,N-n-1 распределения.

В современных статистических пакетах программ также рассчитывается уровень с ошибки для Fc, такой, что Fc = Fn, N - n-1,1- c.

= = = - - - - - - - Уместно отметить, что приведенные в разделе 2.1. сведения являются частным случаем рассмотренных здесь результатов при n=0.

4.3. Независимые факторы Если не выполняется 2-я гипотеза, и некоторые из переменных z линейно зависят от других, то матрица M вырождена, и использование приведенного оператора оценивания невозможно.

Вообще говоря, предложить метод оценивания параметров регрессии в этом случае можно. Так, пусть множество независимых факторов разбито на две части (в этом фрагменте используются обозначения сокращенной формы уравнения регрессии):

a z = [z1,z2 ], Z = [Z,Z ], a =, = = = = = = = = = 1 a и Z = Z C12.

= = = 2 Тогда можно записать уравнение регрессии в форме X = Z (a1 + C12a2) + e, = + = + = + и оценить линейную комбинацию параметров a1 + C12a2 (предполагая, что + + + столбцы Z1 линейно независимы). Но чтобы оценить сами параметры, нужна априорная информация, например: a2 = 0.

= = = Однако вводить в регрессию факторы, которые линейно зависят от уже введенных факторов, не имеет смысла, т.к. при этом не растет объясненная дисперсия (см. ниже).

На практике редко встречается ситуация, когда матрица M вырождена. Более распространен случай, когда она плохо обусловлена (между переменными Z существуют зависимости близкие к линейным). В этом случае имеет место мультиколлинеарность факторов. Поскольку гипотеза 2 в части отсутствия ошибок измерения, как правило, нарушается, получаемые (при мультиколлинеарности) оценки в значительной степени обусловлены этими ошибками измерения. В таком случае (если связь существует), обычно, факторы по отдельности оказываются незначимыми по t-критерию, а все вместе существенными по F-критерию. Поэтому в регрессию стараются не вводить факторы сильно скоррелированные с остальными.

В общем случае доказывается, что s2 = s21 + s212 s2, 0 s212 s22, = + = + = + q q q x q q где s2 и s2 - дисперсии, объясненные факторами z1 и z2 по отдельности;

q1 qs2 - прирост объясненной дисперсии, вызванный добавлением в qрегрессии факторов z2 к факторам z1.

В соотношении для прироста объясненной дисперсии:

- левая часть выполняется как строгое равенство, если и только если s21 = s2 (коэффициент детерминации в регрессии по z1 уже равен = = = q x единице), или вектор остатков в регрессии по z1 ортогонален факторам Z, т.е. имеет с ними нулевую корреляцию (возможное влияние факторов z2 уже “приняли” на себя факторы z1), или факторы Z линейно зависят от факторов Z ;



2 - правая часть выполняется как строгое равенство, если и только если факторы Z ортогональны факторам Z.

2 Если в множество линейно независимых факторов добавлять новые элементы, то коэффициент детерминации растет вплоть до единицы, после чего рост прекращается. Своего максимального значения он обязательно достигнет при n = N (возможно и раньше) - даже если вводимые факторы не влияют по-существу на изучаемую переменную. Поэтому сам по себе коэффициент детерминации не может служить статистическим критерием “качества” уравнения регрессии. Более приемлем в этой роли коэффициент детерминации, скорректированный на число степеней свободы:

N - R2 = 1 - (1 - R2), = - = - = - N - n - - - - который может и уменьшиться при введении нового фактора. Точную же статистическую оценку качества (в случае нормальности распределения остатков) дает F-критерий. Однако учитывая, что значения Fc оказываются несопоставимыми при изменении n (т.к. получают разное число степеней свободы), наиболее правильно эту роль возложить на уровень ошибки с для Fc.

В результате введения новых факторов в общем случае меняются оценки параметров при ранее введенных факторах:

a1 = a1 + A12a2, = + = + = + где a1 - оценка параметров регрессии по z1 (до введения новых факторов);

A12 - матрица, столбцы которой являются оценками параметров регрессии переменных z2 по z1.

“Старые” оценки параметров сохраняются (a1 = a1 ), если и только если = = = - коэффициент детерминации в регрессии по z1 уже равен единице, или вектор остатков в регрессии по z1 ортогонален факторам Z (в этих двух случаях a2 = 0), или факторы Z ортогональны факторам Z (в этом случае A12 = 0).

2 Итак, возникает проблема определения истинного набора факторов, фигурирующих в гипотезе 1, который позволил бы найти оценки истинных параметров регрессии. Определение такого набора факторов есть спецификация модели. Формальный подход к решению этой проблемы заключается в поиске так называемого наилучшего уравнения регрессии, для чего используется процесс (метод) шаговой регрессии.

Пусть z - полный набор факторов, потенциально влияющих на x.

Рассматривается процесс обращения матрицы ковариации переменных [x,z]. В паре матриц (n+1) (n+1) mxx mx1 mx2.. mxn 1 0 0.. m m11 m12.. m1n0 1 0.. 1x m2x m21 m22.. m2n0 0 1............

..........

mn1 mn2.. mnn0 0 0.. mnx делаются одновременные преобразования их строк в орты. Известно, что, если 1-ю матрицу преобразовать в единичную, то на месте 2-й матрицы будет получена обратная к 1-й (исходной). Пусть этот процесс не завершен, и только несколько строк 1-й матрицы (но не ее 1-я строка) преобразованы в орты. Это - ситуация на текущем шаге процесса.

На этом шаге строкам-ортам в 1-й матрице соответствуют включенные в регрессию факторы, на их месте в 1-й строке этой матрицы оказываются текущие оценки параметров регрессии при них. Строкам-ортам во 2-й матрице соответствуют невведенные факторы, на их месте в 1-й строке 1-й матрицы размещаются коэффициенты ковариации этих факторов с текущими остатками изучаемой переменной. На месте mxx показывается текущее значение остаточной дисперсии.

На каждом шаге оцениваются последствия введения в регрессию каждого не включенного фактора (преобразованием в орты сответствующих строк 1-й матрицы) и исключения каждого введенного ранее фактора (преобразованием в орты соответствующих строк 2-й матрицы). Выбирается тот вариант, который дает минимальный уровень ошибки с для Fc. Процесс продолжается до тех пор, пока этот уровень сокращается.

Иногда в этом процессе используются более простые критерии. Например, задается определенный уровень t-статистики (правильнее - уровень ошибки с для tc), и фактор вводится в уравнение, если фактическое значение tc для него выше заданного уровня (ошибка с ниже ее заданного уровня), фактор исключается из уравнения в противном случае.

Такие процессы, как правило, исключают возможность введения в уравнение сильно скоррелированных факторов, т.е. решают проблему мультиколлинеарности.

Формальные подходы к спецификации модели должны сочетаться с теоретическими подходами, когда набор факторов и, часто, знаки параметров регрессии определяются из теории изучаемого явления.

4.4. Прогнозирование Требуется определить наиболее приемлемое значения для xN+1 (прогноз), если известны значения независимых факторов (вектор-строка):

zN +1 = [z1, N +1,..., zn, N +1,1].

= = = + + + + + + + + + x = zN +1 + - истинное значение искомой величины;

= + N += + = + N +1 + + + + + + + + + x0 +1 = E(x ) = zN +1 - ожидаемое значение;

= = = = = = + + + N + N +1 + + + + + p x = zN +1a - искомый МНК-прогноз.

= = = N +1 + + + + + + Полученный прогноз не смещен относительно ожидаемого значения:

p E(x ) = x0 +1, = = = N +1 N + + + + + + p и его ошибка d = x - x имеет нулевое матожидание:

= = = + N +1 + + N ++ + + E(d) = 0, = ++ - N + и дисперсию 2 = 2(1 + zN +1M-1z/ +1), которая минимальна в классе d = + = + + + + + N линейных оценок.

Оценка стандартной ошибки прогноза при n = 1 рассчитывается по формуле 1 (zN +1 - z)+ + + s2 1 + +.

+ + + + + + e N N (zi - z)i== = = Теоретические вопросы и задания 1. Провести матричные преобразования, доказывающие эквивалентность операторов оценивания для первых двух (основная и сокращенная) и третьей (без свободного члена) форм уравнения регрессии.





2(*). Показать, что e = B, = = = = где B = I - ZM-1Z/ - симметрическая, идемпотентная и положительно = = N полуопределенная матрица.

3(**). Доказать принадлежность МНК-оценок регрессии классу BLUE.

4(**). Вывести приведенную формулу для матрицы Ma ковариации оценок.

5(**). Показать, что sa является несмещенной оценкой дисперсии ошибок 2.

6. Вывести приведенную формулу для расчета коэффициента детерминации.

7(*). Доказать, что при нормальности распределения остатков МНК-оценки регрессии совпадают с оценками максимального правдоподобия.

8(*). Почему в случае незначимости влияния i-го фактора ti-статистика имеет tN-n-1-распределение 9(*). Почему в случае незначимости влияния всех факторов F-статистика имеет Fn,N-n-1-распределение 10(*). Проверить справедливость приведенного соотношения для прироста объясненной дисперсии, вызванного введением в регрессию новых факторов.

Почему это соотношение выполняется как равенство в указанных и только в указанных случаях 11. Как получена формула для коэффициента детерминации, скорректированного на число степеней свободы 12(*). Показать, что добавление новых факторов в регрессию не меняет “старые” оценки параметров в указанных и только в указанных случаях.

13(*). Убедиться в справедливости сделанных утверждений о характере заполнения указанных матриц на текущем шаге процесса шаговой регрессии.

14(*). Вывести приведенную формулу дисперсии ошибки прогноза.

15(*). Доказать указанные свойства ошибки прогноза.

16(*). Вывести приведенную формулу для оценки стандартной ошибки прогноза при n = 1, объяснить составляющие этой ошибки.

5. Гетероскедастичность и автокорреляция ошибок 5.1. Обобщенный метод наименьших квадратов (взвешенная регрессия) Если матрица ковариации ошибок по наблюдениям отлична от 2IN (нарушена 3-я гипотеза основной модели), то МНК-оценки параметров регрессии остаются несмещенными, но перестают быть эффективными в классе линейных.

Смещенными оказываются МНК-оценки их ковариции, в частности оценки их стандартных ошибок (как правило, они преуменьшаются).

Пусть теперь E(/) = 2, где - вещественная, симметрическая положительно определенная матрица (структура ковариации ошибок). Обобщенный метод наименьших квадратов (ОМНК), приводящий к оценкам класса BLUE, означает минимизацию взвешенной суммы квадратов отклонений:

e/-1e.

N Для доказательства проводится преобразование в пространстве наблюдений с -помощью невырожденной NN-матрицы D, такой, что D-1D/ =. После = = = такого преобразования остатки D начинают удовлетворять 2-й гипотезе.

На практике с матрицами общего вида обычно не работают.

Рассматривается два частных случая.

5.2. Гетероскедастичность ошибок Пусть ошибки не скоррелированы по наблюдениям, и матрица диагональна. Если эта матрица единична, т.е. дисперсии ошибок одинаковы по наблюдениям (гипотеза 3 не нарушена), то имеет место гомоскедастичность или однородность ошибок по дисперсии. В противном случае констатируют гетероскедастичность ошибок или их неоднородность по дисперсии.

Для проверки гипотезы о гомоскедастичности можно использовать критерий Бартлета. Для расчета bc - статистики, лежащей в основе применения этого критерия, множество МНК-оценок остатков ei, i = 1,...,N делится на k непересекающихся подмножеств.

k = Nl - количество элементов в l-м подмножестве, N = N ;

= = l = l == = s2 - оценка дисперсии в l-м подмножестве;

l k N s l l N = l == = = bs = - отношение средней арифметической дисперсий к = = k ( s2N l ) N l = l == = средней геометрической; это отношение больше или равно единице, и чем сильнее различаются дисперсии по подмножествам, тем оно выше;

N = bc = lnbs.

= = k 1 N N = l== = l + 1 + + + 3(k - 1) При однородности наблюдений по дисперсии эта статистика распределена как 2 -1.

k Факт неоднородности наблюдений по дисперсии остатков мало сказывается на качестве оценок регрессии, если эти дисперсии не скоррелированы с независимыми факторами. Проверить наличие зависимости дисперсии ошибок от факторов-регрессоров можно следующим образом.

Все наблюдения упорядочиваются по возрастанию одного из независимых факторов или расчетного значения изучаемой переменной Za. Оценивается остаточная дисперсия s1 по K “малым” и s2 по K “большим” наблюдениям (“средние” N-2K наблюдения в расчете не участвуют, а K выбирается приблизительно равным трети N). В случае гомоскедастичности ошибок отношение s распределено как FK-n-1,K-n-1.

sЕсли гипотеза гомоскедастичности отвергается, необходимо дать оценку матрице. Совместить проверку этой гипотезы с оценкой данной матрицы можно следующим образом.

В качестве оценок дисперсии ошибок по наблюдениям принимаются квадраты оценок остатков e2, и строится регрессия ei на все множество i независимых факторов или какое-то их подмножество. Если какая-то из этих регрессий оказывается статистически значимой, то гипотеза гомоскедастичности отвергается, и в качестве оценок ( = 0, i i/ по предположению) = = = / ii ii примаются расчетные значения ei c.

В некоторых статистических критериях проверки на гомоскедастичность в качестве оценок ii принимаются непосредственно e2.

i Имея оценку матрицы, можно провести преобразование в пространстве наблюдений с помощью матрицы D =, после которого остатки D можно = = = считать удовлетворяющими гипотезе 3.

Pages:     | 1 | 2 || 4 | 5 |   ...   | 6 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.