WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 || 3 | 4 |   ...   | 6 |

--j - вектор -- -- без j-й компоненты;

-- Xj - N- вектор-столбец наблюдений {xij} за переменной xj (вектор фактических значений переменной);

X - N n-матрица наблюдений {Xj} за переменными x;

X- j- та же матрица без j-го столбца;

- N- вектор-столбец ошибок (остатков) по наблюдениям;

X = 1N + - регрессия по наблюдениям (уравнение регрессии);

= x = 1/ X - n-вектор-строка средних;

= = N N x- j - тот же вектор без j-й компоненты;

X = X - 1N x - матрица центрированных наблюдений;

= = = M = X/ X - n = = n -матрица {mij} оценок ковариаций переменных x (эта = N матрица, по определению, - вещественная, симметрическая и положительно полуопределенная);

M- j- та же матрица без j- го столбца и j-й строки;

m-j - (n-1)-вектор-столбец (оценок) ковариаций xj c остальными переменными.

s2 = e/e = (Xa - 1N b)/ (Xa - 1N b) - оценка остаточной дисперсии.

= = - = = - = = - e N N Коэффициенты регрессии a и b находятся так, чтобы s2 достигала своего e наименьшего значения. В этом заключается применение метода наименьших квадратов.

s2 e Из условия = 0 определяется, что e = 1/ e = 0 и xa = b, т.е.

= = = = = = = = = = = = N b N гиперплоскость регрессии проходит через точку средних значений переменных, и ее уравнение можно записать в сокращенной форме:

X a = e.

3.2. Простая регрессия Когда на вектор параметров регрессии накладывается ограничение j=1, имеется в виду простая регрессия, в левой части уравнения которой остается только одна переменная:

X = X- ja- j + e = + = + = + j - - - Это уравнение регрессии xj по x-j; переменная xj - объясняемая, изучаемая или моделируемая, переменные x-j - объясняющие, независимые факторы, регрессоры.

s e Из условия = 0 определяется, что cov(e,X- j) = 0 и m-j = M-ja-j.

= = = = = = - - - - - - a- j Последнее называется системой нормальных уравнений, из которой находятся искомые МНК-оценки параметров регрессии:

-= a- j = M m- j.

= = - - - - j - - Систему нормальных уравнений можно вывести, используя иную логику.

Если обе части уравнения регрессии (записанного по наблюденям) умножить слева = + на X-/j и разделить на N, то получится условие m- j = M a- j + X-/je, из = + = + - - - - - j - - - - N которого следует искомая система при требованиях e = 0 и cov(e,X- j) = 0.

= = = = = = Такая же логика используется в методе инструментальных переменных. Пусть имеется N (n-1)-матрица наблюдений Z за некоторыми величинами z, называемыми инструментальными переменными, относительно которых известно, что они взаимно независимы с. Умножение обеих частей уравнения регрессии 1 слева на Z/ и деление их на N дает условие Z/ X = Z/ X- j = = + = - + j - + Z/ e, из - + N N N которого - после отбрасывания 2-го члена правой части - следует система нормальных уравнений z z z = m- j = M a- j = = - - - - j - - метода инструментальных переменных, z z где m- j = cov(z,x ), M = cov(z,x ).

= = = = = = - - - j - j - j - - - МНК-оценка остаточной дисперсии удовлетворяет следующим формулам:

s2 = mjj - s2, = = = e q / / -где s2 = a- jM a- j = a/ jm- j = m- ja- j = m- jM m- j - объясненная = =/ = = = = = = == = = - - - - - - - - - q - - j - - - - - - - j - - - - - - - - - - - дисперсия.

s2 ss2 sq q R2 = = 1 - или = 1 - (т.к. mjj = s2 ) - коэффициент = = -e = -e = = = - = - = = = - = - = j mjj mjj s2 sj j детерминации (равный квадрату коэффициента множественной корреляции между xj и x-j), показывающий долю исходной дисперсии моделируемой переменной, которая объяснена регрессионной моделью.

c X =X- ja- j- расчетные значения моделируемой переменной (лежащие на = = = - j - - гиперплоскости регрессии).

В n-пространстве переменных вектора-строки матрицы X образуют так называемое облако наблюдений. Искомая гиперплоскость регрессии в этом пространстве располагается так, чтобы сумма квадратов расcтояний от всех точек облака наблюдений до этой гиперплоскости была минимальна. Данные расcтояния измеряются параллельно оси моделируемой переменной xj.

В N-пространстве наблюдений показываются вектора-столбцы матрицы X.

Коэффициент множественной корреляции между xj и x-j равен косинусу угла между X и гиперплоскостью,”натянутой” на столбцы матрицы X- j -, вектор e является j нормалью из X на эту гиперплоскость, а вектор a-j образован коэффициентами j разложения проекции X на эту гиперплоскость по векторам-столбцам матрицы j X.

- j В зависимости от того, какая переменная остается в левой части уравнения регрессии, получаются различные оценки вектора (и, соответственно, коэффициента ). Пусть a( j ) - оценка этого вектора из регрессии xj по x-j.

Равенство a( j ) = a( j/ ) = = = aj/ ( j ) при j/ j выполняется в том и только в том случае, если e = 0 и, соответственно, R2 = 1.

При n = 2 регрессия x1 по x2 называется прямой, регрессия x2 по x1 обратной.

Замечание: в отечественной литературе простой обычно называют регрессию с одной переменной в правой части, а регрессию с несколькими независимыми факторами - множественной.

3.3. Ортогональная регрессия В случае, когда ограничения на параметры состоят в требовании равенства единице длины этого вектора / = 1, получается ортогональная регрессия, в которой расстояния от точек облака наблюдений до гиперплоскости регрессии измеряются перпендикулярно этой гиперплоскости.

Уравнение ортогональной регрессии имеет вид:

Xa = e, a/a = 1.

= = = = = = Теперь применение МНК означает минимизацию s2 по a при указанном e ограничении на длину этого вектора. Из условия равенства нулю производной по a соответствующей функции Лагранжа следует, что (M - In)a = 0 причем = s2, - = = - = = - = = e ( - половина множителя Лагранжа указанного ограничения) т.е. применение МНК сводится к поиску минимального собственного числа ковариационной матрицы M и соответствующего ему собственного (правого) вектора a. Благодаря свойствам данной матрицы, искомые величины существуют, они вещественны, а собственное число неотрицательно (предполагается, что оно единственно). Пусть эти оценки получены.



В ортогональной регрессии все переменные x выступают изучаемыми или моделируемыми, их расчетные значения определяются по формуле = Xc = X- ea/, = = а аналогом коэффициента детерминации выступает величина 1 -, s n где s2 = = = = s2 - суммарная дисперсия переменных x, равная следу матрицы j = j== = M.

Таким образом, к n оценкам вектора a простой регрессии добавляется оценка этого вектора ортогональной регрессии, и общее количество этих оценок становится равным n+1.

Задачу простой и ортогональной регрессии можно записать в единой, обобщенной форме:

(M - W)a = 0, a/Wa = 1, min, - = = - = = - = = где W - диагональная n n-матрица, на диагонали которой могут стоять 0 или 1.

В случае, если в матрице W имеется единственный ненулевой элемент wjj = 1, это - задача простой регрессии xj по xj; если W является единичной матрицей, то это - задача ортогональной регрессии. Очевидно, что возможны и все промежуточные случаи, и общее количество оценок регрессии - 2n-1.

Задача ортогональной регрессии легко обобщается на случай нескольких уравнений и альтернативного представления расчетных значений изучаемых переменных.

Матрица M, являясь вещественной, симметрической и положительно полуопределенной, имеет n вещественных неотрицательных собственных чисел, сумма которых равна s2, и n соответствующих им вещественных взаимноортогональных собственных векторов, дающих ортонормированный базис в пространстве наблюдений. Пусть собственные числа, упорядоченные по возрастанию, образуют диагональную матрицу, а соответствующие им собственные вектора (столбцы) - матрицу A. Тогда A/A = In, MA = A.

Собственные вектора, если их рассматривать по убыванию соответствующих им собственных чисел, есть главные компоненты облака наблюдений, которые показывают направления наибольшей “вытянутости” (наибольшей дисперсии) этого облака. Количественную оценку степени этой “вытянутости” (дисперсии) дают соответствующие им собственные числа.

Пусть первые k собственных чисел “малы”.

s2 - сумма этих собственных чисел;

E AE - часть матрицы A, соответствующая им (ее первые k стоблцов); это коэффициенты по k уравнениям регрессии или k младших главных компонент;

AF - остальная часть матрицы A, это - n-k старших главных компонент или собственно главных компоненет;

A = [AE,AF];

xAE = 0 - гиперплоскость ортогональной регрессии размерности n-k;

[E, F]= X[AE,AF ] - координаты облака наблюдений в базисе главных = = = компонент;

E - N k-матрица остатков по уравнениям регрессии;

F - N -k)-матрица, столбцы которой есть так называемые главные (n факторы.

Поскольку A/ = A-1 и AA/ = In, можно записать // = = + X = [E, F][AE,AF ]/ = EAE + FAF.

= = + = = + Откуда получается два возможных представления расчетных значений переменных:

(1) (2) / / Xc = X- EAE = FAF.

= - = = - = = - = Первое из них - по уравнениям ортогональной регрессии, второе (альтернативное) - по главным факторам.

sE 1 - - аналог коэффициента детерминации, дающий оценку “качества” s этих обеих моделей.

3.4. Многообразие оценок регрессии Множество оценок регрессии не исчерпывается 2n-1 отмеченными выше элементами.

/ D - N/N-матрица преобразований в пространстве наблюдений ( N N ).

Преобразование в пространстве наблюдений проводится умножением слева обеих частей уравнения регрессии (записанного по наблюдениям) на эту матрицу:

DXa = D1N b + De.

= + = + = + После такого преобразования - если D не единичная матрица - применение МНК приводит к новым оценкам регрессии (как простой, так и ортогональной), при этом параметр b - если D1N 1N - теряет смысл свободного члена в уравнении.

C - невырожденная n n-матрица преобразований в пространстве переменных.

Преобразование в пространстве пременных проводится следующим образом: XCC-1a = e, = = = и в результате получается новое выражение для уравнения регрессии:

Yf = e, = = = где Y = XC, f = C-1a.

= = = = = = МНК-оценки f и a количественно различаются, если C не единичная матрица. Однако f является новой оценкой, только если Cf a. В противном случае она совпадает с исходной оценкой a с точностью до сделанного преобразования (представляет ту же оценку в другой метрике или шкале измерения).

Результаты преобразования в пространстве переменных различны для простой и ортогональной регрессии.

В случае простой регрессии xj по x-j это преобразование не приводит к получению новых оценок, если j-я строка матрицы C является ортом, т.е. в независимые факторы правой части не “попадает” - после преобразования моделируемая переменная. Если C диагональная матрица с элементами cjj=1, sj cll = при l j, то оценка f дается в так называемой стандартизированной = = = sl шкале.

Если j-я строка матрицы C имеет ненулевые внедиагональные элементы, Cf и a совпадают только при R2 = 1.

В случае ортогональной регрессии задача определения f записывается следующим образом:





/ (MY - In)f = 0, f f = 1, - == - = = - = = где M = C/MC.

= = = Y После обратной подстановки переменных и элементарного преобразования она приобретает следующий вид:

(M - )a = 0, a/a = 1, - = = - = = - = = - - - где = C/ -1 C-1.

= = = Решение этой задачи дает новую оценку, даже если C является диагональной матрицей. Это - так называемая регрессия в метрике -1.

Теоретические вопросы и задания 1. Доказать, что матрица ковариации является симметрической и положительно полуопределенной. В каком случае она положительно определена 2(**). Показать, что гиперплоскость регрессии проходит через точку средних значений переменных, и оценки остатков имеют нулевую среднюю.

3(**). Вывести систему нормальных уравнений для коэффициентов при независимых факторах простой регрессии.

4(*). Доказать, что оценки остатков в простой регрессии не скоррелированы с независимыми факторами.

5(*). Вывести формулу для остаточной дисперсии в простой регрессии.

6(*). Провести геометрическую иллюстрацию простой регрессии в пространстве переменных и наблюдений, убедиться в справедливости сделанных выше утверждений относительно геометрических образов объектов регрессии.

7. Доказать, что оценки параметров прямой и обратной регрессии совпадают в случае и только в случае функциональной зависимости между переменными.

8(**). Показать, что МНК в ортогональной регрессии сводится к поиску собственных чисел и векторов ковариационной матрицы. Почему остаточная дисперсия равна минимальному собственному числу этой матрицы 9(*). Почему для определения расчетных значений пременных в ортогональной регрессии используется приведенная формула 10(*). Дать геометрическую иллюстрацию ортогональной регрессии, главным компонентам и главным факторам в пространстве переменных.

11. В каком случае преобразование в пространстве наблюдений можно применять к сокращенной форме уравнения регрессии Почему преобразование в пространстве переменных всегда применимо к сокращенной форме уравнения 12(*). Доказать, что в случае простой регрессии преобразование в пространстве переменных приводит к новым оценкам только в случае, если независимая переменная в результате проведенного преобразования “попадает” в правую часть уравнения. Показать, что в таком случае оценки все-таки не меняются, если завивимость между переменными функциональная.

13(*). Показать, что оценки простой регрессии в стандартизированной шкале получаются, если в системе нормальных уравнений использовать не ковариационную, а корреляционную матрицу.

14. Вывести приведенную формулу для оценки регрессии в метрике -1.

15(*). Совпадают ли полученные по ковариационной и корреляционной матрице оценки ортогональной регрессии и главных компонент с точностью до обратного преобразования 4. Основная модель линейной регрессии 4.1. Различные формы уравнения регрессии x - моделируемая переменная;

z - n-вектор-строка независимых факторов;

x = z + + - уравнение регрессии;

X, Z - N-вектор и N n-матрица наблюдений за соответствующими переменными;

z - n-вектор-строка средних значений переменных z.

Первые две формы уравнения регрессии по наблюдениям аналогичны используемым в предыдущем разделе и имеют следующий вид:

X = Z + 1N +, = + + = + + = + + или X = Za + 1N b + e (истинные значения заменены их оценками) = + + = + + = + + - исходная форма;

X = Z a + e = + = + = + - сокращенная форма.

Оператор МНК-оценивания для этих двух форм имеет следующий вид:

a = M-1m, b = x - za, = = = = = = где M = Z/ Z - nxn-матрица ковариации (вторых центральных моментов) = = = N z;

m = Z/ X - n-вектор-столбец ковариации между z и x.

= = = N Третья форма - без свободного члена - записывается следующим образом:

= + X = Za + e, = + = + где Z - N (n+1)-матрица, последний столбец которой состоит из единиц (равен 1N);

a - (n+1)-вектор-столбец, последний элемент которого является свободным членом регрессии.

Какая из этих форм регрессии используется и, соответственно, что именно означают a и Z, будет в дальнейшем ясно из контекста или будет специально поясняться.

В этом разделе, в основном, используется форма уравнения регрессии без свободного члена.

Оператор МНК-оценивания для нее записывается более компактно:

-a = M m, = = = = но M = Z/Z - (n+1) = (n+1)-матрица вторых начальных моментов = N [z,1];

m = Z/X - (n+1)-вектор-столбец вторых начальных моментов между = = = N [z,1] и x.

Если в этом операторе вернуться к обозначениям первых двух форм уравнения регрессии, то получится следующее выражение:

- - - a M-1 -M-1z/ m + z/x - + - + - + =, = = = b -1 - - + x + + -zM 1 + zM-1z/ - - - из которого видно, что - обратная матрица ковариации z (размерности N совпадает с N) соответствующим блоком обратной матрицы вторых начальных моментов (размерности (N+1) (N+1));

- результаты применения двух приведенных операторов оценивания одинаковы.

4.2. Основные гипотезы, свойства оценок 1. Между переменными x и z существует зависимость x = z +.

+ 2. Переменные z детерминированы, наблюдаются без ошибок и линейно независимы (в алгебраическом смысле).

3. E( ) = 0, E(/) = 2IN.

4. В модели линейной регрессии математической статистики, в которой переменные z случайны, предполагается, что ошибки не зависят от них и - по крайней мере - не скоррелированы с ними. В данном случае это предположение формулируется так: независимо от того, какие значения принимают переменные z, ошибки удовлетворяют гипотезе 3.

Pages:     | 1 || 3 | 4 |   ...   | 6 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.