WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     | 1 | 2 || 4 | 5 |   ...   | 9 |

n ~ -1 n -M(D)= nDx = Dx Поэтому.

n nИз последнего выражения видим, что оценка по выборке не является несмещенной для дисперсии генеральной совокупности, ~ т. е., пользуясь оценкой D = Dв, мы будем совершать некоторую систематическую ошибку в меньшую сторону. Чтобы ликвидировать это смещение, достаточно ввести поправку, умножив величи~ n ну D на. Получим n -n n n -~ M D = Dx = Dx несмещенную оценку.

n -1 n -1 n Итак, n n 2 (xi - X)(xi - X) n n n ~ i=1 i=D = Dв = =.

n -1 n -1 n -1 n n -Такую исправленную статистическую дисперсию мы и выберем в качестве оценки для неизвестной дисперсии D генеральной совокупности.

n Заметим, что множитель 1 при n, а это означаn -ет, что при достаточно большой выборке обе оценки – смещенная и несмещенная будут различаться очень мало и введение поправочного множителя теряет смысл. На практике рекомендуют вводить поправочный коэффициент при выборке, содержащей менее 30 наблюдений.

~ Оценка D для дисперсии генеральной совокупности не является эффективной. Однако в случае нормального закона распределения случайной величины она является асимптотически эффективной, т. е. при увеличении числа опытов N отношение ее дисперсии к минимально возможной по вероятности неограниченно стремится к 1.

Итак, при обработке ограниченного числа наблюдений для оценки математического ожидания и дисперсии генеральной совокупности рекомендуется пользоваться приближенными оценками:

n n ~ (xi - m)x i ~ ~ i-1 i=m = и D -.

n n -1.3. Множественное линейное уравнение регрессии.

Множественный коэффициент корреляции Общий случай Имеем n опытов, в каждом из которых наблюдаются величины Y, X1, X2,..., Xm, где X1, X2,..., Xm – факторы, или предикторы, от которых может зависеть Y-предиктант.

В процессе наблюдений Y изменяется: Y1, Y2, Y3,..., Yn, X1 – X11, X12, X13,..., X1n, X2 – X21, X22, X23,..., X2n,................................, Xm – Xm1, Xm2, Xm3,..., Xmn, т. е. факторы Xhj, где h = 1, 2, 3, 4,..., m; j = 1, 2, 3, 4,..., n.

Парные коэффициенты корреляции между Y и каждым из факторов в общем виде можно записать в следующем виде:

n (y - y)(x - x ) i hi h i= r =, (1.3.1) hy n y h где h = 1, 2, …, m.

Парный коэффициент корреляции между факторами:

n ) (x - xh )(x - x hi ji j i= rhj =, (1.3.2) nhj где h, j = 1, 2, …, m.

Уравнение линии связи (линейной):

m y - y = (xj - xj), (1.3.3) a j j=Коэффициенты линейной связи наилучшим образом можно найти методом наименьших квадратов:

n m Ф = (x )][y - y - a - x = min.

i j ji j i=1 j=Дифференцируя последнее уравнение по каждому неизвестному a, получаем систему m уравнений:

j n m Ф = 2 (x )[- (xhi - xh )]= 0.

y - y - a - x i j ji j a i=1 j=j Или n m n (x )(x - xh ) = (yi - y)(x - xh ).

a - x j ji j hi hi i=1 j=1 i=Учитывая уравнения (1.3.1) и (1.3.2), имеем:

m.

a rhjnh =rhynyh j j j=Деля обе части последнего уравнения на nh, получаем:

m a rhjj =rhyy.

j j=Разделим обе части последнего выражения на y :

m j. (1.3.4) a rhj y =rhy j j=Обозначим:

j a = j, откуда j y y a =, j = 1, 2, 3, …, m (1.3.5) j j j Система уравнений (1.3.4) примет вид:

m rhj =rhy, т. е.

j j=1r11 + 2r12 + 3r13 + 4r14 +... + mr1m = r1y, 1r21 + 2r22 + 3r23 + 4r24 +... + mr2m = r2y,........................................................................, 1rm1 + 2rm2 + 3rm3 + 4rm4 +... + mrmm = rmy.

В последней системе r11 = r22 = r33 = r44 =... = rmm = 1, неизвестные 1,2,3,....,m.

Определитель системы имеет вид:

1 r12... r1m r21 1... r2m D =.

............

rm1 rm2... Если D 0, то находим определители D1,D2,D3,...,Dm путем последовательной замены соответствующих столбцов определителя столбцом свободных членов.

Неизвестные коэффициенты определяем:

D1 D2 D3 Dm 1 =, 2 =, 3 =,..., m =.

D D D D Подставляя найденные j в (1.3.5), определим все a в так j называемом сигмальном масштабе.

Подставив a в (1.3.3), найдем уравнение линейной связи:

j y = a0 + a1x1 + a2x2 +... + amxm, где a0 = y - a1x1 - a2x2 -... - amxm.

Множественный коэффициент линейной корреляции имеет вид:

R = 1r1y + 2r2y + 3r3y +... + mrmy.

Во всех системах уравнений коэффициенты j выражены через j и y. Поэтому говорят, что уравнения записаны в сигмальном масштабе. Применение -масштаба позволяет выявить наиболее влияющие факторы на прогнозируемую величину. Согласно свойству сигмального масштаба коэффициенты 1, 2, 3,..., m показывают весомость, степень влияния каждого фактора. Так например, если отношение > 1, то можно утверждать во сколько раз фактор X1 влияет на изменение величины Y больше (сильнее), чем фактор X2. Кроме того, знак перед коэффициентом j показывает направленность действия соответствующего j-го фактора: знак «+» – с увеличением фактора имеет тенденцию в среднем возрастать Y-предиктант; знак «-» указывает на обратное влияние, т. е. с увеличением фактора X предиктант Y имеет тенденцию в средj нем убывать.

Необходимо отметить, что с увеличением учета числа факторов коэффициенты j могут по абсолютной величине уменьшаться, т. е. дополнительный фактор уточняет влияние других величин.

Например, мы рассмотрели влияние на Y двух величин X1 и X2 и 1 нашли коэффициенты и. Если при включении нового фак1 тора X3, величины и почти не изменились по абсолютной величине, то влияние фактора X3 несущественно и его нецелесо1 образно включать в рассмотрение. Если и изменились, то влияние X3 желательно учитывать.

Множественный коэффициент корреляции иногда называют совокупным коэффициентом корреляции. Квадрат множественного коэффициента корреляции принято называть коэффициентом детерминации.

Заметим, что формула расчета множественного коэффициента корреляции записана в сигмальном масштабе в самом общем виде, т. е. для любого количества факторов.

Свойства множественного коэффициента корреляции:

1) 0 R 1, в отличие от парного коэффициента корреляции множественный не показывает направленность действия факторов, так как он только положительный (направленность факторов характеризуют коэффициенты ).

j 2) R = 1 – связь между рассматриваемыми величинами функциональная.

3) R = 0 – Y не может быть линейно связан с X. Нелинейная j связь может иметь место.

Частные случаи 1) Z зависит от двух факторов X и Y, причем каждая переменная измеряется N раз.

Тогда формулы (1.3.1) и (1.3.2) принимают вид:

n n (zi - z)(yi - y) (z - z)(xi - x) i i=1 i=rzx = rzy =, nzx nzy n (x - x)(y - y) i i i= r =. (1.3.6) xy n x y Уравнение связи: z - z = a1(x - x)+ a2(y - y).

n Ф = [(z - z)- a1(xi - x)- a2(yi - y)]2 = min.

i i=Далее, n Ф = -[(z - z)- a1(xi - x)- a2(yi - y)](xi - x)= 0, i ai=n Ф = -[(z - z)- a1(xi - x)- a2(yi - y)](yi - y)= 0.

i ai=Или n n n (xi - x)2 + a2 (yi - y)(xi - x)= (zi - z)(xi - x), a i=1 i=1 i= n n n a1 - x)(yi - y)+ a(xi (yi - y)2 = (zi - z)(yi - y).

i=1 i=1 i=Используя (1.3.6), имеем:

a rxxn2 +a ryxnyx = rzxnzx, 1 x y a1rxynxy +a 2ryyn2 = rzynzy.

Учитывая, что rxx = ryy = 1, и деля обе части первого уравнения на nx, а второго – на ny, получим:

a1x +a ryxy = rzx z, a rxyx +a2y = rzyz.

rzxz ryxy x rzxz rzyz y rxyx rzyz a1 =, a2 =, x ryxy x ryxy rxyx y rxyx y y x R = 1rxz + 2ryz, 1 = a1, 2 = a2.

z z Уравнение линейной связи: z = a0 + a1x +a2y, где a0 = z - a1x - a2y.

2) Y зависит только от Х.

Уравнение связи: y - y = a(x - x) или y = y + ax - ax, или y = a0 + ax, где a0 = y - ax n (xi - x)(yi - y) i=rxy =, nxy n Ф = [(y - y)- a(xi - x)]2 = min.

i i=n Ф = -[(y - y)- a(xi - x)](xi - x)= 0, i a i=n n a(x - x)2 = (y - y)(xi - x), i i i=1 i=anrxx2 = rxynxy, или arxxx = rxyy, x y a = rxy, так как rxx = 1.

x Уравнение связи:

y y y - y = rxy (x - x), или y = rxy (x - x)+ y, или x x y y y = a0 + rxy x, где a0 = y - rxy x.

x x 1.4. Метод наименьших квадратов Установление вида теоретической связи между случайными величинами представляет одну из основных задач при их изучении. В предыдущем параграфе рассмотрено уравнение линейной регрессии в самом общем виде и его частные случаи. К сожалению, возможности метода ограничены только случаем линейной зависимости. Однако случайные величины могут быть зависимы, но некоррелированы (значение коэффициента корреляции близко к 0) и приходится искать другой (нелинейный) тип связи. На практике исследователь из каких-то соображений гипотезирует вид теоретической зависимости, коэффициенты которой находятся методом наименьших квадратов. Суть метода – найти коэффициенты гипотезируемой зависимости таким образом, чтобы сумма квадратов отклонений эмпирических точек предиктанта от их теоретически рассчитанных была наименьшей. Рассмотрим применение метода наименьших квадратов для различных видов связи.

1.4.1. Линейная связь между двумя случайными величинами Имеем n наблюдений за двумя величинами X : x1,x2,..., xn и (xi.yi ) Y : y1, y2,..., yn. Пусть расположение точек, где i =1 n наводит исследователя на мысль о линейной зависимости между случайными величинами:

.

y = ax + b (1.4.1) Коэффициенты a,b в этой зависимости – неизвестны. Найдем их согласно требованиям метода наименьших квадратов:

n yi теор = (yi теор - yi эмп) = min, где – рассчитанные теорети i=ческие, yi эмп – эмпирические (наблюдаемые) значения величины Y. Иначе последнее равенство можно записать:

n = + b - yi ) = min.

(axi (1.4.2.) i=Выполняя условие экстремума (минимума), продифференцируем (1.4.2) по неизвестным a и b. Получим нормальную систему уравнений:

n = 2 (axi + b - yi )xi = a i=или n = 2 (axi + b - yi )= b i=n n n x 2 + bx = x yi i i i a i=1 i=1 i=(1.4.3) n n a + bn = x y i i i=1 i=Решая (1.4.3), найдем:

D1 Da =, b =, где D – определитель системы; D1 и D2 – опреD D делители, полученные из определителя D путем замены соответственно первого и второго столбца столбцом свободных членов системы (1.4.1). Для обеспечения единственности решения должен определитель системы D 0. Подставив найденные коэффициенты a и b в уравнение (1.4.1), найдем теоретическое уравнение связи.

Естественно, что результаты, полученные в предыдущем параграфе с использованием сигмального масштаба, должны полностью совпадать с результатами, полученными методом наименьших квадратов. С помощью среднего квадратического отклонения можно оценить погрешность полученных расчетных значений:

n (yi теор - yi эмп) i= =.

n Совершенно очевидно, что по аналогии можно найти коэффициенты множественного линейного уравнения регрессии.

1.4.2. Построение нелинейных уравнений множественной регрессии В процессе n наблюдений Y изменяется: Y1, Y2, Y3,..., Yn, X1 – X11, X12, X13,..., X1n, X2 – X21, X22, X23,..., X2n,................................, Xm – Xm1, Xm2, Xm3,..., Xmn.

Пусть зависимость имеет степенной вид:

a a a 2 m y = a x1 1 x...x. (1.4.4) 0 2 m Прологарифмируем (основание логарифма значения не имеет, пусть это – 10).

lg y = lg a0 + a1 lg x1 + a lg x +... + a lg a.

2 2 m m Параметры уравнения определим методом наименьших квадратов при условии:

n = (lga + a1 lg x1i + a2 lg x2i +... + am lg xmi - lg yi ) = min.

i=Продифференцировав по всем a (j = 0 m) и сделав преобраj зования, получим нормальную систему m + 1уравнений с m + a0,a1,a2,...,am неизвестными :

n n n n lgx +a2lgx +...+amlgx =lgy, 0 1i 2i mi i nlga +ai=1 i=1 i=1 i= n n n n n lga lgx +a1(lgx )2 +a2(lgx lgx1i)+...+am(lgx lgx1i)=(lgy lgx1i), 0 1i 1i 2i mi i i=1 i=1 i=1 i=1 i=................................................................................

........................................................................., n n n n n lgx +a1(lgx lgxmi)2 +a2(lgx lgxmi)+...+am(lgx )2 =(lgy lgxmi), lga0 mi 1i 2i mi i i=1 i=1 i=1 i=1 i=Если определитель системы D 0, то D1 D2 D3 Dm+lga0 =, lga1 =, lga2 =,..., lgam =, откуда D D D D 1 21 m+a0 =10D D, a1 =10D D, …, am =10D D.

Замечание. Для удобства и краткости теоретических выкладок решения уравнений записаны в виде определителей, хотя известно, что на практике решать с помощью формул Крамера удобно только системы не выше 3-го порядка. Если системы содержат более трех уравнений, то надо воспользоваться одним из методов исключения неизвестных (например, метод Гаусса с выбором или без выбора главного элемента, метод Жордана–Гаусса и др.).

Найденные коэффициенты подставим в (1.4.4).

Совершенно аналогично можно рассмотреть тип регрессии показательный, логарифмический, тригонометрический и пр. Наименьшая ошибка (невязка) позволяет предпочесть ту или иную зависимость.

Аналитическое решение задачи определения коэффициентов корреляционных уравнений не представляет большой трудности.

Однако на практике способ наименьших квадратов иногда бывает неудобен, так как, приступая к вычислениям, мы часто не имеем сведений относительно порядка корреляционного уравнения, которое давало бы достаточно точное приближение эмпирических точек к графику теоретического вида связи. Поэтому приходится постепенно повышать порядок корреляционного уравнения, а это приводит к тому, что необходимо записывать новую нормальную систему уравнений и проводить вновь всю вычислительную работу. Для устранения этих неудобств П. Л. Чебышев предложил особый способ решения задачи подбора полиномов того или иного порядка. По способу Чебышева члены уравнения более высокого порядка прибавляются последовательно к уравнению порядка на единицу ниже, полученному в предыдущих расчетах. Погрешность нового уравнения оценивается при условии сохранения погрешности предыдущего уравнения. Если погрешность (невязка) нового уравнения с требуемой точностью не превосходит предыдущей невязки, то исследователь останавливает свой уже обоснованный выбор на предыдущем уравнении.

Замечание. На практике корреляционную связь выше 3-го порядка используют редко вследствие быстрого накопления ошибок округления при работе с большими выборками.

2. СЛУЧАЙНЫЕ ФУНКЦИИ 2.1. Основные понятия Классическая теория вероятностей оперирует со случайными величинами, значения которых не зависят от времени или какоголибо другого параметра и при неоднократном воспроизведении одного и того же опыта меняются случайным образом. Предположим, что результатом опыта является теперь не число, а некоторая функция одного или нескольких аргументов, причем эта функция при повторении (реализации) опытов в одинаковых условиях может каждый раз случайным образом менять свой вид. Такую функцию будем называть случайной, а результат каждого отдельного опыта – возможной реализацией случайной функции. Таким образом, случайную функцию можно определить как множество или ансамбль всех ее реализаций.

Условимся обозначать случайные функции прописными буквами с указанием в скобках аргумента, например U(t), V(t), H(t), а их возможные реализации соответствующими строчными буквами с индексами, указывающими номер опыта, при котором данная реализация получена, например u1(t), u2(t), u3(t), …, uN(t).

В качестве примера можно рассмотреть данные срочных наблюдений на гидрометеорологической станции за температурой воздуха какого-либо определенного дня выбранного месяца (например, 15 мая) в течение нескольких лет (например, пяти). Представим эти наблюдения в виде графика (рис. 1). Наблюдения за отдельный год – это реализации: u1(t), u2(t), u3(t), u4(t), u5(t).

U(t),оС U(t) U(t) U(t) U(t)U(t) 0 3 6 9 12 15 18 [t,ч Рис. 1. График изменения температуры воздуха в течение одного дня 15 мая за несколько лет Если зафиксировать аргумент случайной функции t = ti и провести прямую, перпендикулярную оси абсцисс, то эта прямая пересечет каждую реализацию только в одной точке. Совокупность таких точек пересечения называют сечением случайной функции и обозначают U(ti). Очевидно, каждое сечение случайной функции представляет собой случайную величину, возможные значения которой – это значения функции в точках пересечения при t = ti. Поэтому случайную величину можно рассматривать как частный случай случайной функции при фиксированном значении аргумента.

На рис. 1 сечение случайной функции показано при t = 6 ч.

Оно представляет собой случайную величину с возможными значениями температуры, характерными для выбранного дня в заданное время суток.

Pages:     | 1 | 2 || 4 | 5 |   ...   | 9 |






















© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.