WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     || 2 | 3 |
МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ Ю.Т.Нагибин МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ В ОПТОЭЛЕКТРОНИКЕ.

РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ.

Учебное пособие Санкт-Петербург 2011 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ Ю.Т. Нагибин МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ В ОПТОЭЛЕКТРОНИКЕ.

РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ Учебное пособие Санкт-Петербург 2011 1 Ю.Т. Нагибин. Методы статистической обработки экспериментальных данных в оптоэлектронике. Регрессионный и корреляционный анализ./ Учебное пособие. – СПб: СПбГУ ИТМО, 2011 - 53с.

В учебном пособии изложена сущность, задачи и методика проведения регрессионного и корреляционного анализа при статистической обработке результатов экспериментальных измерений в оптоэлектронике. Описана методика проверки однородности ряда дисперсий. Рассмотрены линейная и нелинейная модели с одной независимой переменной в случае равенства и неравенства дисперсий, а также методика построения точечных и интервальных оценок коэффициентов регрессии и дисперсии. Изложена методика ортогонализации системы функций на множестве значений аргумента. Описана методика проведения корреляционного анализа для случаев нормального двумерного распределения и его отсутствия. Студентам предлагаются 20 вариантов заданий для выполнения расчетной работы.

Учебное пособие предназначено для студентов 3-х – 4-х курсов инженерно-физического факультета, обучающихся по специальностям: 20020104 «Лазерная техника и лазерные технологии», 200201101 «Биомедицинская оптика», 20020107 «Оптика светового дизайна», 140400 «Техническая физика».

Рекомендовано к печати Ученым Советом ИФФ (протокол № 3 от 15 марта 2011 г.).

В 2009 году Университет стал победителем многоэтапного конкурса, в результате которого определены 12 ведущих университетов России, которым присвоена категория «Национальный исследовательский университет». Министерством образования и науки Российской Федерации была утверждена Программа развития государственного образовательного учреждения высшего профессионального образования «Санкт-Петербургский государственный университет информационных технологий, механики и оптики» на 2009– 2018 годы.

© Санкт-Петербургский государственный университет информационных технологий, механики и оптики, © Ю.Т.Нагибин, Содержание стр.

1. Регрессионный анализ……………………………………….…………..Введение……………………………………………………….………….1.1 Проверка однородности ряда дисперсий…………………….…….1.2 Нелинейная модель с одной независимой переменной (случай равенства дисперсий)…………………………………….1.3 Линейная модель с одной независимой переменной (случай равенства дисперсий)………………………..….….…...1.4 Нелинейная модель с одной независимой переменной (случай неравенства дисперсий)…………………………………1.5 Линейная модель с одной независимой переменной (случай неравенства дисперсий)…………………………………2. Корреляционный анализ………………………………………...……...2.1 Уравнения прямых регрессии……………..………….…….………2.2 Корреляционный анализ при нормальном распределении…..….2.3 Корреляционный анализ при отсутствии нормальности распределения……………………………………………………..Заключение……………………………………………………………….3. Задание на расчетную работу…………………………………………..Приложение 1. Ортогонализация системы функций на множестве Значений аргумента………………………….……….Приложение 2. Выбор функции f(x) для проведения регрессионного анализа в случае неравенства дисперсий…………....Приложение 3………………………………………………………….....Варианты заданий…………………………………………………….....Литература………………………………………………………..……...1. Регрессионный анализ Введение Регрессионный анализ представляет собой метод статистического исследования, позволяющий строить эмпирические модели, основанные на функциональных статистических зависимостях. Основной задачей регрессионного анализа является построение математической модели (кривой регрессии), описывающей связь между переменными величинами: зависимой, случайной и одним либо несколькими независимыми неслучайными параметрами. Наиболее полно и доступно регрессионный анализ изложен в работах [12, 13].

Пусть требуется определить зависимость между некоторыми величинами Q и x по результатам L групп наблюдений объемом nj каждая n j { yij }i = 1, j = 1,2,..., L, (см. рис.1), т.е. требуется построить зависимость Q = (x). (1) Рис.Зависимость между результатами групп наблюдений n j { yij }i = 1, j = 1,2,..., L от аргумента х.

При отсутствии какой-либо информации относительно вида функции (x) сформулированная задача не может быть решена. Поэтому считают, x1 x xL представляется функциональной что зависимость Q от x при зависимостью известного вида, но с неизвестными параметрами, т.е.

Q = (x) = (x,a0,a1,...,am), (2) a0,a1,...,am - неизвестные параметры, - функция известного вида где (кривая регрессии), вид которой устанавливается по каким-либо теоретическим или практическим соображениям.

(x)сводится к построению статистичеТогда задача определения a0,a1,...,am по результатам эксских оценок коэффициентов регрессии перимента.

При решении этой задачи будем полагать, что результаты наблюдений n1 nL {yi1}i=1,...,{yiL}i=(см. рис.1) представляют собой независимые выборки из нормальных распределений с параметрами 2 N [ ( x, a,..., a ), ],..., N [ ( x, a,..., a ), ].

1 0 m 1 L 0 m L Тогда оценки коэффициентов регрессии, определяющие положение (x1,a0,...,am ) теоретической кривой на рис.1 можно строить как оценки неизвестных параметров, используя метод наименьших квадратов.



~ ~ ~ a0,a1...,am нужно выбрать так, чтоСогласно этому методу оценки бы сумма квадратов отклонений теоретического значения n j ~ ~ Qj = yj = yij Qj = (x,a0,...,am ) от экспериментального j nj i=1 по всем {xj}L была бы минимальной. Тогда получим систему уравнений точкам j=относительно точечных оценок коэффициентов регрессии:

M = 0, = 0,1,..., m ~ a L. (3) ~ ~ M = ( y -(x a0,..., am ))nj j j, j=Здесь величина M характеризует суммарное рассогласование между экспериментальным значением Qj и теоретическим расчетом Qj с помощью {xj}L с учетом колимодели (2) по всем экспериментальным условиям j=чества наблюдений nj в каждой точке.

Система уравнений (3) будет непротиворечива только при условии L m + 1, (4) т.е. число экспериментальных условий L должно быть больше или равно числу оцениваемых параметров модели (2).

Рассмотрим регрессионный анализ для случаев равенства дисперсий 2 22 2 2 = =... = =...

и их неравенства.

1 2 L 1 2 L В соответствии с этим, перед проведением регрессионного анализа необходимо проверить гипотезу об однородности дисперсий выборок j {yij }n, j = 12,..., L,.

i=При этом различают два случая: число выборок L=2 и L>2.

1.1 Проверка однородности ряда дисперсий n{ yi1}i=1 и 2 n2. Требуется про{yi }i=1) L=2,т.е. имеется две выборки 2 2 2 = верить гипотезу против альтернативы. Приведем 1 2 1 критерий для такой проверки:

2 1 U 2, то = если, (5) 1 2 если U<П1 или U>П2, то, (6) 1 где nj S12 U =, S = j (y - yj )ij S2 nj -i=nj yj =, yij, j = nj i=y Здесь Sj2 и - выборочная дисперсия и выборочное среднее соответj ственно. В качестве порогов П1 и П2 выбираются квантили распределения Фишера (см. табл.1,2 Приложения 3).

П1 = fn -1;n2 -1;q/2; П = fn -1;n2 -1;1-q/2, (7) 1 где q-уровень значимости.

2 22 = =... = = 2) L>2. Проверка гипотезы против аль1 2 L 2...

тернативы.

1 nj {yij }i-1, j = 12,..., L, Имеется L выборок из нормальных распредеN (aj ), j = 12,..., L, лений. Требуется проверить гипотезу об одj нородности ряда дисперсий. Для этого используется критерий Бартлетта nj (условие его использования ):

U < X,, то дисперсии равны, L -11-q если U > X,, то дисперсии не равны, L -11-q если (8) где q=0,020,L S j U = (n -1) ln S, (9) j c j=L S = S (nj - 1) j N - L j=, (10) L N = n j, (11) j=L 1 1 c = 1 +, (12) 3(L - 1) nj - 1 N - L j=nj S =, j (y - y )2, j = 12,..., L ij j (13) nj - i=nj y = yij j (14) nj i=1.

X - соответствующий квантиль распределения X2 (таблица L -11-q, Приложения 3).

1.2 Нелинейная модель с одной независимой переменной 2 22 = =... = = (случай ) 1 2 L Рассмотрим проведение регрессионного анализа для модели следующего вида:

m (x, a0,..., am ) = a (x ), (15) =m { (x )} =0 - некоторая система нелинейных функций от х, которая где выбирается в зависимости от характера объекта. Например, если взять 0(x)=1, 1(x)=x,..., m(x)=xm, то получится модель в виде полинома m-ой (x ) = sin( x + d )имеем модель, образованную степени. При суммой тригонометрических функций. Эти два типа моделей получили наиболее широкое распространение.

~ a Построим точечные оценки коэффициентов регрессии и дисперсии S 2. В рассматриваемом случае величина М из системы уравнений (3) имеет вид:

L m ~ j M = n ( y - a (x )) j j. (16) j =1 = Дифференцируя, получаем:

L m M =-2 nj (y - a (x )) (x ) j ~ j q j (17) ~q a j=1 =, q=0,1,..., m.

Обозначим L n (x ) (x ) = (, ) = (, ) (18) j j j 1 2 1 2 2 j=L n y (x ) = ( y, ) = (, y) (19) j j j j=Здесь круглые скобки означают скалярное произведение. Тогда систему уравнений (17) можно записать в виде:

~0 ( 0, 0 ) + ~1 ( 0, 1 )+...+~m ( 0, m ) = ( 0, y ) aa a....................................................

(20) a (, ) + a (, )+...+~m (, ) = (, y ) ~0 m 0 ~1 m 1 m m a m Система (20) представляет собой систему линейных уравнений отно~ a сительно.

Решение ее в общем виде с последующим построением точечных и ~ a интервальных оценок и S 2, проверкой гипотезы об адекватности построенной модели экспериментальным данным наталкивается на значиm { (x )} =тельные трудности. Поэтому на практике систему функций стремятся подобрать так, чтобы уравнения (20) максимально упростились.

Обычно используют ортогональные на заданном наборе значений аргу{xj}L функции.

мента j=Приведение произвольной системы функций к ортогональному виду изложено в Приложении 1.

m { (x )} =0 уравнения (20) При условии ортогональности системы преобразуются к виду:

~0 ( 0, 0 ) = ( 0, y) a.....................

(21) a (, ) = (, y) ~m m m m ~ a Тогда легко находим точечные оценки коэффициентов L n (x )y j j j ~ = (, y) j=a = L, (22) (, ) n (x ) j j j= =0,1,...,m.

Точечная оценка S2 дисперсии имеет вид:

n L j m 2 ~ S = ( y - a ( x )) ( 23 ) ij j N - m - j = 1 i = 1 = L N = n j j = ~ a Построим интервальные оценки для и при заданной доверительной вероятности в виде:

~ [a ±t(N-m-1, 1-/2)Sa ], ~ (24) где S S = ~ a L n (x ) j j (25) j= = 01,..., m, Интервальная оценка для имеет вид:

N - m -1 N - m -S, S 2 X X N-m-1,1- / 2 N-m-1, / (26) =1Здесь используются соответствующие квантили распределений Стьюдента t(N-m-1,1-/2) и X 2 распределения (X2N-m-1,/2), определяемые по таблицам 3 и 4 Приложения 3.





Теперь, зная оценки коэффициентов, легко найти точечную и интервальную оценки для кривой регрессии при любом значении x:

m ~ Q = a (x ) ~ (27) =~ Q ± t(N - m -1, 1 - / 2) SQ (28) m 2 и ~ ~ SQ = Sa (x) (29) =После построения модели необходимо проверить степень ее адекватности (или соответствия) описываемому экспериментальному материалу, что достигается проверкой гипотезы адекватности.

Для этого вычисляется величина F.

S AD F = (30) S Б М Оценка дисперсии, характеризующая рассогласование теоретических и экспериментальных данных S2AD, т.е. адекватность модели, рассчитывается по формуле:

L m ~ SAD = ( y - (x ))2, n a j j j (31) L - m -j=1 =а характеристика случайной погрешности наблюдений (оценка дисперсии без модели) определяется по формуле:

L 2 SзМ = (n -1)S j, (32) j N - L j=где n j S = j (y - y )ij j nj -i=.

Для проверки адекватности модели сравнивают величину F с порогом П:

П = fL-m-1,N-L,1-q (33) За порог П принимают квантиль распределения Фишера fL-m-1,N-L,1-q, определяемый по таблицам 1,2 Приложения 3 при заданном уровне значимости q (обычно q принимается равным 0,05). Если F<П, то модель адекватна и на этом регрессионный анализ заканчивается. Если F>П, то модель неадекватна. Тогда необходимо изменить исходную модель и вновь провести все вычисления по формулам (22)-(33). Заметим, что проверка адекnj ватности возможна только при условии L>m+1,.

1.3 Линейная модель с одной независимой переменной 2 22 = =... = = (случай ).

1 2 L В этом случае модель имеет вид:

Q=a0 + a1x (34) В соответствии с неравенством (4) для построения этой модели необходимо использовать, как минимум, два экспериментальных условия, т.е.

L.

Регрессионный анализ проводится по рассмотренной выше схеме для нелинейной модели. Поэтому приведем соответствующие выражения, получающиеся из формулы (22) при m=1, 0(x)=1,1(x)=x.

~1 и ~0 для коэффициентов регрессии равны:

a a Точечные оценки L n ( x - x ) y j j j j =~ a1 = L ( x - x ) (35 ) j j =L ~ ~ a = n y - a1 x (36 ) 0 j j N j = где L x = (37) n x j j N j=nj y = yij (38) j nj i=L N = (39) n j j=Точечная оценка дисперсии в соответствии с выражением (23) имеет вид:

nj L S = a a (y - ~0 - ~1x )ij j (40) N - j=1 i=.

Заметим, что запись модели (34) в виде Q = a0 + a1(x - x ) (41) ~a дает более простое выражение для :

L ~0 = a n y j j (42) N j=~a при сохраняющихся соотношениях (35) и (40) для и S 2 соответственно.

Интервальные оценки a0 и a1 при доверительной вероятности имеют вид для a0:

~ [a0 ± t (N -2, 1- / 2) Sa ] ~, (43) а для a1:

~ [a1 ± t (N -2, 1- / 2) Sa ], ~ (44) где =1S Sa = (45) ~ N S Sa = (46) ~.

L n (xj - x)j j=t(N-2,1-/2) - соответствующие квантили распределения Стьюдента (Таблица 4 Приложения 3).

Интервальная оценка для имеет вид:

N - 2 N - S, S 2 2, (47) X X N -21- /2 N -2, /, где X2k, - квантили распределения X 2 (Таблица 3 Приложения 3).

После нахождения оценок коэффициентов регрессии строят точечную и интервальную оценки для искомой модели (34) при любом значении x (рис.2):

~ ~ ~ Q = a0 + a1x (48) ~ ~ [Q ± t (N -2, 1- / 2) SQ ] (49) где = 12 (50) ~ ~ ~ SQ = Sa + Sa (x - x)0.

Рис.Построение точечной и интервальной оценок для искомой модели Q при различных значениях аргумента х.

Проверка гипотезы адекватности возможна только при условии L>2, nj. Для этого рассчитывается оценка дисперсии адекватности L ~0 ~1 j S = n ( y - a - a x ) AD j j (51) L - j =и оценка дисперсии без модели L S = (n - 1)S БМ jj, (52) N - L j =где Sj2 определяется по формуле (6). По формуле (30) рассчитывается величина F.

Если F<П, то модель (34) адекватна, если F>П, то модель (34) неадекватна, где П=fL-2,N-L,1-q - соответствующий квантиль распределения Фишера (Таблица 1,2 Приложения 3).

1.4 Нелинейная модель с одной независимой переменной 2...

(случай ) 1 2 L В этом случае регрессионный анализ выполняется в предположении, что известна зависимость (x):

2 (x)= f(x), (53) где неизвестна, а функция f(x) известна. В этом случае j 2= f(xj). (54) В качестве функции f(x) обычно выбирают аналитическую аппроксимацию зависимости значений выборочных дисперсий Sj2 от аргумента xj.

Аппроксимация производится с помощью метода наименьших квадратов (Приложение 2).

Регрессионный анализ в этом случае проводится в той же последовательности, что и рассмотренный ранее. Приведем все необходимые формулы, обозначив = j, (55) f (x ) j где f(xj) определяется по методике, изложенной в Приложении 2, для всех значений аргумента xj (j=1,2,...,L). Перед проведением регрессионного анализа для построения системы ортогональных функций необходимо исполь{ nj }L, т.е. ортогональные функции m должны { (x )} =зовать веса j j=обладать свойством L n (x ) (x ) = 0 j j j j 1 2. (56) j =Перейти от неортогональной системы к ортогональной можно по (, ) формулам (82)-(90) (Приложение 1), где в качестве теперь выступает L (, ) = 1 nj (x ) (x ) j 1 j j (57) 2 j=(сравните с выражением (18)).

m { (x )} =0 системы функций, ортоПри использовании в качестве {xj}L с весами гональных на множестве значений аргумента j={ nj }L, выражения для точечных оценок коэффициентов a принимаj j=ют вид:

L nj (x )y j j j ~ = j=a, = 01,..., m, L (58) nj (x ) j j j=Точечная оценка для имеет вид:

nj L m S = a y - ~ (x ) jij j N - m - j=1 i=1 =L, (59) N = n j j=Интервальные оценки для a при вероятности имеют вид:

Pages:     || 2 | 3 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.