WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     || 2 |
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Оренбургский государственный университет Кафедра математических методов и моделей в экономике А.Г. РЕННЕР, Г.Г. АРАЛБАЕВА, О.А. ЗИНОВЬЕВА КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ЛАБОРАТОРНОМУ ПРАКТИКУМУ Рекомендовано к изданию Редакционно-издательским советом Оренбургского государственного университета Оренбург 2002 ББК 22.172я7 Р-39 УДК 519.233.5(076.5) Введение Корреляционный анализ определяется как совокупность методов оценки корреляционных характеристик и проверки статистических гипотез о них по n выборочным данным, выбранным из k – мерной генеральной совокупности, распределенной по нормальному закону распределения.

Дополнительной задачей корреляционного анализа является оценка уравнения регрессии.

Предположим, что исследуется генеральная совокупность, каждый элемент которой характеризуется количественными признаками Х = (x1, x2,…,xk)т с плотностью распределения:

1 1 fX (x1, x2,…, xk) = exp(- (х - µ)T -1(х - µ)), 2 (2 )k где || - определитель ковариационной матрицы размерности (k*k);

-1- матрица, обратная ковариационной матрице;

µ - k мерный вектор математических ожиданий.

2 1 Описание лабораторной работы №4 Лабораторная работа №4 включает следующие этапы:

- постановку задачи;

- ознакомление с порядком выполнения работы в пакетах STADIA., STATISTICA;

- выполнение расчетов индивидуальных задач на компьютере и анализ результатов;

- подготовку письменного отчета с выводами по работе;

- защиту лабораторной работы.

3 2 Постановка задачи Ставится задача оценки параметров нормального закона распределения и других характеристик корреляционной связи, а также исследования статистических свойств оценок:

1. На основе наблюдений над n объектами, каждый из которых (описывается) характеризуется значениями k – признаков, представленных в виде матрицы Х = {хij} типа "объект – свойство" размерности (n*k), n = 50, k = 3, (n = 20, k = 3) оценить числовые характеристики вектора признаков Х = (x1, x2,…,xk)т, включая характеристики линейной связи между признаками, частные и множественные коэффициенты корреляции.

2. Исходя из предположения о нормальном характере распределения Х исследовать полученные оценки.

3. Оценить уравнение регрессии и исследовать его.

3 Порядок выполнения работы и анализ результатов в системе STADIA Запустить диалоговую систему STADIA.

Подготовка данных. Ввести матрицу исходных данных Х (экран редактора базы данных с частью введенных данных приведен на рисунке 1). Они находятся в столбцах соответствующих переменных Х1, Х2, Х3.

Рисунок Выбор процедуры. Для оценки коэффициентов парной корреляции, входящих в корреляционную матрицу следует выбрать в меню Статистические методы пункт 3 = Корреляция.

€ Корреляционный анализ начинается с оценки R корреляционной матрицы R, для получения которого в появившемся окне (Рисунок 2) Анализ переменных надо выбрать переменные для анализа. Для этого выделяют мышью в поле Переменные переменные Х1, Х2 и Х3, и, нажав кнопку со стрелкой вправо, перенести их в поле Для анализа. Затем нажать кнопку запроса Утвердить.

Рисунок Результаты анализа представлены на рисунке 3.

Рисунок Результаты включают следующие характеристики: переменные, между которыми рассчитывается оценка коэффициента корреляции;

расчетное значение оценки коэффициента корреляции; значение t-статистики распределения Стьюдента, значимость проверяемой нулевой гипотезы о равенстве коэффициента корреляции нулю; степень свободы; результат проверки гипотезы и корреляционную матрицу R.

1 0,199 0, 0,199 € Оценка для R: R = 0,808.

0,0654 0,808 Для проверки значимости парных коэффициентов корреляции проверяем гипотезу: Н0: 12=0 против Н1: 120. Значимость нулевой гипотезы Р(|12 |<(|12 набл|) = 0.163 больше заданного уровня 0,05, в результате чего следует принять гипотезу Н0.

Проверим гипотезу: Н0: 13=0 против Н1: 130. Значимость нулевой гипотезы Р(|13 |<(|13 набл|) = 0.656 больше заданного уровня 0,05, в результате чего следует также принять гипотезу Н0.

Проверим гипотезу: Н0: 23=0 против Н1: 230. Значимость нулевой гипотезы Р(|23 |<(|23 набл|) = 0. меньше заданного уровня 0,05, в результате чего следует принять гипотезу Н1 о значимости линейной корреляционной связи между переменными Х2Х3.

4 Порядок выполнения работы и анализ результатов в системе STATISTICA Существенно больше возможностей в проведении корреляционного анализа дает пакет STATISTICA, позволяющий оценивать корреляционную матрицу.

Произведем оценку корреляционной матрицы в пакете STATISTICA, которая состоит из программ-модулей (блоков), в каждой из которых реализованы определенные статистические методы. Оценка корреляционной матрицы, проверка значимости производится в модуле Basic Statistics and Tables – Основные статистики и таблицы, оценка частных и множественных коэффициентов корреляции, коэффициента детерминации, проверка значимости этих коэффициентов производится в модуле Multiple Regression – Множественная регрессия.

1. Щелкнув мышью, можно вызвать меню модулей.

2. Откроется меню.

3. Выбрать необходимый модуль.

Рисунок Для обработки данных необходимо должным образом перенести их в пакет STATISTICA.

1. Данные находятся в окне системы STADIA. Скопируем данные в буфер из окна, предварительно выделив их; загрузить пакет STATISTICA; открыть модуль Data Management; закрыть появившееся дополнительное окно нажатием на "х" в правом верхнем углу. Затем в меню File выбрать команду Export Data More, высвечивается окошко с предложением ввести имя файла с расширением.MFM, появится рабочее окно, где рядом с именем переменной VAR1…VAR10 написано Real, т.е. в формате Real. Курсор поместить в верхний левый угол, нажатием кнопки Paste, ввести данные в окно программы STATISTICA. Затем данные вновь выделить и скопировать в буфер, загрузить модуль Basic Statistics and Tables, кнопкой Paste вставить данные. Теперь данные готовы для обработки. Их необходимо вновь сохранить в памяти машины теперь уже с расширением.Sta.



2. Данные находятся в базе данных программы Excel. Преобразовывать их нет необходимости, импортируем данные из программы Excel, предварительно выделив их и скопировав в буфер. Кнопкой Paste вставим данные из буфера в окно пакета STATISTICA.

Стандартный вид исходной таблицы с данными пакета STATISTICA содержит 10 строк (cases) и 10 столбцов (variables). Так как исходная информация представлена матрицей размерности (n*k), n=50, k=3, то необходимо ввести еще 40 строк. Открыв меню Cases (рисунок 5), выбираем позицию Add (добавить), переходим к следующему окну (рисунок 6).

Рисунок Рисунок Окно с частью исходных данных представлено на рисунке 7.

Рисунок Оценки парных коэффициентов корреляции производится в блоке Basic Statistics and Tables. При запуске этого блока на экране появляется меню (рисунок 8):

Рисунок Выбираем позицию Сorrelation matrices. После вызова данного пункта появляется окно корреляционного анализа (рисунок 9).

Рисунок Корреляционный анализ начинается с выбора переменных, между которыми будут оцениваться парные коэффициенты корреляции. Вызов режима выбора осуществим с помощью кнопки One variable list. Далее появляется следующий экран (рисунок 10), в котором производится выбор необходимых переменных. Если при анализе используются все переменные, то проще нажать кнопку Select All. Если надо выбрать только часть переменных, то можно выделить с помощью мыши. Если необходимо выделить отдельные переменные, то используется комбинация клавиш [Ctrl] и левая клавиша мыши.

Рисунок После выбора переменных для анализа можно уточнить, в какой форме пользователь желает получить информацию. Имеются три варианта вывода информации:

Corr.Matrix (highlight p) – наиболее краткий вид, показываются только парные коэффициенты корреляции, красным выделяются те, гипотеза о незначимости которых отвергается.

Corr.Matrix (display p&N) – аналогична предыдущей, но кроме значения коэффициента показывается вероятность принятия гипотезы о незначимости коэффициента, в таблице данная вероятность обозначается символом р.

Detailed table of results – наиболее подробная таблица. Переменные сгруппированы в пары, для каждой переменной выводится ее среднее, дисперсия, а также парный коэффициент корреляции, как и в предыдущем случае: вероятность принятия гипотезы о незначимости коэффициента (р), а также коэффициенты для линейного уравнения регрессии. Для проведения корреляционного анализа достаточно Corr.Matrix (display p&N). Результаты расчетов приведены на рисунке 11.

Рисунок Корреляционная матрица аналогична предыдущей, рассчитанной в системе Stadia. В данном примере красным подсвечены оценки парных коэффициентов корреляции r23=0.8079, для которого гипотеза о незначимости отвергается. Оценки частных и множественных коэффициентов корреляции производится в модуле Multiple Regression. При вызове этого модуля на экране появляется окно (рисунок 12):

Рисунок Иногда для начала статистического анализа возникает необходимость вызова стартовой панели модуля. Если стартовая панель закрыта, то для ее открытия надо войти в меню Analysis – Анализ и выбрать команду Startup Panel – Стартовая панель (рисунок 13). В результате появится окно (рисунок 12) Рисунок Прежде всего необходимо выбрать переменные для анализа. Делается это после нажатия кнопки Variables. Для трехмерной нормально распределенной случайной величины множественные коэффициенты корреляции служат мерой связи между одной случайной величиной и двумя остальными. Частные коэффициенты корреляции между двумя случайными величинами при фиксированной третьей характеризуют тесноту линейной связи между этими двумя величинами, очищенной от влияния третьей. В рассматриваемом примере приведем оценку множественных коэффициентов корреляции R2/13 (т.е. между переменной Х2 и Х1,Х3), детерминации и результат их исследования на значимость. На рисунке 14 представлено окно выбора переменных для рассматриваемого случая.

Рисунок После подтверждения выбора данного режима, на экран выводятся результаты анализа (рисунке 15).

Рисунок Для получения коэффициентов частной корреляции надо нажать на кнопку Partial correlations. Появится окно с результатами (рисунок 16).

Рисунок Рассмотрим информационную часть окна рисунков 15 и 16:

- Dep. Var – имя зависимой переменной (VAR2);

- No of cases – объем выборки, n = 50;

- Multiple R – оценка коэффициента множественной корреляции;

- R2 – оценка коэффициента детерминации;

- Adjusted R2 – cкорректированный коэффициент детерминации;

- F – значение F – критерия расчетный;

- df – число степеней свободы F – критерия;

- р – вероятность принятия гипотезы Но;

- Partial correlations - оценки частных коэффициентов корреляции.

- Std. Error of estimate – стандартная ошибка оценки, оценивает меру рассеяния наблюдаемых значений относительно регрессионной прямой;





- Intercept – оценка свободного члена, значение коэффициента b0 в уравнении регрессии;

- Std.Error – стандартная ошибка коэффициента b0 в уравнении регрессии;

- t(df) and p-value – значение t- критерия и уровня р.

В рассмотренном примере оценка множественного коэффициента корреляции между случайной величиной Х2 и двумя остальными составила 0.821. Вероятность принятия гипотезы Н0: 2/13 =0 о незначимости множественного коэффициента составила р=0.0, следовательно, гипотеза Но отвергается и множественный коэффициент корреляции значимо отличен от нуля. Коэффициент детерминации составил 0.674.

Частные коэффициенты корреляции между двумя случайными величинами при фиксированной третьей характеризуют тесноту связи между этими двумя величинами, очищенной от влияния третьей величины.

Поэтому, если парный коэффициент корреляции между теми же двумя случайными величинами оказался больше соответствующего частного коэффициента, то делается вывод о том, что третья фиксированная величина усиливает взаимосвязь между изучаемыми величинами, т.е. более высокое значение парного коэффициента обусловлено присутствием третьей величины. Более низкое значение парного коэффициента корреляции в сравнении с соответствующими частными свидетельствует об ослаблении связи между изучаемыми величинами вследствие действия фиксируемой величины.

Оценки частных коэффициентов корреляции получены для следующих значений: r12/3 = 0.248 и r23/1 = 0.813. Так в наших расчетах оценки частных коэффициентов корреляции больше соответствующих парных т.е. r12=0.199, r23=0.808 следовательно делаем вывод об усилении корреляционных связей между соответствующими парами при фиксированной третьей. Значимость частного коэффициента определяется пользователем в зависимости от выбранного уровня значимости. Если указанное значение р в окне частных корреляций меньше выбранного уровня значимости, то Но: 23/1=отвергается. В нашем случае r23/1 = 0.813 является значимым, т.к. р = 0.0, а r12/3 = 0.248 не значим.

Дополнительной задачей корреляционного анализа является получение оценок bji/(…) для коэффициентов ji уравнения регрессии. Оценки коэффициентов уравнения регрессии (рисунок 17) могут быть получены нажатием на кнопку Regression summary в окне рисунка 15.

Рисунок В столбце В рисунка 17 получены оценки уравнения регрессии: 0=38.43, 21 =0.977, 23=2.006.

5 Интервальные оценки параметров связи Для значимых параметров связи определяют с надежностью доверительные интервалы. Для этого используют z-преобразование Фишера.

1 1 + r Преобразование производится по формуле z = ln, z N(0,1).

2 1 - r Доверительный интервал для z:

1 z, - t n-l -3 z z, + t n-l -3, В системе STADIA и пакете STATISTICA не предусмотрены расчеты доверительных интервалов для коэффициентов корреляции. Поэтому эти простые расчеты произведем в программе Excel. Запустим программу Excel.

На рисунке 17 представлено окно программы Excel с рассчитанным доверительным интервалом для коэффициента корреляции r23=0.808.

Рисунок Для расчета доверительного интервала введем в ячейку В1 значимое значение оценки коэффициента корреляции r23 = 0.808. В ячейке В3 получим преобразованное с помощью z – преобразования Фишера значение, соответствующее коэффициенту корреляции. Для преобразования обратимся к мастеру функций fx из меню Статистические, выберем категорию ФИШЕР, введем адрес ячейки со значением коэффициента корреляции. В ячейке В5 находится значение t для = 0.95. В ячейках В8 и В9 получены соответственно верхняя и нижняя границы значений z. Произведем обратное преобразование z в r. Для этого опять обратимся к мастеру функций fx и из меню Статистические, выберем категорию ФИШЕРОБР, введем адрес ячейки со значением zmin, затем zmax. В ячейках В10 и В11 получены искомые доверительные границы коэффициента корреляции, т.е. 0.r230.888.

6 Содержание письменного отчета Отчет должен быть оформлен на листах формата А4 с титульным листом, оформленным соответствующим образом и содержать следующее:

1) постановку задачи с вариантом выборок;

2) краткое изложение теории корреляционного анализа;

3) результаты компьютерной обработки данных;

4) анализ полученных результатов;

5) выводы по полученным результатам.

7 Вопросы к защите 7.1 Что изучает корреляционно-регрессионный анализ 7.2 Определение парного, частного, множественного коэффициентов корреляции.

7.3 Как рассчитывается частный коэффициент корреляции 7.4 Как рассчитывается множественный коэффициент корреляции 7.5 Как проверяется значимость оценки коэффициента парной корреляции 7.6 Как проверяется значимость частного коэффициента корреляции 7.7 Как проверяется значимость множественного коэффициента корреляции 7.8 Для чего используется коэффициент детерминации 7.9 Как строится корреляционная матрица 7.10 Как строятся доверительные интервалы для коэффициентов корреляции 7.11Как оцениваются коэффициенты регрессии 7.12 Как проверяется значимость уравнения регрессии 7.13 Как проверяется значимость коэффициентов регрессии 7.14 Как строятся интервальные оценки коэффициентов уравнения регрессии Список использованных источников 1. Айвазян А.М., Мхитарян В.С. Прикладная статистика и основы эконометрики: Учебник для вузов. –М.: ЮНИТИ, 1998. –1022с.

2. Боровиков В.П., Боровиков И.П. STATISTICA – Статистический анализ и обработка данных в среде Windows. –М.: Инф.изд. Дом "Филин", 1998. -608с.

Pages:     || 2 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.