Понятие корреляционной и регрессионной связи

Автор работы: Пользователь скрыл имя, 11 Января 2015 в 17:25, курсовая работа

Описание работы

Основные понятия, особенности и задачи корреляционного и регрессионного анализа.
Классическим методом оценивания коэффициентов уравнения регрессии является метод наименьших квадратов. Первое изложение элементов метода наименьших квадратов было дано в 1806 г. А.М. Лежандром в связи с вопросами вычисления космических орбит.

Содержание работы

1.Общие понятия стр.3
1.1 Понятие корреляционной и регрессионной связи стр.3 1.2 Виды регрессий и корреляций стр.5 1.3 Задачи корреляционного и регрессионного анализа стр.7
2.Корреляция стр.8
2.1 Свойства коэффициента корреляции двух случайных величин стр.8
2.2 Корреляционная таблица стр.10
2.3 Способы вычисления выборочного коэффициента корреляции стр.11
3.Регрессионный анализ стр.16
3.1 Основные понятия. Модель регрессии стр.16
3.2 Задачи регрессионного анализа стр.17
3.3 Алгоритм корреляционно-регрессионного анализа стр.19
4. Особенности практического применения регрессионных моделей стр.20
Список литературы стр.23

Файлы: 1 файл

kursovaya_tv.docx

— 82.65 Кб (Скачать файл)

в) определим среднее значение квадрата X (пользуемся данными из корреляционной таблицы): 

   

г) определим среднее значение квадрата Y: 

      

 

 

д) вычислим среднее значение произведения XY:

е) вычислим выборочный коэффициент корреляции:

Замечание. В примере определен коэффициент корреляции по данным имеющейся выборки (поэтому он и называется выборочным). Но нельзя с уверенностью заключить, что генеральная совокупность так же имеет коэффициент корреляции отличный от нуля. Поэтому, после вычисления выборочного коэффициента корреляции, прежде чем делать вывод о коэффициенте корреляции генеральной совокупности,  проводят проверку статистической гипотезы H0: rxy=0, конкурирующая гипотеза H1: rxy≠0. Если нулевая гипотеза отвергается, то коэффициент корреляции значим (т.е. значимо отличается от нуля), и признаки X и Y коррелированны, т.е. связаны линейной зависимостью.

Если принимается нулевая гипотеза, то выборочный коэффициент корреляции незначим иX, Y некоррелированы, т.е. не связаны линейной зависимостью.

Проверка гипотезы проводится по t-критерию Стьюдента, число степеней свободы определяется как k=n-2. Формула для нахождения расчетного значения критерия имеет вид:                 

Поскольку конкурирующая гипотеза имеет вид rxy≠0 – критическая область двухсторонняя.

Для рассмотренного примера (n=200):

Зададимся уровнем значимости α=0,05 и найдем по таблице tкрит= 1,96(двухсторонняя критическая область).

17,256>1,96 (tрасч>tкрит), следовательно гипотеза H0 о незначимости коэффициента корреляции отвергается. Коэффициент корреляции является значимым (при заданном уровне значимости), X и Y связаны линейной зависимостью.

2. Использование коэффициента парной корреляции неявно предполагает нормальное распределение генеральных совокупностей, из которых производится выборка. Если вид распределения совокупностей неизвестен, то используют меру связи, которая не требует нормальности выборок, например, коэффициент ранговой корреляции Спирмена:           

              

где  - квадраты разности рангов,

n – число наблюдений (число пар рангов).

Пример

Двум аналитикам было предложено проранжировать сотрудников фирмы в соответствии с их вкладом в работу фирмы. Аналитики представили отчет:

Оценка 1-го аналитика - xi

Фамилия сотрудника

Оценка 2-го

аналитика – yi

3

Антонов

2

1

Борисов

1

4

Винилов

7

2

Горелов

4

8

Денисов

5

6

Ельников

3

9

Жуков

9

5

Зосимов

8

10

Икаров

10

7

Котов

6


Совпадают ли мнения аналитиков? Какова корреляция между двумя рядами оценок?

Т.к. закон распределения оценок неизвестен, воспользуемся коэффициентом ранговой корреляции Спирмена.

Определим разности оценок, их квадраты и суммы:

di=xi-yi

1

0

-3

-2

3

3

0

-3

0

1

Σ=0

di2

1

0

9

4

9

9

0

9

0

1

Σ=42


 

           

Согласно коэффициенту ранговой корреляции Спирмена между мнениями аналитиков существует связь. Проверим, является ли эта связь действительно значимой. Для проверки выдвинем гипотезу H0: коэффициент корреляции не является статистически значимым, т.е.rs=0.

В задачах такого рода, при  пользуются распределением Стьюдента с числом степеней свободы ν=n-2=10-2=8. Зададимся уровнем значимости α=0,05 и найдем по таблицеtкрит= 2,31 (двухсторонняя критическая область).

Расчетное значение критерия находим из выражения:   

             

3,159>2,31 (tрасч>tкрит), следовательно гипотеза H0 о незначимости статистической связи между мнениями аналитиков отвергается. Коэффициент корреляции является значимым (при заданном уровне значимости), мнения аналитиков существенно совпадают.

 

3. Регрессионный анализ

Слово «регрессия» обозначает возвращение, движение назад.

Термин «регрессия» был использован впервые в 1885 г. в работе английского антрополога Ф. Гамильтона, исследовавшего 928 взрослых детей и 205 их родителей и пришедшего к выводу о том, что имеет место «регресс» - чем выше родители, тем ниже их дети, поэтому проведенный анализ он назвал регрессионным. Хотя анализ, который он проводил, был скорее корреляционным, термин исторически прижился. Термин «корреляция» тоже был предложен Гамильтоном.

3.1 Основные понятия. Модель  регресии

Пусть имеется объект или процесс, который можно представить моделью типа «черный ящик»:

X – управляемые, независимые входные переменные,

Z – контролируемые, но неуправляемые входные переменные,

W – помехи, т.е. неуправляемые и неконтролируемые входные переменные,

Y – отклик, т.е. результативный признак, показатель (например, показатель качества управления

Исследование объекта (процесса) может проводится в двух режимах:

1.                      Пассивный эксперимент - фиксируются имеющиеся значения X и Z, и соответствующие им значения Y.  Вопросы организации сбора данных не являются первостепенными, чем их больше, тем лучше. Обработка ведется методами классического регрессионного анализа.

2.                      Активный эксперимент – фактор X изменяется целенаправленно и фиксируется, Zи Y фиксируются. Имеет место «планирование эксперимента». Обработка данных ведется специальными методами регрессионного анализа. Метод существенно эффективнее пассивного эксперимента в смысле минимизации числа опытов и точности полученных выводов.

В результате обработки полученных экспериментальных данных составляется «регрессионная модель» - уравнение, связывающее Y, X и Z:     

                  

где  - параметры модели объекта,

- случайная составляющая  отклика, обусловленная наличием  помех.

Результатам регрессионного анализа можно доверять, если выполняются следующие условия:

1.                      Случайная величина Y и ее ошибка подчиняются нормальному закону распределения.

2.                      Дисперсия случайной величины Y постоянна и не зависит от текущего значения yi.

3.                     Результаты наблюдений yi независимы и некоррелированы.

4.                      Входные переменные X, Z независимы, неслучайны и измеряются без ошибок.

Классическим методом оценивания коэффициентов уравнения регрессии является метод наименьших квадратов. Первое изложение элементов метода наименьших квадратов было дано в 1806 г. А.М. Лежандром в связи с вопросами вычисления космических орбит.

 

 

 

 

 

 

 

3.2 Задачи регрессионного  анализа

1.  Определение вида функциональной зависимости (вида регрессионной модели).

Различают следующие виды регрессионных моделей:

·        Модель линейная относительно параметров регрессии

а) парная линейная модель 

б) парная криволинейная модель (например  ),

в) множественная линейная модель 

г) множественная нелинейная модель (например,

д) ортогональная полиномиальная модель  где - некоторые функции, например, ортогональные полиномы Чебышева.

· Модель нелинейная относительно параметров регрессии (например,  ).

Почти все эти модели могут быть построены с использованием метода наименьших квадратов. Выбор наилучшего уравнения регрессии из нескольких построенных моделей является неоднозначным. Для случая парной регрессии предварительный выбор уравнения регрессии обычно обосновывают графическим методом.

2.                      Вычисление коэффициентов регрессионной модели  .

3.                     Проверка адекватности полученной модели.

 

 

3.3 Алгоритм корреляционно-регрессионного  анализа

1. Исходя из целей и задач исследования, устанавливается какие признаки являются факторными (Xi), а какой результативным Y.

2. Проводится эксперимент, в котором определяются значения факторных и результирующего признаков.

3. Обосновывается модель  уравнения регрессии. Для случая  парной регрессии – обычно  графическим методом.

4. Методом наименьших  квадратов определяются параметры  уравнения регрессии.

5. Определяется сила связи  между изучаемыми признаками.

6. Оценивается значимость  уравнения регрессии, его параметров  и показателей силы связи.

 

 

 

                                 

 

 

 

 

 

 

 

 

4.Особенности  практического применения регрессионных  моделей

Одним из условий регрессионной модели является предположение о линейной независимости объясняющих переменных, т. е., решение задачи возможно лишь тогда, когда столбцы и строки матрицы исходных данных линейно независимы. Для экономических показателей это условие выполняется не всегда.

Под мультиколлинеарностью понимается высокая взаимная коррелированность объясняющих переменных, которая приводит к линейной зависимости нормальных уравнений.

Мультиколлинеарность может возникать в силу разных причин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания.

Существует несколько способов для определения наличия или отсутствия мультиколлинеарности.

Один из подходов заключается в анализе матрицы коэффициентов парной корреляции. Считают явление мультиколлинеарности в исходных данных установленным, если коэффициент парной корреляции между двумя переменными больше 0,8.

Другой подход состоит в исследовании матрицы Х'Х. Если определитель матрицы Х'Х близок к нулю, то это свидетельствует о наличии мультиколлинеарности.

Для устранения или уменьшения мультиколлинеарности используется ряд методов.

Наиболее распространенные в таких случаях следующие приемы: исключение одного из двух сильно связанных факторов, переход от первоначальных факторов к их главным компонентам, число которых быть может меньше, затем возвращение к первоначальным факторам.

Самый простой из них (но не всегда самый эффективный) состоит в том, что из двух объясняющих переменных, имеющих высокий коэффициент корреляции (больше 0,8), одну переменную исключают из рассмотрения. При этом какую переменную оставить, а какую удалить из анализа, решают в первую очередь на основании экономических соображений. Если с экономической точки зрения ни одной из переменных нельзя отдать предпочтение, то оставляют ту из двух переменных, которая имеет больший коэффициент корреляции с зависимой переменной.

Еще одним из возможных методов устранения или уменьшения мультиколлинеарности является использование стратегии шагового отбора, реализованную в ряде алгоритмов пошаговой регрессии.

Наиболее широкое применение получили следующие схемы построения уравнения множественной регрессии: метод включения факторов и метод исключения – отсев факторов из полного его набора.

В соответствии с первой схемой признак включается в уравнение в том случае, если его включение существенно увеличивает значение множественного коэффициента корреляции, что позволяет последовательно отбирать факторы, оказывающие существенное влияние на результирующий признак даже в условиях мультиколлинеарности системы признаков, отобранных в качестве аргументов из содержательных соображений. При этом первым в уравнение включается фактор, наиболее тесно коррелирующий с Y, вторым в уравнение включается тот фактор, который в паре с первым из отобранных дает максимальное значение множественного коэффициента корреляции, и т. д. Существенно, что на каждом шаге получают новое значение множественного коэффициента (большее, чем на предыдущем шаге); тем самым определяется вклад каждого отобранного фактора в объясненную дисперсию Y.

Вторая схема пошаговой регрессии основана на последовательном исключении факторов с помощью t - критерия. Она заключается в том, что после построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший коэффициент t. После этого получают новое уравнение множественной регрессии и снова производят оценку значимости всех оставшихся коэффициентов регрессии. Если среди них опять окажутся незначимые, то опять исключают фактор с наименьшим значением t - критерия. Процесс исключения факторов останавливается на том шаге, при котором все регрессионные коэффициенты значимы.

Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

При отборе факторов также рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6–7 раз меньше объема совокупности, по которой строится регрессия. Если это соотношение нарушено, то число степеней свободы остаточной дисперсии очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а  -критерий меньше табличного значения.

Особым случаем мультиколлинеарности при использовании временных выборок является наличие в составе переменных линейных или нелинейных трендов. В этом случае рекомендуется сначала выделить и исключить тренды, а затем определить параметры регрессии по остаткам.

Игнорирование наличия трендов в зависимой и независимой переменных ведет к завышению степени влияния независимых переменных на результирующий признак, что получило название ложной корреляции.

Информация о работе Понятие корреляционной и регрессионной связи