Построение модели парной линейной регрессии

Автор работы: Пользователь скрыл имя, 24 Ноября 2014 в 14:36, творческая работа

Описание работы

Анализируя полученный график поля корреляции можно сказать, что связь между числом часов в неделю и средним баллом по направлению является прямой, по форме связи - линейной, а по степени тесноты - тесной.

Файлы: 1 файл

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ.docx

— 62.96 Кб (Скачать файл)

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОУ ВПО РОСТОВСКИЙ ГОСУДАРСТВЕННЫЙ ЭКОНОМИЧЕСКИЙ УНИВЕРСИТЕТ (РИНХ)

 

Факультет Экономики и финансов

Кафедра Страхового дела

 

Дисциплина «Эконометрика»

 

ИНДИВИДУАЛЬНОЕ ЗАДАНИЕ

На тему:

«Построение модели парной линейной регрессии»

 

 

Выполнила:

Студентка 433 гр.       Дьяченко В.А.

 

Преподаватель:

Доцент         Герасимова И.А.

 

 

 

 

Ростов-на-Дону

2014 год.

Вариант 8.

 

Пункт 1. Исходные данные.

Проведен опрос случайно выбранных 10 студентов, проживающих в общежитии университета, для выявления зависимости между средним баллом по результатам предыдущей сессии и числом часов в неделю, затраченных студентом на самостоятельную подготовку. Имеются следующие данные:

Число часов

Средний балл

25

4,6

22

4,3

19

3,8

15

3,8

15

4,2

30

4,3

20

3,8

30

4

10

3,1

17

3,9

   

х=

27


 

Пункт 2. Поле корреляции результативного и факторного признака.

 

Анализируя полученный график поля корреляции можно сказать, что связь между числом часов в неделю и средним баллом по направлению является прямой, по форме связи - линейной, а по степени тесноты - тесной.

 

Пункт 3. Найти значение выборочного линейного коэффициента корреляции, пояснить его смысл. Проверить статистическую значимость выборочного коэффициента корреляции.

Выборочный линейный коэффициент корреляции Пирсона rxy=0,66622348. Исходя из полученного значения коэффициента корреляции Пирсона, можно сделать вывод, что связь между числом часов в неделю и средним баллом умеренная, так как находится в промежутке между числами 0,5 и 0,7.

Расчет проведен тремя способами:

  1. По формуле:

  1. Функция Excel - КОРЕЛЛ;
  2. Excel - Данные - Анализ данных - Регрессия.

Проверим статистическую значимость выборочного коэффициента корреляции.

Выдвигаем предположение:

 Н0: rxy = 0, т.e. корреляционной связи нет. Такое предположение называется нулевой гипотезой.

Затем выдвигаем предположение, опровергающее нулевую гипотезу:

Н1: rxy ≠ 0, т.е. есть корреляционная связь.

Расчетное значение:

              | rxy | * √n-2 |0,666 |*√10-2


tрасч. = = = 2,527


                  √1-rxy2  √1- 0,444


 

Критическое значение находим по таблице критических точек распределения Стьюдента по заданному уровню значимости α и числу степеней свободы κ:

tкр.(0,05; 8) = 2,3

Так как tрасч. > tкр., это значит, что на уровне значимости α= 0,05 Н0 отклоняется в пользу Н1, иначе говоря, выборочный коэффициент корреляции не случаен и статистически значим, а между средним баллом и числом часов в неделю имеет место существенная корреляционная связь.

 

Пункт 4. Оценить параметры уравнения парной регрессии, интерпретировать их. Объяснить смысл полученного уравнения.

 

Регрессионная статистика

 

Множественный R

0,66622348

R-квадрат

0,443853725

Нормированный R-квадрат

0,37433544

Стандартная ошибка

0,324637828

Наблюдения

10


 

Дисперсионный анализ

         
 

df

SS

MS

F

Значимость F

Регрессия

1

0,672882247

0,672882247

6,384704811

0,035431702

Остаток

8

0,843117753

0,105389719

   

Итого

9

1,516

     

 

 

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

3,134733316

0,349918916

8,958456305

1,91721E-05

Число часов

0,041638753

0,016478865

2,526797343

0,035431702


 

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

2,32781885

3,941647783

2,32781885

3,941647783

0,003638422

0,079639084

0,003638422

0,079639084


 

 

Наблюдение

Предсказанное Средний балл

Остатки

1

4,175702139

0,424297861

2

4,05078588

0,24921412

3

3,925869621

-0,125869621

4

3,75931461

0,04068539

5

3,75931461

0,44068539

6

4,383895903

-0,083895903

7

3,967508374

-0,167508374

8

4,383895903

-0,383895903

9

3,551120845

-0,451120845

10

3,842592115

0,057407885


 

Запишем уравнение парной линейной регрессии:

ŷ = b0 + b1*x ;

ŷ = 3,1347 + 0,0416*х .

Полученное уравнение количественно описывает зависимость между средним баллом и числом часов в неделю.

Коэффициент регрессии b1=0,0416 означает, что при увеличении числа часов в неделю на 1%, средний балл возрастет на 0,0416. Иначе говоря коэффициент регрессии отражает увеличение среднего балла в зависимости от числа часов в неделю. Константа b0=3,1347 - это среднее ожидаемое значение среднего балла при нулевом значении числа часов в неделю, то есть при х=0.

 

Пункт 5. Оценить статистическую значимость коэффициента регрессии и константы уравнении регрессии. Сделать выводы.

 

Оценим статистическую значимость коэффициента регрессии b1=0,0416.

Предположение 1:

H0 : β1 = 0 ,т.е. нет связи между х и у.

Альтернативное предположение:

H1 : β1 ≠ 0, т.е. есть связь между х и у.

Расчетное значение:

tрасч. = |b1| / Sb1 = 0,0416 / 0,0165 = 2,521.

Критическое значение:

tкр.(0,05; 8) = 2,3.

Так как tрасч. > tкр., то нулевая гипотеза Н0 отклоняется в пользу альтернативной гипотезы Н1, т.е. на уровне значимости 0,05 коэффициент регрессии b1 = 0,0416 не  случаен и статистически значим, а, следовательно, не случаен и β1. Иначе говоря, между средним баллом и числом часов в неделю имеет место существенная линейная зависимость.

 

Оценим статистическую значимость константы уравнения регрессии b0=3,1347.

Предположение 2:

H0 : β0 = 0 ,т.е. нет связи между х и у.

Альтернативное предположение:

H1 : β0 ≠ 0, т.е. есть связь между х и у.

Расчетное значение:

tрасч. = b0 / Sb0 = 3,1347 / 0,35= 8,956

Критическое значение:

tкр.(0,05; 8) = 2,3.

Так как tрасч. > tкр., т.е. на уровне значимости 0,05 нулевая гипотеза Н0 отклоняется в пользу альтернативной гипотезы Н1, т.е. константа b0 = 8,956 в уравнении регрессии не случайна и статистически значима.

 

Пункт 6. Построить 95% доверительный интервал для оценки коэффициента регрессии и константы уравнения в генеральной совокупности.

 

Построим 95% доверительный интервал для оценки коэффициента регрессии b1 = 0,0416:

Р(b1 - tкрит.*Sb1 ≤ β1 ≤ b1 + tкрит.*Sb1) = 0,95;

P(0,0416 - 2,3*0,0165 ≤ β1 ≤ 0,0416 + 2,3*0,0165) = 0,95;

Р(0,00365 ≤ β1 ≤ 0,07955) = 0,95.

Т. е., с вероятностью 0,95 можно ожидать, что истинное значение коэффициента регрессии β1 будет находиться в промежутке между числами 0,00365 и 0,07955. Так как этот интервал не включает нулевое значение, то существует статистически значимая линейная зависимость между средним баллом и числом часов в неделю. β1 значима.

 

Построим 95% доверительный интервал для оценки константы уравнения регрессии b0 = 3,1347:

Р(b0 - tкрит.*Sb0 ≤ β0 ≤ b0 + tкрит.*Sb0) = 0,95;

Р(3,1347 - 2,3*0,3499 ≤ β0 ≤ 3,1347 + 2,3*0,3499) = 0,95;

Р(2,33 ≤ β0 ≤ 3,939) = 0,95.

То есть, с вероятностью 0,95 можно ожидать, что истинное значение коэффициента регрессии β0 будет находиться в промежутке между числами 2,33 и 3,939. Так как этот интервал не включает в себя нулевое значение, то существует статистически значимая линейная зависимость между числом часов в неделю и средним баллом. β0 значима.

 

Пункт 7. Найти значение коэффициента детерминации и пояснить его смысл. Оценить статистическую значимость коэффициента детерминации.

Коэффициент детерминации R2 = 0,444 или 44,4%

Расчет проведен тремя способами:

а) по формуле: R2 = rху2 = 0,444; 

б) функция Excel ЛИНЕЙН;

в) Инструмент - Анализ данных - Регрессия.

Можно сказать, что 44,4% вариации среднего балла от числа часов в неделю могут быть объяснены числом показателей, варьирующими от числа занятий в неделю.

Но большая часть вариации (55,6%) осталась необъясненной в рамках данной модели. Это можно объяснить как влияние прочих факторов, не включенных в данную модель, например, число часов, приходящееся на самостоятельное изучение материала студентом.

Оценим статистическую значимость коэффициента детерминации R2= 0,444.

Предположение:

Н0 : R2 = 0

Альтернативное предположение:

H1 : R2 ≠ 0

Расчетное значение:

   R2 n – m – 1  0,444 10 – 1 – 1

Fрасч. =  *     =  * = 6,389.


      1. R2                     m             1 – 0,444                  1

 

Fкрит. (0,05; 1; 8) = 5,32.

Fрасч. больше Fкрит., т.е., гипотеза Н0 отклоняется в пользу гипотезы Н1. Это означает, что полученное значение R2 неслучайно. Построенная модель также неслучайна и адекватно описывает зависимость между средним баллом и числом часов в неделю.

 

Пункт 8. Оценить статистическую значимость уравнения регрессии в целом.

Суммарной мерой общего качества уравнения регрессии, то есть мерой соответствия уравнения статистическим данным, является коэффициент детерминации R2. Так как в данной модели R2 признается статистически значимым и неслучайным, то и все уравнение в целом считается статистически значимым.

 

Пункт 9.Построить теоретическую линию регрессии. Объяснить ее.

 

 

 

Анализируя построенную линию регрессии, видно, что часть точек лежит на линии регрессии. Остальные точки расположены выше или ниже линии регрессии, но все точки, соответствующие фактическим данным, расположены близко к данной линии. Это означает, что построенная модель качественна.

Информация о работе Построение модели парной линейной регрессии