Построение и исследование регрессионных моделей

Автор работы: Пользователь скрыл имя, 22 Мая 2013 в 17:53, курсовая работа

Описание работы

Построение и исследование регрессионных моделей на примере автомобилей ведущих зарубежных фирм в среде маткад.Цель курсовой работы: практическое изучение и применение основных методов корреляционного и регрессионного анализа.
Данная курсовая работа предлагает исследовать автомобиль какой-либо зарубежной фирмы (в нашем случае Volkswagen), в качестве исходных данных представлены следующие характеристики: расход горючего, мощность двигателя и масса автомобиля. При исследовании используются основные методы корреляционного и регрессионного анализа.

Содержание работы

Введение………………………………………………………………………….3
Исходные данные………………………………………………………………..3
Задание 1…………………………………………………………………………4
Задание 2…………………………………………………………………………5
Задание 3…………………………………………………………………………5
Задание 4…………………………………………………………………………8
Задание 5…………………………………………………………………………9
Задание 6………………………………………………………………………....12
Задание 7…………………………………………………………………………13
Задание 8…………………………………………………………………………14
Задание 9…………………………………………………………………………15
Задание 10………………………………………………………………………..15
Задание 11………………………………………………………………………..16
Задание 12………………………………………………………………………..17
Задание 13………………………………………………………………………..19
Задание 14………………………………………………………………………..29
Задание 15………………………………………………………………………..39
Задание 16………………………………………………………………………..39
Задание 17………………………………………………………………………..40
Заключение………………………………………………………………………42
Список литературы……………………………………………………………...43

Файлы: 1 файл

Kursovaya нем.doc

— 867.00 Кб (Скачать файл)

Выполним это задание:



















 

 

 

 

 

 

В данных интервалах заключено истинное значение параметров регрессии новой  a2 и a3 модели.

Задание 14

Используя изложенную в  приложении 1 методологию, проведите обоснование вашей регрессионной модели.

                                                                                             ПРИЛОЖЕНИЕ 1

Обоснование регрессионной  модели

Правильно обоснованная регрессионная модель  в значительной степени определяет успешность решения  исследуемой проблемы. К сожалению, универсальных рекомендаций по выбору модели, гарантирующей последующий успех, нет. Интуитивные догадки, следующие из результатов начального визуального обзора экспериментальных данных, умозрительные заключения, основанные на анализе природы проблемы и обусловливающих ее причинно-следственных явлений, опыт решения аналогичных задач, квалификация исследователя – все это способствует удаче, приближает, но не обеспечивает ее. Поэтому часто оказывается целесообразным задаться несколькими моделями, а в последующем, подвергнув их надлежащему дополнительному анализу, отдать предпочтение наиболее соответствующей (адекватной) результатам наблюдений. Но для этого необходимо иметь набор критериев, выявляющих эту адекватность. В подборе таких критериев также нет общепризнанного мнения. Остановимся на одном часто практикуемом подходе. В его основе лежит исходная гипотеза о том, что случайные составляющие ei, i=1, 2, …, n, в составе экспериментальных данных образуют последовательность центрированных независимых нормально распределенных случайных величин. Поэтому, если модель регрессии выбрана удачно и правильно оценены ее параметры, остаток ряда

ei=yi- jk(x1i,x2i)=yi- ,  i=1,2,…,n,                                               (П1.1)

должен также образовывать последовательность типа дискретного белого шума. Поэтому адекватной признают модель, которая порождает остаточный ряд (П1.1) со случайными центрированными некоррелированными нормально распределенными элементами. Тогда проверка адекватности сводится к выявлению перечисленных свойств остаточного ряда. Это осуществляется так.

Проверка случайности элементов остаточного ряда проводится по критерию серий или критерию поворотных точек. При первом из них по результатам сравнения двух соседних элементов остаточного ряда составляется последовательность нулей и единиц. Если первая разность Dei=ei+1-ei>0, то в последовательности ставится нуль, иначе – единица. Далее подсчитывается число серий v(n), представляющих собой фрагменты последовательности, состоящие только из нулей или единиц, и продолжительность kmax самой длинной серии. Остаточный ряд с вероятностью 0.95 считается случайным, если

kmax<k0(n); v(n)>[(2n-1)/3-2 ].

Здесь: k0(n)=5 при n<26 и k0(n)=6 при n>26; […] –символ целой части.

Сформируем остаточный ряд, используя указанную выше методологию:







 

 

 

 

 

 

 

 

Далее составим программу  для определения последовательности из 0 и 1, и выведем полученный результат:





 

 

 

 

 

 

 

 

 

 

Подсчитаем число серий v(n):





 

 

 

 

Определим целую часть, для выражения вида:





 

где trunk – символ целой части.

 

Очевидно, что продолжительность  самой длинной серии kMAX=3.

  Т. к. объем нашей выборки n=10<26, то значение k0(n)=5.

Теперь можем проверить  выполнение условий:





 

Условия выполняются, следовательно, остаточный ряд Ее с вероятностью 0.95 считаем случайным.

При использовании менее  строгого критерия поворотных точек поступают так: сравнивают элемент ряда остатков с двумя соседними; если он окажется меньше или больше их, то соответствующая точка признается поворотной; далее подсчитывается число s всех поворотных точек; если окажется

s >[2(n-2)/3-2 ],

остаточный ряд считается  состоящим из случайных элементов.

Теперь реализуем критерий поворотных точек:









 

 

 

 

 

 

 

 

Условие выполняется, значит, остаточный ряд считаем составленным из случайных элементов.

Проверка центрированности проводится с использованием t-критерия Стьюдента. С этой целью формируется статистика

g=|me| /se,                                                                                             (П1.2)

где     me= , se= ,

т.е. среднее значение и среднеквадратическое отклонение остаточного ряда. Далее задаются уровнем значимости a или доверительной вероятностью 1-a и находят 100a/2-процентную точку w100a/2  t-распределения с N-1` степенями свободы. Если окажется g> w100a/2, то гипотеза о центрированности остаточного ряда отвергается, как несоответствующая экспериментальным данным с вероятностью ошибиться a. При противоположном неравенстве ряд признается центрированным с вероятностью 1-a правильности этого решения.

Для составления статистики g найдем среднее значение и среднеквадратическое отклонение остаточного ряда:





 

и затем определим  саму статистику g:





 

 

Найдем 100a/2-процентную точку w100a/2  t-распределения с N-1` степенями свободы:



 

 

В результате получаем неравенство  вида:



 

по которому можно сказать, что остаточный ряд признается центрированным, с вероятностью 1-a правильности этого решения.

Проверка независимости уровней остаточного ряда преследует цель подтвердить отсутствие систематической составляющей в составе ряда и проводится с применением критерия Дарбина-Уотсона. В соответствии с этим критерием вычисляется величина

d= @ 2(1- )=2(1-R),

где R – так называемый коэффициент автокорреляции первого порядка. Величина d следующим образом подвергается анализу. Прежде всего, если окажется d>2, то заменяют d на d*=4-d и последующая работа ведется с d* по тому же алгоритму, что и с d.  В рассмотрение вводятся два порога: нижний d1 и верхний d2. Значения этих порогов определяются объемом выборки n, сложностью модели тренда m, уровнем значимости a и при a=0.05 систематизированы в табл. П1.1.

                                                                                                   Таблица П1.1

      m

    

          m=1

     

      m=2

     

      m=3

    

       m=4

    

       m=5

Объем выборки n

dd1

dd2

dd1

dd2

dd1

dd2

dd1

dd2

dd1

dd2

     15

11.08

11.36

00.95

11.54

00.82

11.75

00.69

11.97

00.56

22.21

     20

11.20

11.41

11.10

11.54

11.00

11.68

00.90

11.83

00.79

11.99

     30

11.35

11.49

11.28

11.57

11.21

11.65

11.14

11.74

11.07

11.83

     50

11.50

11.59

11.46

11.63

11.42

11.67

11.38

11.72

11.34

11.47

   100                      

11.65

11.69

11.63

11.72

11.61

11.71

11.59

11.76

11.57

11.78


 

Если d (или d*)Î(0,d1), то это является признаком сильной автокоррелированности элементов остаточного ряда и предполагаемая модель регрессии признается неадекватной. Если d(d*)Î(d2,2), то элементы остаточного ряда классифицируются как независимые, а модель регрессии – адекватной. При d(d*)Î(d1,d2) однозначный вывод не делается, и применяют дополнительные методы исследования.

Вычислим величину d:







Следовательно, замену производить нет необходимости



 

 

 

 

 

Таблица П1.1 не содержит значений d1 и d2 для нашего объема выборки n=10. Воспользуемся Интернет-ресурсами и найдем более «расширенную» таблицу значений (Таблица1).

 

 

 

 

 

 

Таблица1

 

Из таблицы1 находим  пороговые значения d1 и d2, при m=2, n=10:





 

В нашем случае dÎ(d1,d2). При таком раскладе однозначный вывод о поведении элементов остаточного ряда и модели регрессии не делается и применяют дополнительные методы исследования.

Дополнительный анализ проводят с использованием корреляционной функции r(q) остаточного ряда, которую определяют следующим образом:

r(q)= .

Значение этой функции R=r(1), называемое коэффициентом автокорреляции, встречалось выше при формировании критерия Дарбина–Уотсона, и оно же используется для анализа независимости. Величина R сравнивается с порогом g, зависящим от объема выборки и доверительной вероятности. При уровне значимости 0.05 (доверительной вероятности 0.95) значения порога содержатся в табл. П1.2.

                                                                                                 Таблица П1.2

Объем выборки n

10

15

20

25

30

Порог g

0.360

0.328

0.300

0.276

0.257


 

Если окажется R>g, то принимается решение о существенной корреляции элементов остаточного ряда и, следовательно, о неадекватности модели тренда.

Найдем значение коэффициентом  автокорреляции:





 

 

 

 

 

Из таблицы П1.2 возьмем значение g, для объема выборки n=10:



 

Т. к. R<gpor, то принимается решение о несущественной корреляции элементов остаточного ряда и об адекватности модели.

Проверка на нормальное распределение остаточного ряда может проводиться многочисленными методами, разработанными в математической статистике. Остановимся на двух из них, полагая, что предыдущие тесты по анализу случайности, центрированности и независимости дали положительные результаты.

Распространенным методом  проверки гипотезы о нормальном распределении является c2-критерий Пирсона. В данной работе этот метод применить невозможно в связи с недостаточным объемом выборки.

Более простым, хотя и менее обоснованным, является метод асимметрии и эксцесса. Его сущность такова.

По экспериментальным  данным (остаточному ряду) строятся эмпирические коэффициенты асимметрии Ка и эксцесса Кэ:

Ка= ,  Кэ=

Если эти коэффициенты близки к нулю, то появляются основания считать остаточный ряд гауссовским. Для усиления этих оснований вычисляются среднеквадратические отклонения коэффициентов:

sа= , sэ= .

Если |Ка|£1.5sа, | Кэ|£1.5sэ, то считают, что распределение остаточного ряда не противоречит гипотезе о нормальном распределении. Если хотя бы один из коэффициентов оказывается больше двух среднеквадратических отклонений, гипотеза о нормальности отвергается.

Важной характеристикой модели является ее точность. Существуют различные определения этого понятия. Достаточно распространенной и простой мерой точности является относительная ошибка

eотн= 100%.

Если окажется  eотн<15%, то точность признается достаточной.

Найдем значения коэффициентов  асимметрии Ка и эксцесса Кэ:









 

 

 

 

 

 

 

 

Вычислим среднеквадратические отклонения этих коэффициентов:









 

 

 

 

Теперь проверим выполнение неравенств:













Неравенства выполняются, поэтому можно считать, что распределение остаточного ряда не противоречит гипотезе о нормальном распределении.

Информация о работе Построение и исследование регрессионных моделей