Автор работы: Пользователь скрыл имя, 02 Декабря 2013 в 01:41, курсовая работа
У наш час великих обсягів інформації потрібен аналіз для того, щоб вірно оцінювати данні. Особливо це важливо в економіці, щоб знати чого очікувати, що змінюється,а без статистики просто глянути на таблиці і щось сказати неможливо так, як це дуже величезні масиви інформації про соціально-економічні явища і процеси.
Вступ 3
1. Постановка задачі 4
2. Теоретична частина 6
2.1 Проста лінійні регресійна модель 6
2.2 Багатофакторна модель 7
2.3 Етапи побудови багатофакторної регресійної моделі: 8
2.4 Мультиколініарність 13
2.5 Метод Фаррара-Глобера. 13
2.6 Гетероскедатичність 13
2.7 Тест Гольдфельда-Квандта 14
3. Розрахункова частина 16
3.1 Проста лінійна регресійна модель 16
3.1.1 Перевірка регресійної моделі на адеватність за допомогою коефіціента кореляціїї та критерію Фішера. 17
3.1.2Перервірка значущості коефіцієнтів 17
3.1.3 Інтервали довіри для , 18
3.1.4 Інтервал довіри для прогнозного значення 18
3.2 Багатофакторна регресійна модель 18
3.2.1 Матриця кореляції 19
3.2.2 Знаходження невідомих параметрів 19
3.2.3 Перевірка на адекватність багатофакторної регресійної моделі 21
3.2.4 Множинний коефіціет кореляції 21
3.2.5 Варіаційно-коваріаційна матриця параметрів багатофакторної регресійної моделі 22
3.2.6 Перевірка значущості коефіцієнтів побудованої багатофакторної регресії за допомогою критерію Стьюдента 22
3.2.7 Побудова інтервалів довіри для знайдених параметрів . 23
3.2.8 Знаходження прогнозованого значення і побудова інтервалів довіри для прогнозного значення та математичного сподівання. 23
3.3 Мультиколініарність 24
3.3.1Метод Фаррара-Глобера. 24
3.4Гетероскедатичність 24
3.5 Графічне представлення даних 26
Висновок 27
Література 29
Запишемо рівняння вибіркової
багатофакторної регресійної
[3] ,
де
,
- значення показника і-го
- значення факторів в і-ому спостережені;
- невідомі параметри нашої
багатофакторної регресійної
Тобто, маємо систему рівнянь:
[3]
Введемо далі наступні позначення:
, , , .
Тоді вище записана система буде мати вигляд:
.
Для знаходження невідомих будемо використовувати метод найменших квадратів, тобто будемо шукати із умови мінімуму суми квадратів відхилень:
.
Невідомі параметри будемо знаходити із системи рівнянь:
[3] .
Розв’язок цієї системи буде мати вигляд :
, де
- матриця, транспонована до
- матриця, обернена до матриці
Операції знаходження виконується у такому порядку:
1.
2.
3.
4.
Після отримання багатофакторної моделі потрібно перевірити її на адекватність.
Будемо використовувати критерій Фішера. Розглянемо нульову гіпотезу: проти альтернативної: .
Якщо не виконується нульова гіпотеза, то виконується альтернативна, що означає, що модель адекватна.
Для цього будуємо F статистику Фішера з m i (n-m-1) ступенями вільності
[3]
Задаємо рівень значущості і по таблицям розподілу критичних точок Фішера знаходимо . Якщо виконується умова, що > , то буде виконуватись гіпотеза Н1 , тобто модель буде адекватна спостережуваним даним.
Але цього не достатьно і потрібно ще перевірити ступень відповідності данних регресивної моделі.
Корисною мірою ступеня відповідності даних одержаних з регресійної моделі, фактичним даним є коефіцієнт множинної кореляції . Коефіцієнт множинної кореляції визначається, як коефіцієнт кореляції між змінними і . Тобто:
., де ,
- коефіцієнт коваріації між і ,
- дисперсія змінної ,
- дисперсія змінної .
Позитивне значення свідчить про прямий зв'язок, а негативне про зворотній.
Значення коефіцієнту лежить в межах . Якщо значення коефіцієнта кореляції близьке до нуля, то статистичний зв'язок між і відсутній. На практиці будемо вважати, що якщо - то статистичний зв'язок відсутній. А якщо значення коефіцієнта близьке до 1 , то вважається, що вплив є значним.
Отже, після знаходження
множинного коефіціента побудуємо
варіаційно-коваріаційної
Застосування теорії матриць дозволяє знайти не тільки дисперсію параметрів множинної регресії, а й визначити коваріацію між їх попарними значеннями. Таким чином дисперсійно-коваріаційна матриця записується у вигляді:
, в матричному вигляді вона має вид:
Також відомо, що може бути обчислена за формулою:
.
- це є дисперсія випадкової величини : .
Оцінку будемо робити за допомогою величини:
.
, або це можна знайти за формулою:
.
Таким чином в матричному вигляді:
Після чого можно перевірити значущості коефіцієнтів побудованої багатофакторної регресії.
Для цього викоритсаємо критерій
Стьюдента. Для перевірки на значущість
вводимо в розгляд дві
, .
Для перевірки нульової гіпотези будується так звана статистика:
.
Задаємо рівень значущості і по табличним значенням розподілу критичних точок Стьюдента знаходимо: .
Якщо виконується умова, що , то нульова гіпотеза не виконується, таким чином відповідний параметр побудованої моделі є значимим.
Тепер можно побудувати інтервали довіри для знайдених параметрів . Він обчислюється за формулою:
Пісял цього можно побудвати інтервал довіри ля прогнозного значення на наступний рік.
Якщо побудована регресійна модель є адекватною, а це можна перевірити за допомогою критерія Фішера, то можна знаходити прогнозне значення залежної змінної . Нехай нам відомі значення -період. Тоді прогнозне значення нашого показника в цей період дорівнює:
. З іншого боку , де .
Таким чином точечну оцінку прогнозного значення можна знаходити за цими формулами. Для більшої достовірності використовують інтервальні оцінки (як для так і для )
Відомо, що дисперсія для прогнозного значення буде обчислюватися за формулою:
.
Інтервал довіри для індивідуального значення має вигляд:
Інтервал довіри для математичного сподівання індивідуального значення має вигляд:
, де
При побудові структури регресії з одного боку потрібно включити в регресію всі фактори які мають суттєвий статистичний вплив на показник, а з іншого боку повинна бути виконана умова лінійної незалежності між факторами, якщо існує лінійна залежність хоча б між двома факторами, то кажуть, що в системі присутнє явище мультиколінеарності. Якщо між факторами і існує лінійна залежність то кажуть, що між цими факторами присутня строга мультиколінеарність. Враховуючи той факт, що фактори і - є випадковими величинами, то між ними існує приблизна лінійна залежність: , - деяке відхилення. В таких випадках кажуть, що між факторами існує нестрога мультиколінеарність. Якщо мультиколінеарність нестрога, то одержані оцінки регресії малонадійні. В цьому випадку незначні зміни вхідних даних приводять до значних змін оцінок параметрів.
Для дослідження загальної
мультиколінеарності і
- кореляційна матриця елементами якого є , де - це коефіцієнти кореляції між та факторами, а також обернена матриця до матриці R.
Для дослідження загальної
мультиколінеарності
Потім задається рівень значущості і для ступенів знаходимо табличне значення, яке залежить від і - .
Якщо виконується умова то можна стверджувати, що в системі присутнє явище мультиколінеарності.
Одним із основних припущень моделі класичної лінійної регресії є припущення про сталість дисперсії випадкової величини .
Якщо це припущення не задовольняється в деякому окремому випадку, тобто
,
то кажуть, що має
місце явище гетероскедастичнос
Суть припущення гетероскедастичності полягає в тому, що дисперсія випадкової величини навколо її математичного сподівання є величиною сталою і не залежить від значення .
Цей тест застосовується до великих вибірок, для яких спостережень має бути хоча б вдвічі більше, ніж оцінюваних параметрів.
Тест припускає нормальний розподіл та незалежність випадкової величини .
Для застосування тесту сформулюємо нульову та альтернативну гіпотези:
- полягає в тому, що є гомоскедастичною.
- полягає в тому, що є гетероскедастична величина зі зростаючою дисперсією.
Тест складається з декількох етапів:
Етап І:
Ранжуємо спостереження незалежної змінної в порядку зростання. У разі багатофакторної регресії, коли ми маємо більше ніж одну незалежну змінну, обираємо одну з них і для неї проводимо ранжування.
Якщо важко апріорі визначити змінну для ранжування, то по черзі проводимо ранжування за кожною змінною і в кожному випадку застосовуємо тест Гольдфельда-Квандта.
Етап ІІ:
Задаємо величину - кількість центральних спостережень за незалежною змінною , які ми будемо виключати з подальшого аналізу: .
Залишок (n-C) спостережень ділиться на 2 рівні підвибірки однакового розміру , одна з яких включає малі значення x , інша – великі.
Етап ІІІ:
Будуємо окремо регресію для кожної підвибірки і розраховуємо суму квадратів залишків. В результаті отримаємо:
Сума квадратів залишків для підвибірки з малими значеннями х:
Сума квадратів залишків для підвибірки з великими значеннями х:
Для обох сум кількість ступенів вільностей , де k- кількість параметрів нашої моделі. Якщо кожну з цих сум поділити на кількість ступенів вільності, то отримаємо оцінки дисперсії величини у двох підвибірках. Обчислюємо значення відношення двох дисперсій: . Ця величина має розподіл Фішера з ступенями вільності k та k , де k = k = .
Якщо 2-і дисперсії рівні, то F=1. Якщо F 1, то для заданого рівня значущості шукаємо табл. Значення розподілу Фішера, тобто . Якщо виконується умова, що F> , то це означає, що не виконується, тобто моделі присутнє явище гетероскедостичності і навпаки.
Для побудови простої регресійної моделі між і виду [1] . За ми візьмемо строку « Усього », а за - « Випуск (в основних цінах)» (табл.1).
Табл.1
2000 |
2001 |
2002 |
2003 |
2004 |
2005 |
2006 |
2007 |
2008 | |
Ресурси | |||||||||
Випуск (в основних цінах) |
373893 |
460520 |
504008 |
603704 |
809988 |
995630 |
1182179 |
1565055 |
2072172 |
Податки за виключенням субсидій на продукти |
25808 |
23700 |
24616 |
27127 |
32067 |
52851 |
70030 |
85937 |
123880 |
Усього |
399701 |
484220 |
528624 |
630831 |
842055 |
1048481 |
1252209 |
1650992 |
2196052 |
Використання | |||||||||
Проміжне споживання |
229631 |
280030 |
302814 |
363487 |
496942 |
607029 |
708056 |
930261 |
1247996 |
Валовий внутрішній продукт (у ринкових цінах) |
170070 |
204190 |
225810 |
267344 |
345113 |
441452 |
544153 |
720731 |
948056 |
Усього |
399701 |
484220 |
528624 |
630831 |
842055 |
1048481 |
1252209 |
1650992 |
2196052 |
Споживання основного капіталу |
–30223 |
–34303 |
–36160 |
–38885 |
–46576 |
–50545 |
–58265 |
–73071 |
–87914 |
Чистий внутрішній продукт |
139847 |
169887 |
189650 |
228459 |
298537 |
390907 |
485888 |
647660 |
860142 |
Для скорочення зробимо заміну 2000 р. на 1, 2001 р. на 2 … 2008 р. на 9. Скомпонуємо данні у більш зручну таблицю (табл.2), та додамо необхідні нам у розрахунках стовпчики ( , ) та рядки й
Табл.2
N |
||||
1 |
399701 |
373893 |
139795975449 |
149445405993 |
2 |
484220 |
460520 |
212078670400 |
222992994400 |
3 |
528624 |
504008 |
254024064064 |
266430724992 |
4 |
630831 |
603704 |
364458519616 |
380835198024 |
5 |
842055 |
809988 |
656080560144 |
682054445340 |
6 |
1048481 |
995630 |
991279096900 |
1043899138030 |
7 |
1252209 |
1182179 |
1397547188041 |
1480335183411 |
8 |
1650992 |
1565055 |
2449397153025 |
2583893284560 |
9 |
2196052 |
2072172 |
4293896797584 |
4550597464944 |
9 033 165,00 |
8567149 |
10758558025223 |
11360483839694 | |
1 003 685,00 |
951 905,44 |
1195395336135,89 |
1262275982188,22 |
Та знайдемо b1 та b0:
b0=183517,397226
b1=0,861606
Отже, розрахуємо коефіціент кореляціїї:
cov(x,y)= 306862766181
var(x)= 289271360972,91
var(y)= 325553794394,22
Гух= 0,999954169
Отже, розрахуємо критерій Фішера та перевіримо за допомогою цього критерія регресивну функцію на адекватність.