Спецификация модели. Отбор факторов при построений множественной регрессии. Предпосылки метода наименьших квадратов

Автор работы: Пользователь скрыл имя, 24 Марта 2012 в 12:22, контрольная работа

Описание работы

Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Например, при построении модели потребления того или иного товара от дохода исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Для того чтобы иметь правильное представление о влиянии дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов.

Файлы: 1 файл

Эконометрика контрольная.docx

— 242.98 Кб (Скачать файл)

 

Рис. 6а показывает, что для каждого значения хi распределения остатков εi одинаковы в отличие от рис. 6б, где диапазон варьирования остатков меняется с переходом от одного значения хi другому. Соответственно на рис. 6б демонстрируется неодинаковая дисперсия εi при разных значениях хi.

Наличие гомоскедастичности или гетероскедастичности можно видеть и по рассмотренному выше графику зависимости остатков εi от теоретических значений результативного признака . Так, для рис. 5 а зависимость остатков представлена на рис. 7.

Рис. 7. Гетероскедастичность: большая дисперсия εi

для больших  значений

 

Соответственно  для зависимости, изображенной на полях  корреляции рис. 5 б) и в), гетероскедастичность остатков представлена на рис. 8.

Для множественной  регрессии данный вид графиков является наиболее приемлемым визуальным способом изучения гомо-и гетероскедастичности.

Гетероскедастичность,                                      Гетероскедастичность,

соответствующая полю корреляции                  соответствующая полю корреляции

рис. 5 б)                                                                   рис. 5 в)

 

Рис. 8. Зависимость на полях корреляции

 

Наличие гетероскедастичности может в отдельных  случаях привести к смещенности  оценок коэффициентов регрессии, хотя несмещенность оценок коэффициентов  регрессии в основном зависит  от соблюдения второй предпосылки МНК, т. е. независимости остатков и величин факторов. Гетероскедастичность будет сказываться на уменьшении эффективности оценок bi. В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии тbi, предполагающей единую дисперсию остатков для любых значений фактора. Практически при нарушении гомоскедастичности мы имеем неравенства:

 

и можно  записать

 

При этом величина Кi может меняться при переходе от одного значения фактора хi к другому. Это означает, что сумма квадратов отклонений для зависимости

 

при наличии  гетероскедастичности должна иметь вид:

 

При минимизации  этой суммы квадратов отдельные  ее слагаемые взвешиваются: наблюдениям с наибольшей дисперсией придается пропорционально меньший вес. Вклад каждого сочетания xi с уi в сумму квадратов остатков должен быть дисконтирован, чтобы учесть систематическое влияние неоднородных элементов Кi.

Задача  в том, чтобы определить величину Кi и внести поправку в исходные переменные. С этой целью рекомендуется использовать обобщенный МНК, который эквивалентен обыкновенному МНК, примененному к преобразованным данным. Чтобы убедиться в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение.

 

При малом  объеме выборки, что наиболее характерно для эконометрических исследований, для оценки гетероскедастичности может использоваться метод Гольдфельда - Квандта, разработанный в 1965 г. Гольдфельд и Квандт рассмотрели однофакторную линейную модель, для которой дисперсия остатков возрастает пропорционально квадрату фактора. Чтобы оценить нарушение гомоскедастичности, они предложили параметрический тест, который включает в себя следующие шаги.

1. Упорядочение п наблюдений по мере возрастания переменной х.

2. Исключение из рассмотрения С центральных наблюдений; при этом (п - С): 2 > р, где р — число оцениваемых параметров.

3.  Разделение совокупности из (п — С) наблюдений на две группы (соответственно с малыми и большими значениями фактора х) и определение по каждой из групп уравнений регрессии.

4. Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R = Sl : S2.

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию с (n - С - 2р): 2 степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

При построении регрессионных моделей чрезвычайно  важно соблюдение четвертой предпосылки  МНК — отсутствие автокорреляции остатков, т.е. значения остатков εi распределены независимо друг от друга. Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Коэффициент корреляции между εi и εj, где εi - остатки текущих наблюдений, εj - остатки предыдущих наблюдений (например, j = i - 1), может быть определен как

 

т. е. по обычной  формуле линейного коэффициента корреляции. Если этот коэффициент окажется существенно отличным от нуля, то остатки автокоррелированы и функция плотности вероятности F(e) зависит от j-й точки наблюдения и от распределения значений остатков в других точках наблюдения.

Для регрессионных  моделей по статической информации автокорреляция остатков может быть подсчитана, если наблюдения упорядочены по фактору х.

Отсутствие  автокорреляции остаточных величин  обеспечивает состоятельность и эффективность оценок коэффициентов регрессии. Особенно актуально соблюдение данной предпосылки МНК при построении регрессионных моделей по рядам динамики, где ввиду наличия тенденции последующие уровни динамического ряда, как правило, зависят от своих предыдущих уровней.

Наряду  с предпосылками МНК как метода оценивания параметров регрессии при построении регрессионных моделей должны соблюдаться определенные требования относительно переменных, включаемых в модель. Они были рассмотрены ранее при решении проблемы отбора факторов. Это прежде всего требование относительно числа факторов модели по заданному объему наблюдений (отношение 1 к 6—7). Иначе параметры регрессии оказываются статистически незначимыми. В общем виде применение МНК возможно, если число наблюдений п превышает число оцениваемых параметров т, т. е. система нормальных уравнений имеет решение только тогда, когда п > т.

Чрезвычайно важным является и требование относительно матрицы исследуемых факторов. Она должна быть свободна от мультиколлинеарности. Во множественной регрессии предполагается, что матрица факторов представляет собой невырожденную матрицу, определитель которой отличен от нуля. Наличие мультиколлинеарности может исказить правильную экономическую интерпретацию параметров регрессии.

При несоблюдении основных предпосылок МНК приходится корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсии остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии. Этой цели служит и применение обобщенного метода наименьших квадратов.

Обобщенный метод наименьших квадратов

При нарушении  гомоскедастичности и наличии автокорреляции ошибок рекомендуется традиционный метод наименьших квадратов заменять обобщенным методом, т. е. методом GLS (Generalized Least Squares). Обобщенный метод наименьших квадратов применяется к преобразованным данным и позволяет получать оценки, которые обладают не только свойством несмещенности, но и имеют меньшие выборочные дисперсии. Остановимся на использовании обобщенного МНК для корректировки гетероскедастичности.

Будем предполагать, что среднее значение остаточных величин равно нулю. А вот дисперсия их не остается неизменной для разных значений фактора, а пропорциональна величине Ki, т. е.

 

где - дисперсия ошибки при конкретном i-м значении фактора;

- постоянная  дисперсия ошибки при соблюдении  предпосылки о гомоскедастичности остатков;

Ki - коэффициент пропорциональности, меняющийся с изменением величины фактора, что и обусловливает неоднородность дисперсии.

При этом предполагается, что  неизвестна, а в отношении величины К выдвигаются определенные гипотезы, характеризующие структуру гетероскедастичности.

В общем  виде для уравнения

модель примет вид:

В ней  остаточные величины гетероскедастичны. Предполагая в них отсутствие автокорреляции, можно перейти к уравнению с гомоскедастичными остатками, поделив все переменные, зафиксированные в ходе i-го наблюдения на . Тогда дисперсия остатков будет величиной постоянной, т. е. .

Иными словами, от регрессии у по х мы перейдем к регрессии на новых переменных: и . Уравнение регрессии примет вид:

.

Исходные  данные для данного уравнения  будут иметь вид:

,       

По отношению  к обычной регрессии уравнение  с новыми, преобразованными переменными представляет собой взвешенную регрессию, в которой переменные у и х взяты с весами .

Оценка  параметров нового уравнения с преобразованными переменными приводит к взвешенному  методу наименьших квадратов, для которого необходимо минимизировать сумму квадратов отклонений вида

.

Соответственно  получим следующую систему нормальных уравнений:

.

Если  преобразованные переменные х и у взять в отклонениях от средних уровней, то коэффициент регрессии b можно определить как

 

При обычном  применении метода наименьших квадратов  к уравнению линейной регрессии для переменных в отклонениях от средних уровней коэффициент регрессии b определяется по формуле

 

Как видно, при использовании обобщенного МНК с целью корректировки гетероскедастичности коэффициент регрессии b представляет собой взвешенную величину по отношению к обычному МНК с весами 1/К.

Аналогичный подход возможен не только для уравнения  парной, но и для множественной регрессии. Предположим, что рассматривается модель вида

,

для которой  дисперсия остаточных величин оказалась  пропорциональна 2, - представляет собой коэффициент пропорциональности, принимающий различные значения для соответствующих i значений факторов х1 и х2. Ввиду того, что

,

рассматриваемая модель примет вид

,

где ошибки гетероскедастичны.

Для того чтобы получить уравнение, где остатки  гомоскедастичны, перейдем к новым преобразованным переменным, разделив все члены исходного уравнения на коэффициент пропорциональности К. Уравнение с преобразованными переменными составит

,

Это уравнение  не содержит свободного члена. Вместе с тем, найдя переменные в новом преобразованном виде и применяя обычный МНК к ним, получим иную спецификацию модели:

.

Параметры такой модели зависят от концепции, принятой для коэффициента пропорциональности Кi. В эконометрических исследованиях довольно часто выдвигается гипотеза, что остатки пропорциональны значениям фактора. Так, если в уравнении

 

предположить, что E = ε · , т.е. К = и , то обобщенный МНК предполагает оценку параметров следующего трансформированного уравнения:

 

Если  предположить, что ошибки пропорциональны хр, то модель примет вид:

 

Применение  в этом случае обобщенного МНК  приводит к тому, что наблюдения с меньшими значениями преобразованных переменных х/К имеют при определении параметров регрессии относительно больший вес, чем с первоначальными переменными. Вместе с тем следует иметь в виду, что новые преобразованные переменные получают новое экономическое содержание и их регрессия имеет иной смысл, чем регрессия по исходным данным.

Переход к относительным величинам существенно  снижает вариацию фактора и соответственно уменьшает дисперсию ошибки. Он представляет собой наиболее простой случай учета гетероскедастичности в регрессионных моделях с помощью обобщенного MHК. Процесс перехода к относительным величинам может быть осложнен выдвижением иных гипотез о пропорциональности ошибок относительно включенных в модель факторов. Например, ln = ln + b · lnx + v, т. е. рассматривается характер взаимосвязи lnε2i от lnx. Использование той или иной гипотезы предполагает специальные исследования остаточных величин для соответствующих регрессионных моделей. Применение обобщенного МНК позволяет получить оценки параметров модели, обладающие меньшей дисперсией.


Информация о работе Спецификация модели. Отбор факторов при построений множественной регрессии. Предпосылки метода наименьших квадратов