Проблема мультиколлинеарности в регрессионных моделях
Оценка 4.9

Проблема мультиколлинеарности в регрессионных моделях

Оценка 4.9
Лекции
pptx
19.02.2022
Проблема мультиколлинеарности в регрессионных моделях
Мультиколлинеарн в регресс. моделях.pptx

ЭКОНОМЕТРИКА Проблема мультиколлинеарности в регрессионных моделях

ЭКОНОМЕТРИКА Проблема мультиколлинеарности в регрессионных моделях

ЭКОНОМЕТРИКА

Проблема мультиколлинеарности в регрессионных моделях

Что мы знаем: Спецификация эконометрической модели

Что мы знаем: Спецификация эконометрической модели

Что мы знаем:

Спецификация эконометрической модели
Сбор исходной информации
Вычислительный этап:
Оценка параметров модели (теорема Гаусса-Маркова)
4. Анализ полученных результатов:
4.1. Тестирование качества спецификации модели
(коэффициент R2, F-тест, проверка H0: ai=0)

4.2 Исследование модели на мультиколлинеарность

Понятие мультиколлинеарности Одно из условий возможности применения

Понятие мультиколлинеарности Одно из условий возможности применения

Понятие мультиколлинеарности

Одно из условий возможности применения МНК – это матрица X должна иметь полный ранг
Это означает, что все столбцы матрицы коэффициентов системы уравнений наблюдений должны быть линейно-независимыми
Данное условие математически можно записать так:

где: k – число столбцов матрицы Х (Количество регрессоров в модели +1)
Если среди столбцов матрицы Х имеются линейно-зависимые, то rank(X)Тогда по свойству определителей

(9.1)

(9.2)

Понятие мультиколлинеарности Условие (9

Понятие мультиколлинеарности Условие (9

Понятие мультиколлинеарности

Условие (9.2) приводит к тому, что матрица (XTX)-1 не существует
Следовательно, нет возможности воспользоваться процедурами, сформулированными в теореме Гаусса-Маркова, для оценки параметров модели и их ковариационной матрицы

Если, регрессоры в модели связаны строгой функциональной зависимостью, то говорят о наличии полной (совершенной) мультиколинеарности

Последствия полной мультиколлинеарности

Последствия полной мультиколлинеарности

Последствия полной мультиколлинеарности

Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в эндогенную переменную по результатам наблюдений
Рассмотрим пример
Пусть спецификация модели имеет вид:

(9.3)

Предположим, что регрессоры x1 и x2 связаны между собой строгой линейной зависимостью:

(9.4)

Последствия полной мультиколлинеарности

Последствия полной мультиколлинеарности

Последствия полной мультиколлинеарности

Подставив (9.4) в (9.3), получим уравнение парной регрессии

Раскрыв скобки и приведя подобные, получим модель в виде:

(9.5)

Уравнение (9.5) можно записать в виде:

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Т.к в реальности мы имеем дело с данными, имеющими стохастический характер, то случай полной мультиколлинеарности на практике встречается крайне редко
На практике мы имеем дело с частичной мультиколлинеарностью

Частичная мультиколлинеарность характеризуется коэффициентами парной корреляции между регрессорами, которые так же носят стохастический характер и, по значениям которых судят о степени коррелированности
Для определения степени коррелированности строят матрицу взаимных корреляций регрессоров R={rij}, I,j=1,2,…,k

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Если между регрессорами имеется корреляционная связь, соответствующий коэффициент корреляции будет близок к единице rij≈1

Матрица (XTX)-1 будет иметь полный ранг, но близка к вырожденной, т.е det(XTX)-1≈0

В этом случае, формально можно получить оценки параметров модели, их точностные показатели, но все они будут неустойчивыми

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Последствия частичной мультиколлинеарности следующие:
- Увеличение дисперсий оценок параметров (снижение точности)
- Уменьшение значений t-статистик для параметров, что приводит к неправильному выводу о их статистической значимости

- Неустойчивость оценок МНК-параметров и их дисперсий
- Возможность получения неверного (с точки зрения теории) знака у оценки параметра

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Поясним это на примере
Пусть спецификация модели имеет вид:

Для такой модели значения дисперсий параметров и их ковариация может быть выражена через значение выборочного коэффициента корреляции следующим образом:

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Частичная мультиколлинеарность и ее последствия

Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют

В качестве признаков ее наличия используют следующие:

- Модуль парного коэффициента корреляции между регрессорами Хi и Xj больше 0.75

- Близость к нулю определителя матрицы (XTX)-1

- Большое количество статистически незначимых параметров в модели

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Коэффициент корреляции, очищенный от влияния других факторов, называется частным коэффициентом корреляции
Частный коэффициент корреляции определяет степень зависимости между двумя переменными без учета влияния на них других факторов

Рассмотрим пример. Пусть спецификация модели имеет вид:

(9.6)

Задача. Определить корреляцию между Y и X1, исключив влияние переменной X2

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Алгоритм решения заключается в следующем:

1. Строится регрессия Y на X2

2. Строится регрессия X1 на X2

3. Для удаления влияния X2 вычисляются остатки:

4. Значение частного коэффициента корреляции между переменными Y и X1 вычисляется по формуле:

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Частные коэффициенты корреляции могут быть вычислены по значениям парных коэффициентов

В общем случае связь между частными и обычными коэффициентами корреляции осуществляется следующим образом:

(9.7)

(9.8)

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Пример 1. Вычислить частный коэффициент корреляции r(Y,X1│X2) между переменными модели (9.6)
Пусть матрица R имеет вид:

Тогда частный коэффициент корреляции r(Y,X1│X2) вычисляется с помощью (9.7)

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Пример 2. В таблице приведены данные об объеме импорта Y (млрд.дол), ВНП X1 (млрд.дол) и индексе цен X2 в США за период 1964-1979 гг
Вычислить элементы матрицы взаимных корреляций модели:

Годы

Y

X1

X2

1964

28,4

635,7

92,9

1965

32,0

688,1

94,5

1966

37,7

753,0

97,2

1967

40,6

796,3

100,0

1968

47,7

868,5

104,2

1969

52,9

935,5

109,8

1970

58,5

982,4

116,3

1971

64,0

1063,4

121,3

1972

75,9

1171,1

125,4

1973

94,4

1306,6

133,1

1974

131,9

1412,9

137,7

1975

126,9

1528,8

161,2

1976

155,4

1702,2

170,5

1977

185,8

1899,5

181,5

1978

217,5

2127,6

195,4

1979

260,9

2368,5

217,4

Решение.
1. Вычисляем матрицу взаимных корреляций

 

Y

X1

X2

Y

1,0000

 

X1

0,9932

1,0000

X2

0,9885

0,9957

1,0000

2. Вычисляется обратная матрица

73,764

-76,936

3,689

-76,625

196,433

-119,845

3,379

-119,537

116,683

Вычисляется с помощью Excel, «Анализ данных)

Вычисляется с помощью Excel, «МОБР»

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Частные коэффициенты корреляции

Пример 2. (Продолжение)
3. Вычисляются оценки частных коэффициентов корреляции с помощью (9.8)

73,764

-76,936

3,689

-76,625

196,433

-119,845

3,379

-119,537

116,683

Обратная матрица R-1

Выражение (9.8)

Тогда:

Проверка гипотезы Н0: r(x1,x2│Y)=0

Методы устранения мультиколлинеарности

Методы устранения мультиколлинеарности

Методы устранения мультиколлинеарности

Метод дополнительных регрессий
Алгоритм метода заключается в следующем:
Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми оставшимися
2. Вычисляются коэффициенты детерминации R2 для каждого уравнения регрессии
3. Проверяется статистическая гипотеза H0: R2=0 с помощью F теста
Вывод: если гипотеза H0: R2=0 не отклоняется, значит данный регрессор не приводит к мультиколлинеарности

Основным методом устранения мультиколлинеарности заключается в исключении переменных
Существует несколько способов решения этой задачи

Методы устранения мультиколлинеарности

Методы устранения мультиколлинеарности

Методы устранения мультиколлинеарности

Пример. Рассмотрим предыдущую задачу и определим, приводит ли регрессор X1 к мультиколлинеарности

Годы

Y

X1

X2

1964

28,4

635,7

92,9

1965

32,0

688,1

94,5

1966

37,7

753,0

97,2

1967

40,6

796,3

100,0

1968

47,7

868,5

104,2

1969

52,9

935,5

109,8

1970

58,5

982,4

116,3

1971

64,0

1063,4

121,3

1972

75,9

1171,1

125,4

1973

94,4

1306,6

133,1

1974

131,9

1412,9

137,7

1975

126,9

1528,8

161,2

1976

155,4

1702,2

170,5

1977

185,8

1899,5

181,5

1978

217,5

2127,6

195,4

1979

260,9

2368,5

217,4

Исходные данные

ai

13,59

-568,32

si

0,34

47,35

R2

0,99

51,07

Fтест

1616,97

14,00

4217961

36519,9

Результаты расчета

Значение Fтест =1616.97 > Fкрит
Следовательно, гипотеза о равенстве нулю коэффициента детерминации отклоняется
Вывод: регрессор X1 вызовет в модели мультиколлинеарность

Методы устранения мультиколлинеарности 2

Методы устранения мультиколлинеарности 2

Методы устранения мультиколлинеарности

2. Метод последовательного присоединения
В отличие от рассмотренного, метод последовательного присоединения регрессоров позволяет выявить набор регрессоров, который ни только не приводит к мультиколлинеарности, но и обеспечивает наилучшее качество спецификации модели

Алгоритм метода следующий:
Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с эндогенной переменной
К выбранному регрессору последовательно в модель добавляется каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного R2

Метод последовательного присоединения 4

Метод последовательного присоединения 4

Метод последовательного присоединения

4. К паре выбранных регрессоров последовательно присоединяется третий из числа оставшихся Строятся модели, вычисляется скорректированный R2, добавляется тот регрессор, который обеспечивает наибольшее значение скорректированного R2

Процесс присоединения регрессоров прекращается, когда значение скорректированного R2 становится меньше достигнутого на предыдущем шаге

Замечание. Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы (XTX)-1, а, следовательно, к повышению качества оценок параметров модели

Методы устранения мультиколлинеарности

Методы устранения мультиколлинеарности

Методы устранения мультиколлинеарности

Пример 2.
Исследуется зависимость урожайности зерновых культур Y от следующих факторов производства:
X1 – число тракторов на 100га
X2 – число зерноуборочных комбайнов на 100га
X3 – Число орудий поверхностной обработки почвы на 100 га
X4 - количество удобрений, расходуемых на гектар (т/га)
X5 – количество химических средств защиты растений (т/га)

Пример 2. (Продолжение) Номер района

Пример 2. (Продолжение) Номер района

Пример 2. (Продолжение)

Номер района

Y

X1

X2

X3

X4

X5

1

9,70

1,59

0,26

2,05

0,32

0,14

2

8,40

0,34

0,28

0,46

0,59

0,66

3

9,00

2,53

0,31

2,46

0,30

0,31

4

9,90

4,63

0,40

6,44

0,43

0,59

5

9,60

2,16

0,26

2,16

0,39

0,16

6

8,60

0,30

2,69

0,32

0,17

7

12,50

0,68

0,29

0,73

0,42

0,23

8

7,60

0,35

0,26

0,42

0,21

0,08

9

8,90

0,52

0,24

0,49

0,20

10

13,50

3,42

0,31

3,02

1,37

0,73

11

9,70

1,78

0,30

3,19

0,73

0,17

12

10,70

2,40

0,32

3,30

0,25

0,14

13

12,20

9,36

0,40

11,51

0,39

0,38

14

9,70

1,72

0,28

2,26

0,82

0,17

15

7,00

0,59

0,29

0,60

0,13

0,35

16

7,20

0,28

0,26

0,30

0,09

0,15

17

8,20

1,64

0,29

1,44

0,20

0,08

18

8,40

0,09

0,22

0,05

0,43

0,2

19

13,10

0,08

0,25

0,03

0,73

20

8,70

1,36

0,26

0,17

0,99

0,42

Исходные данные

-2,72

4,12

0,17

9,05

0,01

5,43

3,05

1,53

0,82

21,26

0,92

5,36

0,49

1,58

#Н/Д

2,64

14

33

35

Результаты расчета

Видно: стандартные ошибки всех параметров модели, кроме a4, превосходят значения параметров
Вывод: Последнее обстоятельство может быть следствием мультиколлинеарности
Необходимо анализировать регрессоры

Пример 2. (Продолжение) Шаг 2.

Пример 2. (Продолжение) Шаг 2.

Пример 2. (Продолжение)

Шаг 2. Построение матрицы корреляций

 

Y

X1

X2

X3

X4

X5

Y

1

 

X1

0,42

1

X2

0,34

0,85

1

X3

0,4

0,98

0,88

1

X4

0,56

0,11

0,03

1

X5

0,29

0,34

0,46

0,28

0,57

1

Видно: наибольшую корреляцию эндогенная переменна Y имеет с X4
Вывод: в модель необходимо включить регрессор X4 и к нему присоединять остальные

Шаг 3. Рассматриваем следующие спецификации моделей:

Видно: Наибольший R2 в модели 3
Вывод: Продолжаем присоединение к модели 3  

 

X4,X1

X4,X2

X4,X3

X4,X5

R2

0,4113

0,3814

0,4232

0,272

Пример 2. (Продолжение) Шаг 4.

Пример 2. (Продолжение) Шаг 4.

Пример 2. (Продолжение)

Шаг 4. Рассматриваем следующие спецификации моделей:

 

X4,X1,X3

X4,X3,X2

X4,X3,X5

R2

0,3911

0,392

0,4169

Видно: наибольший коэффициент детерминации соответствует модели 3
Однако его значение меньше, чем было достигнуто ранее: R2=0,4232
Выводы:
1. Не имеет смысл рассматривать спецификацию 3.
2. Для построения следует принять спецификацию модели в виде:

Проблема мультиколлинеарности Выводы: 1

Проблема мультиколлинеарности Выводы: 1

Проблема мультиколлинеарности

Выводы:
1. Последствием мультиколлинеарности является потеря устойчивости вычисления оценок параметров модели
2. Наличие мультиколлинеарности приводит к завышенным значениям СКО оценок
3. Отсутствуют строгие критерии тестирования наличия мультиколлинеарности
4. Подозрением наличия мультиколлинеарности служит большое количество незначимых факторов в модели
5. Для устранения мультиколлинеарности необходимо удалить из спецификации модели факторы, ее вызывающие
6. Для получения спецификации модели, не имеющей мультиколлинеарности можно воспользоваться методом присоединения регрессоров или методом исключения регрессоров

Материалы на данной страницы взяты из открытых истончиков либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.
19.02.2022