РАЗДЕЛ
1 Л. МЕТОДИЧЕСКИЕ УКАЗАНИЯ
Парная регрессия — уравнение связи двух переменных у и х:
где у — зависимая переменная (результативный признак); х — независимая, объясняющая переменная (признак-фактор).
Различают линейные и нелинейные регрессии.
Линейная регрессия: у = а + Ь • х + Е.
Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нели- нейные по оцениваемым параметрам.
Регрессии, нелинейные по объясняющим переменным:
• полиномы разных степеней у =a+bl • х + b2 • х 2 +b3 • х з +8;
• равносторонняя гипербола у = а + — + е.
х
Регрессии, нелинейные по оцениваемым параметрам:
• степенная •е;
• показательная у = а.» • е; а+Ьх
• экспоненциальная у = е
Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метоД наименьших кваДратов (МНЮ. МНК позволяет получить такие (Щени параметров, при которых сумма квадратов отклонений фактических значений результативного признака у от теоретических минимальна, т.е.
5
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и Ь:
=Еух.
Можно воспользоваться готовыми формулами, которые вытекают из этой системы:
cov(x,y) _ у, х— у •i
2 —2
Тесноту связи изучаемых явлений оценивает линейный коэффичиент парной корреляции rxy для линейной регрессии (—l < rxy < 1):
б cov(x,y) _ ух— Г • 7
rxy = =
6х6 у 6х0у
и инДекс корреляции р», — для нелинейной регрессии (0 Spxy S 1):
ЕО-Јх)2 ЕО-г)2 |
Рху
Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации.
Средняя ошибка аппроксимации — среднее отклонение расчетных значений от фактических:
|
Допустимый предел значений А — не более 8 — 1094.
СреДний коэффициент эластичности Э показывает, на сколько
процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора х на 1 0/0 от своего среднеш значения:
Задача Дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
цу -у) 2 = цјх -у) 2 +Цу-јх) 2 ,
|
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (инДекс) Детерминации R .
Коэффициент детерминации — квадрат коэффициента или индекса корреляции.
F-mecm — оценивание качества уравнения регрессии — состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты СВЯЗИ. Для этого выполняется сравнение фактического и критического (табличного) зна- чений Е-критерия Фишера. определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
Ефакт =
где п — число единиц совокупности; т — число параметров при переменных х.
— это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а — вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01.
Если < , то Но — гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если > то гипотеза Но не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии.
7
Для ОЦеНКИ статистической значимости коэффициентов регрессии и корреляции рассчитываются г-критерий СтьюДента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Но о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью г-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
а
а
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
|
|
ост
по х
rxy
Сравнивая фактическое и критическое (табличное) значения т-статистики — и — принимаем или отвергаем гипотезу Но.
Связь между Е-критерием Фишера и т-статистикой Стьюдента выражается равенством
Если < Тфакт, то Но отклоняется, т.е. а, Ь и г». не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора х. Если > Тфит, то гипотеза Но не отклоняется и признается случайная природа формирования а, Ь или rxy.
Для расчета доверительного интервала определяем предельную ошибку д для каждого показателя:
Да = ГтаблТа Дь = ГтаблТЬ•
Формулы для расчета Доверительных интералов имеют следующий вид:
Уа = а— Да min тах min тах
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения.
Прогнозное значение ур определяется путем подстановки в уравнение регрессии ух = а + Ь. х соответствующего (прогнозного) значения хр. Вычисляется среДняя станДартная ошибка прогноза
(х |
где б
и строится Доверительный интервал прогноза:
min тах
где Д А
1.2. РЕШЕНИЕ ТИПОВЫХ ЗАДАЧ
По семи территориям Уральского района за 199X г. известны значения двух признаков (табл. 1.1).
Таблица 1.1
Район |
Расходы на покупку продовольственных товаров в общих расходах, 0/0, у |
Среднедневная зарабтная плата одного работающего, руб., х |
Удмуртская респ. |
68,8 |
45,1 |
Свердловская обл. |
61,2 |
59,0 |
Башкортостан |
59,9 |
57,2 |
Челябинская обл. |
56,7 |
61,8 |
Пермская обл. |
55,0 |
58,8 |
Курганская обл. |
54,3 |
47,2 |
Оренбургская обл. |
49,3 |
55,2 |
Требуется.
1. Для характеристики зависимости у от х рассчитать параметры следующих функций:
а) линейной;
б) степенной;
в) показательной;
г) равносторонней гиперболы.
2. Оценить каждую модель через среднюю ошибку аппроксимации А и Е-критерий Фишера.
1а. Для расчета параметров а и Ь лине й ной регрессии y=a+b• х решаем систему нормальных уравнений относительно а и Ь:
По исходным данным рассчитываем Бу, Ъ, Еух, 2х2 , ЕВ.
Таблица 1 .2
|
|
|
|
|
|
|
У — Ух |
|
|
68,8 |
45,1 |
з 102,88 |
2034,01 |
47 З З |
61.3 |
7,5 |
10,9 |
2 |
61,2 |
59,0 |
3610,80 |
3481 |
3745,44 |
56,5 |
|
|
З |
59,9 |
57,2 |
3426,28 |
3271,84 |
3588,01 |
57,1 |
2,8 |
|
4 |
56,7 |
61,8 |
3504,06 |
3819,24 |
3214,89 |
55,5 |
|
|
5 |
55,0 |
58,8 |
3234,00 |
3457,44 |
3025,00 |
56,5 |
-1,5 |
|
6 |
54,3 |
47,2 |
2562,96 |
2227,84 |
2948,49 |
60,5 |
|
ll,4 |
7 |
49,3 |
55,2 |
272 1,36 |
3047,04 |
2430,49 |
57,8 |
-8,5 |
17,2 |
Итого |
405,2 |
384,3 |
22 162,34 |
21338,4! |
23685,76 |
405,2 |
|
56,7 |
Среднее значение |
57,89 |
54,90 |
з 166,05 |
3048,34 |
3383,68 |
х |
х |
|
|
5,74 |
5,86 |
х |
х |
х |
х |
х |
х |
6' |
32,92 |
34,34 |
х |
х |
х |
х |
х |
|
3166,05 - 57,89 • 54,9
—0,35,
5,862
Уравнение регрессии: = 76,88 — 0,35 • х. С увеличением среднедневной заработной платы на руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,35 %-ных пункта. Рассчитаем линейный коэффициент парной корреляции:
—0,35 = -0,357. 5,74
Связь умеренная, обратная.
Определим коэффициент детерминации:
= 0,127.
Вариация результата на 12,70/0 объясняется вариацией фактора х.
Подставляя в уравнение регрессии фактические значения х, определим теоретические (расчетные) значения Л.. Найдем величину средней ошибки аппроксимации А :
56,7.lOWh
7
В среднем расчетные значения отклоняются от фактических на 8,170.
Рассчитаем вкритерий:
0,127 факт — 0,873
поскольку 1 S 00, следует рассмотреть F
Полученное значение указывает на необходимость принять гипотезу Но о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.
16. Построению степ ен ной модели у = а • х ь предшествует процедура линеаризации переменных. В примере линеаризация производится путем логарифмирования обеих частей уравнения:
У=С+Ь.Х, где У: lg у, Х = lg х, С = lg а.
Для расчетов используем данные табл. 1 3
Таблица 1.3
|
|
|
|
|
|
|
У- Ух |
|
|
|
,8376 |
,6542 |
3,0398 |
3,3768 |
2,7364 |
61,0 |
|
60,8 |
11,3 |
2 |
|
|
3.1642 |
3,1927 |
3,1361 |
56,3 |
|
24,0 |
|
З |
, 7774 |
l,7574 |
з. 1236 |
3,1592 |
3,0885 |
56,8 |
|
|
5,2 |
4 |
1,7536 |
1,7910 |
3.1407 |
3,0751 |
3.2077 |
55,5 |
1,2 |
|
|
5 |
,7404 |
,3694 |
3,0795 |
3,0290 |
3,1308 |
56,3 |
-1,3 |
1.7 |
|
6 |
[,7.348 |
„6739 |
2.9039 |
3,0095 |
2,8019 |
60,2 |
-5,9 |
34,8 |
|
7 |
,6928 |
1,7419 |
2,9487 |
2,8656 |
3,0342 |
57.4 |
|
65,6 |
16,4 |
Ито- |
12,3234 |
12,1587 |
21,4003 |
21,7078 |
21,1355 |
403.5 |
|
197,9 |
56,3 |
сред- значе |
1,7605 |
,7370 |
3,0572 |
злоп |
3,0194 |
х |
х |
28,27 |
|
о |
0,0425 |
0,0484 |
х |
х |
х |
х |
х |
х |
х |
02 |
0,0018 |
0,0023 |
|
х |
х |
х |
х |
х |
|
Рассчитаем С и Ь:
У.Х-Г.Х 3,0572 1,7605 • 1,7370
—0,298;
ох 0,04842
С = 2,278.
Получим линейное уравнение: = 2,278—0,298, Х.
Выполнив его потенцирование, получим: 9=102,278 -0,298 = 189,7.х—0,298
Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата . По ним рассчитаем показатели: тесноты связн — индекс корреляции р ху и среднюю ошибку аппроксимации А, :
|
|
рху —= 0,3758, 7 = 8,070.
Характеристики степенной модели указывают, что она несколько лучше линейной функции описывает взаимосвязь. 1в. Построению уравнения пок аз ател ь ной кривой предшествует процедура линеаризации переменных при логарифмировании обеих частей уравнения:
lgy= lga+x•lgb;
У=С+В.х,
Для расчетов используем данные табл. 1.4.
Таблица 1.4
|
|
х |
Ух |
|
ха |
|
|
|
|
|
,8.376 |
45.1 |
82.8758 |
3.3768 |
2034,01 |
60,7 |
|
65,61 |
1 1,8 |
2 |
,7868 |
59.0 |
105,4212 |
3,1927 |
3481,00 |
56,4 |
4,8 |
23,04 |
|
З |
,7774 |
57,2 |
101,6673 |
з, 1 592 |
3271,84 |
56.9 |
|
9,00 |
|
4 |
1,7536 |
6l,8 |
l08,3725 |
3,0751 |
3819.24 |
55,5 |
|
1,44 |
|
5 |
,7404 |
58,8 |
102,3355 |
3,0290 |
3457,44 |
56,4 |
|
|
|
6 |
1.7348 |
47,2 |
|
3,0095 |
2227,84 |
60,0 |
-5,7 |
32,49 |
|
7 |
,6928 |
55,2 |
93.4426 |
2,8656 |
|
57,5 |
-8,2 |
67,24 |
16,6 |
ито- |
|
384,3 |
675,9974 |
21,7078 |
213.38.41 |
403,4 |
-1,8 |
200.78 |
56,3 |
сред- значе нис |
1,7605 |
54,9 |
|
3,lOll |
3048.34 |
х |
х |
28,68 |
|
|
0,0425 |
5,86 |
х |
|
х |
|
х |
х |
х |
|
0,0018 |
34.3396 |
х |
х |
х |
|
х |
х |
х |
Значения параметров регрессии А и В составили:
—0,0023, 02х 5,862
А = У - В.? = = 1,887.
л
Получено линейное уравнение: У = 1,887 -- 0,0023- х.
Произведем потенцирование полученного уравнения и запишем его в обычной форме:
1,887 10-0,0023х = 77,1 • 0,9947 Х .
1- |
2 |
2 ЕО-У) |
28,27 1 - 32,92 |
Тесноту связи оценим через индекс корреляции рху . р ху-= 0,3589.
Связь умеренная.
А = 8,070 , что говорит о повышенной ошибке аппроксимации, но в допустимых пределах. Показательная функция чуть хуже, чем степенная, она описывает изучаемую зависимость.
линеаризуется при замене: = — . Тогда у——a+b•z.
х
Для расчетов используем данные табл. 1.5.
Таблица 1.5
|
|
|
|
(2 |
|
ух |
y-ir |
(у-9х)2 |
|
|
68,8 |
0,0222 |
1,5255 |
0,000492 |
4733,44 |
61,8 |
|
49,00 |
10,2 |
2 |
61,2 |
0,0169 |
„0373 |
0,000287 |
3745,44 |
56,3 |
|
24,01 |
|
з |
59,9 |
0,0175 |
|
0,000306 |
3588,01 |
56,9 |
|
9,00 |
|
4 |
56,7 |
0,0162 |
0,9175 |
0,000262 |
32l4,89 |
55,5 |
|
1,44 |
2.1 |
5 |
55 |
0,0170 |
0,9354 |
0,000289 |
3025,00 |
56,4 |
—1,4 |
|
|
6 |
54,3 |
0,0212 |
|
0,000449 |
2948,49 |
60,8 |
—6,5 |
42,25 |
|
7 |
49,3 |
0,0181 |
0,8931 |
0,000328 |
2430,49 |
57,5 |
|
67,24 |
16,6 |
ито- |
405,2 |
0,1291 |
7,5064 |
0,00241.3 |
23685,76 |
405,2 |
|
194,90 |
56,5 |
Сред- значение |
57,9 |
0,0184 |
10723 |
0,000345 |
3383,68 |
х |
х |
27,84 |
|
|
5,74 |
0002145 |
х |
х |
х |
х |
х |
х |
х |
02 |
32,9476 |
0,000005 |
х |
х |
|
х |
х |
х |
х |
Значения параметров регрессии а и Ь составили:
= 38,5;
1051,4.
Получено уравнение: = 38,5+ 1051,4 — х
27 1 - |
32,92 |
Индекс корреляции: рху —= 0,3944.
А = 8,170 . По уравнению равносторонней гиперболы получена наибольшая оценка тесноты связи: р ху = 0,3944 (по сравнению с
линейной, степенной и показательной регрессиями). А остается на допустимом уровне:
n-m-1 0,1555
2. факт• 5 = 0,92, 0,8445
где -6,6 > а = 0,05.
Следовательно, принимается гипотеза Но о статистически незначимых параметрах этого уравнения. Этот результат можно объясннть сравнительно невысокой теснотой выявленной зависнмости и небольшнм числом наблюдений.
По территориям региона приводятся данные за 199Х г. (табл. 1.6).
Номер региона |
Среднедушевой прожнточный минимум в день одного трудоспособного, руб., х |
Среднедневная заработная плата, руб., У |
1 |
78 |
ВЗ |
2 |
82 |
148 |
З |
87 |
134 |
4 |
79 |
154 |
5 |
89 |
162 |
6 |
|
195 |
7 |
67 |
139 |
8 |
88 |
158 |
9 |
73 |
152 |
10 |
87 |
162 |
|
76 |
159 |
12 |
115 |
173 |
Требуется
1. Построить линейное уравнение парной регрессии у от х.
2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.
З. Оценить статистическую значимость параметров регрессии и корреляции.
© ООО «Знанио»
С вами с 2009 года.