lign=»left»>35,80068
11,21379 |
3,192557 |
0,015222 |
9,284272 |
62,31708 |
|||
X4 |
14,34018 |
3,210022 |
4,467316 |
0,00291 |
6,749686 |
21,93068 |
|
Значимыми остались третий и четвертый признаки и свободный коэффициент. Все остальные — незначимы. Поэтому исключим из списка первый признак, т.к. он имеет наименьшую t- статистику. Регрессия по трем признакам дала следующие результаты.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-20315,7 |
2882,317 |
-7,0484 |
0,000107 |
-26962,4 |
-13669,1 |
|
X2 |
361,947 |
551,2171 |
0,656632 |
0,529849 |
-909,162 |
1633,056 |
|
X3 |
35,66143 |
10,49777 |
3,397048 |
0,009401 |
11,45353 |
59,86933 |
|
X4 |
14,61332 |
2,716352 |
5,379757 |
0,000662 |
8,349395 |
20,87723 |
|
Незначимым является один коэффициент при X 2 , а остальные значимые. Исключим X2 и проведем регрессионный анализ.
Уравнение регрессии:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-20139,5 |
2777,626 |
-7,25062 |
4,81E-05 |
-26422,9 |
-13856,1 |
|
X3 |
33,55754 |
9,675783 |
3,468199 |
0,007069 |
11,6694 |
55,44568 |
|
X4 |
15,02285 |
2,558869 |
5,870896 |
0,000237 |
9,23429 |
20,81142 |
|
Все коэффициенты этого уравнения являются значимыми, и само уравнение, имея F н =60,43687 и Fк =3,096553, статистически значимо. Проанализируем показатели, содержащиеся в
Регрессионная статистика |
||
Множественный R |
0,964729 |
|
R-квадрат |
0,930702 |
|
Нормированный R-квадрат |
0,915302 |
|
Стандартная ошибка |
914,446 |
|
Наблюдения |
12 |
|
Высокие оценки множественного R, R 2 и нормированного R2 , а также небольшое значение стандартной ошибки свидетельствуют о хорошем качестве модели.
В результате регрессионного анализа для первого кластера была получена зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.
- Для второго кластера.
Матрица корреляции имеет вид и позволяет определить сильную связь результативного признака со вторым, четвертым и пятым независимыми компонентами. Более слабо Y коррелирует с третьим признаком, и имеет наименьшую корреляцию с первым признаком.
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
Y |
1 |
||||||
X1 |
0,398899 |
1 |
|||||
X2 |
0,918327 |
0,297061 |
1 |
||||
X3 |
-0,71313 |
-0,55619 |
-0,54937 |
1 |
|||
X4 |
0,992192 |
0,353451 |
0,921639 |
-0,7129 |
1 |
||
X5 |
0,938584 |
0,505718 |
0,931463 |
-0,71293 |
0,954758 |
1 |
|
Уравнение имеет вид: Y = -15061.1 + 324.353X 1 + 334.5X2 + 0.444X3 + 17.273X4 — 1.012X5
Определим значимость его коэффициентов по следующей таблице:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-15061,1 |
3029,784 |
-4,97102 |
0,038166 |
-28097,2 |
-2025 |
|
X1 |
324,3533 |
64,84276 |
5,002151 |
0,037719 |
45,35741 |
603,3492 |
|
X2 |
334,4999 |
102,3674 |
3,267639 |
0,082264 |
-105,952 |
774,9515 |
|
X3 |
0,443851 |
5,785511 |
0,076718 |
0,945832 |
-24,4492 |
25,3369 |
|
X4 |
17,27289 |
1,304104 |
13,24502 |
0,005652 |
11,66178 |
22,88399 |
|
X5 |
-1,01179 |
0,206824 |
-4,89202 |
0,039336 |
-1,90168 |
-0,12189 |
|
Коэффициенты признаков X 2 и X3 являются незначимыми, остальные — значимые. Уравнение в целом значимо, т.к. имеет наблюдаемую статистику 413,5413 и критическую 19,29641. Удалим из списка регрессоров третий признак, т.к. он имеет наименьшую t-статистику и снова построим уравнение регрессии.
Оно будет иметь вид: .
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-14872,1 |
1441,344 |
-10,3182 |
0,001942 |
-19459,1 |
-10285,1 |
|
X1 |
322,9254 |
50,79042 |
6,357998 |
0,007873 |
161,2876 |
484,5632 |
|
X2 |
337,5144 |
77,29317 |
4,366679 |
0,02221 |
91,53309 |
583,4958 |
|
X4 |
17,23049 |
0,965909 |
17,83864 |
0,000384 |
14,15654 |
20,30445 |
|
X5 |
-1,01345 |
0,168188 |
-6,02572 |
0,009162 |
-1,5487 |
-0,4782 |
|
Все коэффициенты уравнения являются значимыми. Уравнение регрессии тоже значимо, т.к. наблюдаемое значение F-статистики (773,1127) больше критического (9,117182).
Данная модель имеет хорошее качество, что можно проследить по следующей таблице:
Регрессионная статистика |
||
Множественный R |
0,999515 |
|
R-квадрат |
0,999031 |
|
Нормированный R-квадрат |
0,997739 |
|
Стандартная ошибка |
304,9263 |
|
Наблюдения |
8 |
|
В результате регрессионного анализа для второго кластера была получена линейная зависимость номинальной заработной платы от ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости продуктов питания и инвестиций в основной капитал, причем с последним признаком наблюдается обратная связь.
Если сравнивать полученные результаты регрессионного анализа по кластерам и по исходной совокупности данных, то можно сказать, что регрессия по первому кластеру схожа с регрессией по исходным признакам зависимостью от амбулаторно-поликлинических учреждений, а регрессия по второму кластеру — зависимостью от вложений в основной капитал.
РАЗДЕЛ 4.
1. Запишем модель дискриминантного анализа и предъявляемые к ней требования.
С помощью дискриминантного анализа на основании некоторых признаков изучаемый объект может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.
Ядром дискриминантного анализа является построение так называемой дискриминантной функции
d = b1х1+b2х2+… + bnхn+а,
где x1 и хn — значения переменных, соответствующих рассматриваемым случаям, онстанты b1-bn и a — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам [7, дискриминантный анализ].
2. Проведем дискриминантный анализ, взяв априорные данные из кластерного анализа, используя метод дальнего соседа. В результате кластеризации по этому методу, Ненецкий АО был выделен в отдельный кластер. Однако по дендрограмме можно проследить, что фактически регионы разбиваются на 2 различных кластера. Во второй кластер вошли следующие регионы: Коми, Архангельская, Мурманская, Вологодская, Новгородская, Липецкая области и город Москва. Остальные регионы образуют первый кластер. Требуется определить, к какой из двух групп относится каждый из оставшихся 65 регионов (включая Ненецкий АО), считая, что каждый регион относится только к одной группе.
Для вычисления выберем все пять исходных признаков.
Вычислим стандартизированные канонические коэффициенты дискриминантной функции:
Признак |
Функция |
|
X1 |
-,228 |
|
X2 |
,618 |
|
X3 |
1,092 |
|
X4 |
,226 |
|
X5 |
-,493 |
|
Стандартизированные коэффициенты показывают как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. Например, большой вклад в значение дискриминантной функции вносят переменные X2 (выбросы в атмосферу загрязняющих веществ) и X3 (обеспеченность амбулаторно-поликлиническими учреждениями).
Стандартизированные коэффициенты основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.
Вычислим нестандартизированные канонические коэффициенты дискриминантной функции:
Коэффициенты |
Функция |
|
X3 |
,751 |
|
X2 |
,429 |
|
X5 |
,327 |
|
X4 |
,226 |
|
X1 |
-,113 |
|
Нестандартизированные коэффициенты — это множители при заданных значениях переменных, входящих в дискриминантную функцию.
Таким образом, дискриминантная функция имеет вид:
D = -0.113 X1 + 0.429 X2 + 0.751 X3 + 0.226 X4 + 0.327 X5.
Проанализируем качество полученной функции. Для этого воспользуемся таблицей:
Собственные значения
Функция |
Собственное значение |
% вариации |
Суммарный % |
Каноническая корреляция |
|
1 |
3,802 |
100,0 |
100,0 |
,890 |
|
Большое собственное значение свидетельствует об удачно подобранной дискриминантной функции. Одна дискриминантная функция объясняет 100 % вариации признаков. Канонические корреляции являются показателями качества функции, т. е. чем больше эти показатели, тем выше разделительная способность функции. Значение канонической корреляции 0,89 указывает на достаточно хорошую разделительную способность полученной функции.
1. Укажем, к каким группам были отнесены классифицируемые объекты, и вероятности, с которыми объекты входят в эти группы. Все данные представлены в таблице:
Статистики наблюдений
№ объекта |
Фактическая группа |
Прогнозируемая группа |
Значение функции на объектах |
Вероятность вхождения в первую группу |
Вероятность вхождения во вторую группу |
|
1 |
. |
1 |
-2,75729 |
0,99999 |
0,00001 |
|
2 |
. |
1 |
-1,77633 |
0,99975 |
0,00025 |
|
3 |
. |
2 |
1,51082 |
0,01603 |
0,98397 |
|
4 |
. |
1 |
-2,52018 |
0,99998 |
0,00002 |
|
5 |
. |
1 |
-2,51226 |
0,99998 |
0,00002 |
|
6 |
. |
1 |
-0,55183 |
0,97493 |
0,02507 |
|
7 |
. |
1 |
-2,14422 |
0,99994 |
0,00006 |
|
8 |
. |
1 |
-2,16023 |
0,99994 |
0,00006 |
|
9 |
2 |
2 |
1,91364 |
0,00355 |
0,99645 |
|
10 |
1 |
1 |
-1,26623 |
0,99826 |
0,00174 |
|
11 |
1 |
1 |
-1,98948 |
0,99989 |
0,00011 |
|
12 |
1 |
1 |
-1,56032 |
0,99943 |
0,00057 |
|
13 |
1 |
1 |
-0,40186 |
0,9567 |
0,0433 |
|
14 |
1 |
1 |
-1,29833 |
0,99846 |
0,00154 |
|
15 |
1 |
1 |
-2,62759 |
0,99999 |
0,00001 |
|
16 |
1 |
1 |
-1,06654 |
0,99632 |
0,00368 |
|
17 |
. |
1 |
-0,61665 |
0,98026 |
0,01974 |
|
18 |
2 |
2 |
2,89967 |
0,00009 |
0,99991 |
|
19 |
1 |
1 |
-0,63451 |
0,98152 |
0,01848 |
|
20 |
2 |
2 |
4,6813 |
0 |
1 |
|
21 |
2 |
2 |
3,01559 |
0,00006 |
0,99994 |
|
22 |
1 |
-23,5078 |
1 |
0 |
||
23 |
2 |
2 |
1,16501 |
0,05662 |
0,94338 |
|
24 |
1 |
1 |
-2,71838 |
0,99999 |
0,00001 |
|
25 |
1 |
1 |
-1,64899 |
0,99959 |
0,00041 |
|
26 |
2 |
2 |
1,48965 |
0,01734 |
0,98266 |
|
27 |
2 |
2 |
0,96626 |
0,11267 |
0,88733 |
|
28 |
1 |
1 |
-0,91889 |
0,9936 |
0,0064 |
|
29 |
. |
2 |
2,30613 |
0,00081 |
0,99919 |
|
30 |
. |
1 |
-0,95583 |
0,99443 |
0,00557 |
|
31 |
. |
1 |
-6,71214 |
1 |
0 |
|
32 |
. |
1 |
-6,01949 |
1 |
0 |
|
33 |
. |
1 |
-4,00668 |
1 |
0 |
|
34 |
. |
1 |
-0,20946 |
0,9145 |
0,0855 |
|
35 |
. |
1 |
-3,09869 |
1 |
0 |
|
36 |
. |
1 |
-0,15024 |
0,89534 |
0,10466 |
|
37 |
. |
1 |
-10,715 |
1 |
0 |
|
38 |
. |
1 |
-3,15208 |
1 |
0 |
|
39 |
. |
1 |
-3,73084 |
1 |
0 |
|
40 |
. |
2 |
0,52085 |
0,40514 |
0,59486 |
|
41 |
. |
1 |
-1,12713 |
0,99707 |
0,00293 |
|
42 |
. |
1 |
-1,94645 |
0,99987 |
0,00013 |
|
43 |
. |
2 |
1,2741 |
0,03825 |
0,96175 |
|
44 |
. |
2 |
3,72986 |
0 |
1 |
|
45 |
. |
1 |
-3,09226 |
1 |
0 |
|
46 |
. |
1 |
-3,03555 |
1 |
0 |
|
47 |
. |
1 |
0,0288 |
0,81327 |
0,18673 |
|
48 |
. |
2 |
0,58555 |
0,34794 |
0,65206 |
|
49 |
. |
1 |
-3,47834 |
1 |
0 |
|
50 |
. |
1 |
-0,07669 |
0,86636 |
0,13364 |
|
51 |
. |
1 |
-1,47263 |
0,9992 |
0,0008 |
|
52 |
. |
1 |
-1,01332 |
0,99551 |
0,00449 |
|
53 |
. |
1 |
-0,03795 |
0,84852 |
0,15148 |
|
54 |
. |
1 |
-1,84807 |
0,99981 |
0,00019 |
|
55 |
. |
1 |
-1,03495 |
0,99586 |
0,00414 |
|
56 |
. |
1 |
-0,60595 |
0,97947 |
0,02053 |
|
57 |
. |
2 |
25,40745 |
0 |
1 |
|
58 |
. |
1 |
-0,67555 |
0,98413 |
0,01587 |
|
59 |
. |
1 |
-1,69734 |
0,99966 |
0,00034 |
|
60 |
. |
2 |
7,56569 |
0 |
1 |
|
61 |
. |
2 |
17,39934 |
0 |
1 |
|
62 |
. |
2 |
1,045 |
0,08622 |
0,91378 |
|
63 |
. |
2 |
125,9983 |
0 |
1 |
|
64 |
. |
1 |
-1,31425 |
0,99855 |
0,00145 |
|
65 |
. |
2 |
3,0485 |
0,00005 |
0,99995 |
|
66 |
. |
2 |
1,98111 |
0,00276 |
0,99724 |
|
67 |
. |
2 |
0,52532 |
0,40108 |
0,59892 |
|
68 |
. |
2 |
1,68373 |
0,00842 |
0,99158 |
|
69 |
. |
1 |
-0,51874 |
0,9717 |
0,0283 |
|
70 |
. |
1 |
-1,56037 |
0,99943 |
0,00057 |
|
71 |
. |
2 |
7,83506 |
0 |
1 |
|
72 |
. |
1 |
-1,77246 |
0,99974 |
0,00026 |
|
73 |
. |
2 |
0,59063 |
0,34361 |
0,65639 |
|
74 |
. |
1 |
-0,3749 |
0,95229 |
0,04771 |
|
75 |
. |
2 |
5,05088 |
0 |
1 |
|
76 |
. |
2 |
4,1223 |
0 |
1 |
|
77 |
. |
1 |
-0,90543 |
0,99327 |
0,00673 |
|
78 |
. |
2 |
0,85126 |
0,16382 |
0,83618 |
|
79 |
. |
2 |
1,21127 |
0,04799 |
0,95201 |
|
80 |
. |
2 |
3,9112 |
0 |
1 |
|
81 |
. |
2 |
6,41917 |
0 |
1 |
|
82 |
. |
1 |
-5,01373 |
1 |
0 |
|
83 |
. |
1 |
0,03082 |
0,81211 |
0,18789 |
|
84 |
. |
2 |
19,52412 |
0 |
1 |
|
В результате оказалось, что все 19 регионов, вошедшие в первоначальную выборку, были разбиты правильно, а остальные 65 регионов разбились на 2 группы.
Рассчитаем внутригрупповые математические ожидания. Проверим гипотезу о равенстве математических ожиданий признаков в двух группах.
Группа |
Средние |
|||||
1 |
X1=2,83973; |
X2=1,108808; |
X3=222,43396; |
X4=1399,3490; |
X5=471,14492. |
|
2 |
X1=2,941936; |
X2=17,24622; |
X3=305,2069; |
X4=1662,755; |
X5=508,0618. |
|
Проверка гипотезы
Сумма квадратов |
Значение квадрата |
F-статистика |
Ур-нь значимости |
|||
X1 |
Межгрупповая |
,428 |
,428 |
,141 |
,709 |
|
Внутригрупповая |
249,592 |
3,044 |
||||
Общая |
250,020 |
|||||
X2 |
Межгрупповая |
4663,384 |
4663,384 |
5,006 |
,028 |
|
Внутригрупповая |
76384,616 |
931,520 |
||||
Общая |
81048,000 |
|||||
X3 |
Межгрупповая |
126806,194 |
126806,194 |
41,506 |
,000 |
|
Внутригрупповая |
250520,896 |
3055,133 |
||||
Общая |
377327,090 |
|||||
X4 |
Межгрупповая |
1090066,125 |
1090066,125 |
6,213 |
,015 |
|
Внутригрупповая |
14386901,747 |
175450,021 |
||||
Общая |
15476967,871 |
|||||
X5 |
Межгрупповая |
5535,141 |
5535,141 |
,003 |
,953 |
|
Внутригрупповая |
130677836,707 |
1593632,155 |
||||
Общая |
130683371,848 |
|||||
Уровень значимости для второго, третьего и четвертого признаков меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух группах отвергается на 5-% уровне. Тогда как гипотеза о равенстве признаков X1 и X5 в двух группах принимается на том же уровне.
Таким образом, математическое ожидание ввода в действие жилых домов и объема инвестиций в основной капитал в двух группах равны, а математические ожидания выбросов в атмосферу загрязняющих веществ, обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания и в этих группах различны.
Т.е. можно заключить, что регионы и первого и второго кластера находятся на одинаковом уровне экономического развития. Т.к. средние показатели выбросов в атмосферу загрязнений, обеспеченности поликлиниками и стоимости продуктов в первом кластере ниже, чем во втором, то есть основание предположить, что регионы первого кластера более благоприятны для жизни населения, чем регионы второго кластера.
Поэтому, как и в предыдущей работе, назовем первый кластер «развитые регионы», а второй — «развивающиеся регионы».
2. В результате дискриминантного анализа все регионы были разбиты на 2 группы: в первую группу вошло 53 региона, во вторую — 31 регион. Для каждой группы регионов проведем регрессионный анализ.
- Для первой группы.
Изучается зависимость признака Y (номинальная заработная плата) от пяти признаков.
По матрице ковариации видно, что наибольшую корреляцию результативный признак имеет со вторым, четвертым и пятым признаками, и наименьшую — с первым и третьим.
Y |
X1 |
X2 |
X3 |
X4 |
X5 |
||
Y |
1 |
||||||
X1 |
0,33556 |
1 |
|||||
X2 |
0,633169 |
0,370211 |
1 |
||||
X3 |
0,253281 |
0,224761 |
-0,00711 |
1 |
|||
X4 |
0,783026 |
0,202281 |
0,674772 |
-0,05327 |
1 |
||
X5 |
0,694317 |
0,469307 |
0,854778 |
0,008817 |
0,796845 |
1 |
|
Модель имеет неплохое качество, о чем можно судить по оценкам следующих показателей:
Регрессионная статистика |
||
Множественный R |
0,851149 |
|
R-квадрат |
0,724455 |
|
Нормированный R-квадрат |
0,695142 |
|
Стандартная ошибка |
2465,44 |
|
Наблюдения |
53 |
|
По таблице определим коэффициенты уравнения регрессии и их значимость:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-16173,2 |
3783,792 |
-4,27434 |
9,29E-05 |
-23785,2 |
-8561,2 |
|
X1 |
265,3093 |
242,5804 |
Страницы: | 2 | 3 | [4] | 5 |