нейное уравнение множественной регрессии в логарифмической форме:
Это уравнение можно привести к линейному виду, заменив () на . Получим: .
Проведем регрессионный анализ для прологарифмированных данных. Результаты содержатся в следующих таблицах:
Корреляция
Ln Y |
Ln X1 |
Ln X2 |
Ln X3 |
Ln X4 |
Ln X5 |
||
Ln Y |
1 |
||||||
Ln X1 |
0,154743 |
1 |
|||||
Ln X2 |
0,083349 |
0,085809 |
1 |
||||
Ln X3 |
0,666594 |
0,200103 |
0,099096 |
1 |
|||
Ln X4 |
0,14944 |
-0,23045 |
0,276736 |
0,09512 |
1 |
||
Ln X5 |
0,261116 |
0,361554 |
0,408353 |
0,165932 |
0,578613 |
1 |
|
Регрессионная статистика
Логарифмическая модель (5 признаков) |
Линейная модель (5 признаков) |
|||
Множественный R |
0,686855 |
Множественный R |
0,606954 |
|
R-квадрат |
0,471769 |
R-квадрат |
0,368393 |
|
Нормированный R-квадрат |
0,437908 |
Нормированный R-квадрат |
0,327905 |
|
Стандартная ошибка |
1,092471 |
Стандартная ошибка |
4451,301 |
|
Наблюдения |
84 |
Наблюдения |
84 |
|
Сравним показатели логарифмической регрессионной модели с линейной. Множественный R, коэффициент детерминации и скорректированный коэффициент детерминации (которые являются основными показателями качества функции) логарифмической модели больше аналогичных показателей линейной, а стандартная ошибка гораздо меньше.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
0,769554 |
5,560577 |
0,138395 |
0,890285 |
-10,3007 |
11,83981 |
|
Ln X1 |
-0,12983 |
0,24729 |
-0,52501 |
0,601065 |
-0,62215 |
0,362486 |
|
Ln X2 |
-0,043 |
0,07083 |
-0,60714 |
0,545521 |
-0,18402 |
0,098008 |
|
Ln X3 |
1,478319 |
0,193067 |
7,657033 |
4,33E-11 |
1,093953 |
1,862685 |
|
Ln X4 |
-0,25299 |
0,86152 |
-0,29365 |
0,769805 |
-1,96814 |
1,462169 |
|
Ln X5 |
0,370186 |
0,228844 |
1,617634 |
0,109779 |
-0,08541 |
0,825779 |
|
Наблюдаемое значение F-статистики составляет 13,93254, критическое — 2,331739. Так как наблюдаемое значение больше критического, то гипотеза о незначимости уравнения отвергается, т.е. уравнение значимо в целом.
Значимым коэффициентом является только один — b 3 .
Исключим из рассмотрения признак, имеющий наименьшее значение t-статистики (X 4 ) и проведем регрессионный анализ по оставшимся признакам. Получим следующие результаты.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-0,81865 |
1,284199 |
-0,63748 |
0,525659 |
-3,37478 |
1,73749 |
|
Ln X1 |
-0,08748 |
0,199714 |
-0,43802 |
0,662566 |
-0,485 |
0,310042 |
|
Ln X2 |
-0,04322 |
0,070416 |
-0,61373 |
0,541157 |
-0,18337 |
0,096943 |
|
Ln X3 |
1,472235 |
0,190839 |
7,714555 |
3,13E-11 |
1,09238 |
1,85209 |
|
Ln X5 |
0,323557 |
0,163832 |
1,974925 |
0,05177 |
-0,00254 |
0,649657 |
|
Для данной регрессии значимым остается третий признак, а незначимые — все остальные. Поэтому исключим еще один признак (X 1 ) и снова проведем регрессионный анализ.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-0,68911 |
1,243358 |
-0,55423 |
0,580964 |
-3,16347 |
1,78525 |
|
Ln X2 |
-0,04078 |
0,06984 |
-0,58393 |
0,560912 |
-0,17977 |
0,098205 |
|
Ln X3 |
1,459243 |
0,187565 |
7,779934 |
2,18E-11 |
1,085977 |
1,832509 |
|
Ln X5 |
0,299015 |
0,153174 |
1,95212 |
0,054423 |
-0,00581 |
0,603842 |
|
Получили такой же результат, как и в предыдущих двух случаях, следовательно исключаем очередной регрессор (X 2 ).
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
-0,46241 |
1,176379 |
-0,39308 |
0,695291 |
-2,80304 |
1,87821 |
|
Ln X3 |
1,45543 |
0,186687 |
7,796092 |
1,89E-11 |
1,083982 |
1,826879 |
|
Ln X5 |
0,263293 |
0,139855 |
1,882608 |
0,0063344 |
-0,01498 |
0,541561 |
|
Получили уравнение регрессии: .
Регрессионная статистика |
||
Множественный R |
0,683843 |
|
R-квадрат |
0,467641 |
|
Нормированный R-квадрат |
0,454497 |
|
Стандартная ошибка |
1,07623 |
|
Наблюдения |
84 |
|
Наблюдаемое значение F-статистики (35,57655) для этого уравнения больше критического значения (3,109311), т.е. гипотеза о незначимости уравнения отвергается, уравнение значимо. Коэффициенты этого уравнения также значимы. Показатели качества функции больше, чем для линейной модели, поэтому можно сказать, что данная логарифмическая модель лучше аппроксимирует данные.
Для нелинейной регрессии составим сводную таблицу:
Шаг |
Уравнение регрессии |
R2 |
S |
||
1 |
lnY=0.77-0.13*lnX 1 -0.04*lnX2 +1.48* lnX3 -0.25*lnX4 +0.037*lnX5 t крит = 1.99 F крит =2,331739 |
0,471769 |
0,437908 |
1,092471 |
|
2 |
lnY = -0.82 — 0.09*lnX 1 — 0.04*lnX2 + 1.47*lnX3 + 0.32*lnX5 . t крит = 1,99 F крит =2,487366 |
0,471185 |
0,44441 |
1,086135 |
|
3 |
lnY = -0.69-0.04*lnX 2 +1.46*lnX3 +0.3*lnX5 . t крит = 1,99 F крит =2,718785 |
0,469901 |
0,450022 |
1,080635 |
|
4 |
lnY=-0.46+1.46*lnX 3 +0.26*lnX5 . t крит =1,99 F крит =3,109311 |
0,467641 |
0,454497 |
1,07623 |
|
Шаг |
Интервальные оценки коэффициентов |
t набл |
F набл |
д |
|
1 |
[-10,3007; 11,83981] [-0,62215; 0,362486] [-0,18402; 0,098008] [1,093953; 1,862685] [-1,96814; 1,462169] [-0,08541; 0,825779] |
0,138395 -0,52501 -0,60714 7,657033 -0,29365 1,617634 |
13,93254 |
3,3% |
|
2 |
[-3,37478; 1,73749] [-0,485; 0,310042] [-0,18337; 0,096943] [1,09238; 1,85209] [-0,00254; 0,649657] |
-0,63748 -0,43802 -0,61373 7,714555 1,974925 |
17,59766 |
3,3% |
|
3 |
[-3,16347; 1,78525] [-0,17977; 0,098205] [1,085977; 1,832509] [-0,00581; 0,603842] |
-0,55423 -0,58393 7,779934 1,95212 |
23,63839 |
3,3% |
|
4 |
[-2,80304; 1,87821] [1,083982; 1,826879] [-0,01498; 0,541561] |
-0,39308 7,796092 1,882608 |
35,57655 |
3,2% |
|
В итоге получили, что номинальная заработная плата в большей степени зависит от обеспеченности амбулаторно-поликлиническими учреждениями и в меньшей — от объема вложений в основной капитал. Связь между этими величинами прямая, т.е. при увеличении амбулаторно-поликлинических учреждений и (или) объема вложений в основной капитал, номинальная заработная плата также увеличивается.
РАЗДЕЛ 2.
2.1 Компонентный анализ
Изучается система из пяти признаков X 1 , X, X3 , X4 , X5 по числовым данным, собранным на 84 объектах. Цель — выявить общие для этих признаков латентные факторы (главные компоненты), влиянием которых обусловлены вариации признаков и их ковариации.
1. Запишем модель компонентного анализа и предъявляемые к ней требования.
Модель компонентного анализа предполагает, что каждый признак X(j) формируется как линейная комбинация такого же числа факторов — компонент F(i), влиянием которых объясняется суммарная дисперсия признаков X(j).
К компонентам F(i) предъявляются следующие требования:
- они должны быть некоррелированы между собой;
- они должны выделяться таким образом, чтобы влиянием первой компоненты объяснялось максимальная доля суммарной дисперсии всех признаков, влиянием второй компоненты — максимальная доля оставшейся суммарной дисперсии и т. д.
Поскольку исходные признаки разнородны по содержательному смыслу и имеют разные единицы измерения, компонентный анализ будем проводить с использованием корреляционной матрицы.
В качестве исходных данных используется матрица размера 84×5 признаков x1, x2, x3, x4, x5.
По данной выборке с помощью пакета SPSS реализуем метод главных компонент.
2. Определим доли общей дисперсии признаков (в процентах), приходящиеся на каждую компоненту, и накопленные доли этой дисперсии (в процентах) по следующей таблице:
Объясненная совокупная дисперсия
Компоненты |
Собственные значения |
|||
Сумма |
% вариации |
Совокупный % |
||
1 |
1,732 |
34,635 |
34,635 |
|
2 |
1,288 |
25,770 |
60,405 |
|
3 |
,989 |
19,775 |
80,179 |
|
4 |
,777 |
15,535 |
95,715 |
|
5 |
,214 |
4,285 |
100,000 |
|
Следующая таблица иллюстрирует матрицу нагрузок (5 Ч 5) признаков на компоненты:
Матрица компонент
Признаки |
Компоненты |
|||||
1 |
2 |
3 |
4 |
5 |
||
1 |
,346 |
,767 |
-,019 |
,512 |
,171 |
|
2 |
,195 |
-,023 |
,979 |
-,051 |
,035 |
|
3 |
,628 |
-,531 |
-,012 |
,532 |
-,201 |
|
4 |
,827 |
-,366 |
-,165 |
-,270 |
,285 |
|
5 |
,704 |
,533 |
-,055 |
-,395 |
-,249 |
|
Для записи исходных признаков через компоненты воспользуемся формулой линейной модели компонентного анализа:
Каждый признак x(i) может быть представлен в виде линейной комбинации такого же числа факторов F(j).
Каждый фактор разделив каждую компоненту на соответствующее собственное число:
Запишем выражения исходных признаков через компоненты:
Аналогично можно записать выражения компонент через признаки:
3. Снизим размерность системы исходных признаков. Для этого проанализируем таблицу «Объясненная совокупная дисперсия». Как видно из таблицы первые 3 компоненты имеют собственные значения, превосходящие по значению единицу или близкие к 1, и объясняют 80,2% вариации признаков, что достаточно для выделения факторов. Поэтому можно снизить размерность исходной системы до 3-х признаков.
Распределение вариации признаков по компонентам можно представить в виде следующей факторной диаграммы:
28
После снижения размерности получим таблицу:
Матрица компонент
Признаки |
Факторы |
|||
1 |
2 |
3 |
||
1 |
,346 |
,767 |
-,019 |
|
2 |
,195 |
-,023 |
,979 |
|
3 |
,628 |
-,531 |
-,012 |
|
4 |
,827 |
-,366 |
-,165 |
|
5 |
,704 |
,533 |
-,055 |
|
Определим принадлежность признаков факторам. Для этого оценим абсолютное значение каждого признака по факторам. Получили следующее распределение:
Первый фактор, Второй фактор, Третий фактор
Проанализируем признаки, входящие в первый фактор. Как видно, последний признак (объем инвестиций в основной капитал) логически не соответствует структуре фактора. Кроме того, он принимает близкие значения 0,704 и 0,533 в матрице компонент для 1-го и 2-го фактора. Поэтому целесообразно отнести 5-й признак именно ко второму фактору.
В соответствии с включенными признаками можно дать следующие названия факторам:
1 фактор — условия для поддержания здоровья населения, которое зависит, как известно, не только от числа поликлиник в регионе, но также во многом и от качества питания, на которое в свою очередь оказывает влияние уровень цен на продукты;
2 фактор — обеспеченность жильем. Очевидно, что чем выше количество введенных в действие жилых домов, тем выше уровень обеспеченности населения жильем в целом;
3 фактор — экологическая ситуация, на которую очень сильное воздействие оказывают выбросы промышленных отходов в наземную, водную и воздушную среду.
4. Проведем регрессионный анализ признака Y (номинальная заработная плата) на отобранные главные компоненты.
Матрица корреляции имеет следующий вид:
Y |
K1 |
K2 |
K3 |
||
Y |
1 |
||||
K1 |
0,582522 |
1 |
|||
K2 |
0,263598 |
0,569492 |
1 |
||
K3 |
0,060301 |
0,134633 |
-0,14845 |
1 |
|
Наибольшую корреляцию с результативным признаком имеет первый фактор (который, как уже указывалось выше, включает в себя обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал) и наименьшую связь — третий фактор (включающий выбросы в атмосферу загрязняющих веществ).
Коэффициенты уравнения регрессии и их значимость содержатся в следующей таблице:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
10777,09 |
535,9039 |
20,11012 |
5,04*10 -33 |
9710,611 |
11843,58 |
|
K1 |
4407,925 |
768,0113 |
5,739401 |
1,64*10 -7 |
2879,534 |
5936,316 |
|
K2 |
-752,831 |
742,5739 |
-1,01381 |
0,313728 |
-2230,6 |
724,9378 |
|
K3 |
-248,633 |
523,5045 |
-0,47494 |
0,636124 |
-1290,44 |
793,174 |
|
Таким образом, получили уравнение регрессии вида:
Незначимыми в этом уравнении являются коэффициенты при K 2 и K3 , значимыми — свободный коэффициент и коэффициент при K1 .
Само уравнение регрессии в целом является значимым, т.к. наблюдаемое значение F-статистики (14,23581) больше критического значения (2,718785).
Рассмотрим показатели качества функции регрессии.
Регрессионная статистика |
||
Множественный R |
0,589952 |
|
R-квадрат |
0,348043 |
|
Нормированный R-квадрат |
0,323594 |
|
Стандартная ошибка |
4465,554 |
|
Наблюдения |
84 |
|
Как видно, эта модель имеет средние показатели множественного коэффициента корреляции, детерминации и скорректированного коэффициента детерминации и большое значение стандартной ошибки.
Попытаемся улучшить модель, исключив из нее регрессор K 3 , как имеющего наименьшее значение t-статистики.
Получим уравнение:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
10738,33 |
527,1149 |
20,3719 |
1,29*10 -33 |
9689,539 |
11787,13 |
|
K1 |
4309,576 |
736,0243 |
5,855209 |
9,78*10 —9 |
2845,119 |
5774,034 |
|
K2 |
-655,354 |
710,2272 |
-0,92274 |
0,358884 |
-2068,48 |
757,7752 |
|
В этом уравнении коэффициент K 2 остается незначимым, а все уравнение в целом значимо ().
Поэтому построим уравнение регрессии для одного фактора (K1 ) и получим следующие результаты:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
10566,22 |
492,5618 |
21,45155 |
2,21E-35 |
9586,353 |
11546,08 |
|
K1 |
3922,801 |
604,4614 |
6,489746 |
6,14E-09 |
2720,335 |
5125,268 |
|
Значимыми являются все коэффициенты уравнения и само уравнение в целом, для которого F н =42,117, Fк =3,958.
Таким образом, было получено уравнение парной регрессии зависимости результативного признака Y (среднемесячная номинальная заработная плата) от фактора K 1 (обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания и объем инвестиций в основной капитал).
Причем связь между этими признаками прямая, т.е. при увеличении значений факторных компонент, увеличивается и заработная плата. Можно сказать, что похожие результаты были получены в регрессионном анализе по исходным признакам, за исключением такого регрессора, как стоимость минимального набора продуктов питания, входящего в фактор.
2.2 Факторный анализ
1. Запишем модель факторного анализа и предъявляемые к ней требования.
Математическая модель факторного анализа в матричной форме имеет следующий вид:
X Ю=AF+е,
где F=(F 1 ,…,F2 ) — вектор общих факторов. Центрированный и нормированный вектор-столбец некоррелированных общих факторов. 0<k<m;
A (mЧk) — неслучайная матрица нагрузок компонентов xi — на факторы fj ;
е=(е 1 ,…,еm ) — вектор распределений по m-мерному нормальному закону; центрированный вектор специфических факторов, некоррелированных как между собой, так и с общими факторами.
К общим и специфическим факторам предъявляются следующие требования:
- общие факторы должны быть некоррелированы между собой;
- специфические факторы должны быть некоррелированы как между собой, так и с общими факторами.
2. Для выделения факторов реализуем метод максимального правдоподобия.
Зададим максимальное число факторов равным одному, чтобы вначале выявить один общий фактор.
В результате работы программы максимум функции правдоподобия не найден, следовательно, невозможно рассчитать матрицу факторных нагрузок.
Установим максимальное число факторов равным двум.
Сразу обратим внимание на тест «Хи-квадрат», проверяющий гипотезу о равенстве числа общих факторов двум.
Тест «Хи-квадрат»
Наблюдаемое значение |
Уровень значимости |
Р-значение |
|
8,629 |
1 |
,003 |
|
Гипотеза H 0 о том, что число общих факторов равно двум, принимается на 1%-ном уровне значимости, так как наблюдаемое значение статистики ч2 , равное 8,629 меньше критического значения .
Следовательно, можно выделить всего 2 фактора, влияющие на распределение признаков, несмотря на то, что они в совокупности объясняют лишь 60,405% всей вариации:
Объясненная суммарная дисперсия
Факторы |
Собственные значения |
Суммы квадратов нагрузок после вращения |
|||||
Сумма |
% вариации |
Суммарный % |
Сумма |
% вариации |
Суммарный % |
||
1 |
1,732 |
34,635 |
34,635 |
1,323 |
26,464 |
26,464 |
|
2 |
1,288 |
25,770 |
60,405 |
1,256 |
25,121 |
51,586 |
|
3 |
,989 |
19,775 |
80,179 |
||||
4 |
,777 |
15,535 |
95,715 |
||||
5 |
,214 |
4,285 |
100,000 |
||||
Определим нагрузку исходных признаков на общие факторы.
Можно изобразить факторные нагрузки в виде диаграммы рассеяния:
28
На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Можно увидеть, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные.
Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими — для других. Эту общую модель иногда называют простой структурой. Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.
Идея вращения по методу варимакс заключается в максимизации дисперсии исходного пространства переменных. Например, на диаграмме рассеяния можно рассматривать линию регрессии как ось X, повернув ее так, что она совпадала с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) «новой» переменной (фактора) и минимизации разброса вокруг нее. Другими словами, вращение позволяет получить матрицу нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом, и имелась возможность их простой интерпретации [7, факторный анализ]. Ниже приведена вращенная диаграмма рассеивания и таблица нагрузок на повернутые факторы.
28
Вращенная матрица факторных нагрузок
Признаки |
Факторы |
||
1 |
2 |
||
1 |
-,205 |
,455 |
|
2 |
,011 |
,081 |
|
3 |
,561 |
-,105 |
|
4 |
,966 |
,258 |
|
5 |
,185 |
,982 |
|
Дадим содержательную интерпретацию этим факторам. Как видно из таблицы первый фактор имеет сильную прямую связь с 4-м признаком (стоимость минимального набора продуктов питания) и умеренную прямую связь с 3-м признаком (обеспеченность амбулаторно-поликлиническими учреждениями), поэтому его можно назвать «условия для поддержания здоровья населения». Второй фактор тесно связан с 5-м признаком (объем инвестиций в основной капитал) и слабее с 1-м признаком (ввод в действие жилых домов).
Назовем его «обеспеченность жильем». Как видно второй признак имеет очень маленькую нагрузку на оба фактора, поэтому его можно не учитывать.
Вероятнее всего, оставшиеся 39,5% вариации признаков объясняются специфическими факторами.
Матрица специфических факторов
Факторы |
1 |
2 |
|
1 |
,680 |
,733 |
|
2 |
-,733 |
,680 |
|
3. Проведем регрессионный анализ признака Y (номинальная заработная плата) на общие факторы F 1 (который включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями) и F2 (включающий объем инвестиций в основной капитал).
Была получена матрица корреляции, по которой видно, что первый фактор больше коррелирует с результативным признаком, чем второй:
Y |
F1 |
F2 |
||
Y |
1 |
|||
F1 |
0,560433 |
1 |
||
F2 |
0,135599 |
5,21E-07 |
1 |
|
Регрессия имеет средние показатели качества и большое значение стандартной ошибки:
Регрессионная статистика |
||
Множественный R |
0,576604 |
|
R-квадрат |
0,332472 |
|
Нормированный R-квадрат |
0,31599 |
|
Стандартная ошибка |
4490,584 |
|
Наблюдения |
84 |
|
Уравнение регрессии имеет вид:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
9988,742 |
489,9629 |
20,38673 |
1,23E-33 |
9013,869 |
10963,61 |
|
F1 |
3042,956 |
492,906 |
6,173502 |
2,52E-08 |
2062,228 |
4023,685 |
|
F2 |
736,2536 |
492,9057 |
1,493701 |
0,139139 |
-244,474 |
1716,981 |
|
Наблюдаемое и критическое значения F- статистики равны соответственно 20,17164 и 3,109311, что отвергает гипотезу о незначимости всего уравнения регрессии в целом.
Из таблицы видно, что коэффициент регрессии при F 2 незначим, поэтому исключим его и проведем регрессионный анализ по одному фактору.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
9988,742 |
493,6274 |
20,23539 |
1,25E-33 |
9006,76 |
10970,72 |
|
F1 |
3042,957 |
496,5924 |
6,127674 |
2,96E-08 |
2055,076 |
4030,837 |
|
Получили уравнение:
Уравнение является значимым (F н =37,54839, Fк =3,957388), как и все его коэффициенты.
Таким образом, можно сделать вывод, что номинальная заработная плата находится в прямой зависимости от стоимости минимального набора продуктов питания и обеспеченности амбулаторно-поликлиническими учреждениями. Эта зависимость имеет общие черты с предыдущим регрессионным анализом по исходным признакам и по главным компонентам, где получили зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по исходным признакам) и стоимость минимального набора продуктов питания, обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по главным компонентам).
РАЗДЕЛ 3.
Требуется по исходным данным провести классификацию 20 объектов (20 регионов РФ) (9-28).
Проведем на SPSS иерархический кластерный анализ, реализовав метод ближайшего соседа с выбором евклидовой метрики расстояний (данные предварительно стандартизированы).
1. По матрице расстояний найдем значение расстояния между первым и 20-м объектами.
Матрица расстояний
Объекты |
Евклидово расстояние |
|
1 |
……….. |
Страницы: | [2] | 3 | 4 | 5 |