Многомерные статистические методы и эконометрика

Курсовая работа
Содержание скрыть

lign=»left»>35,80068

11,21379

3,192557

0,015222

9,284272

62,31708

X4

14,34018

3,210022

4,467316

0,00291

6,749686

21,93068

Значимыми остались третий и четвертый признаки и свободный коэффициент. Все остальные — незначимы. Поэтому исключим из списка первый признак, т.к. он имеет наименьшую t- статистику. Регрессия по трем признакам дала следующие результаты.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20315,7

2882,317

-7,0484

0,000107

-26962,4

-13669,1

X2

361,947

551,2171

0,656632

0,529849

-909,162

1633,056

X3

35,66143

10,49777

3,397048

0,009401

11,45353

59,86933

X4

14,61332

2,716352

5,379757

0,000662

8,349395

20,87723

Незначимым является один коэффициент при X 2 , а остальные значимые. Исключим X2 и проведем регрессионный анализ.

Уравнение регрессии:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20139,5

2777,626

-7,25062

4,81E-05

-26422,9

-13856,1

X3

33,55754

9,675783

3,468199

0,007069

11,6694

55,44568

X4

15,02285

2,558869

5,870896

0,000237

9,23429

20,81142

Все коэффициенты этого уравнения являются значимыми, и само уравнение, имея F н =60,43687 и Fк =3,096553, статистически значимо. Проанализируем показатели, содержащиеся в

Регрессионная статистика

Множественный R

0,964729

R-квадрат

0,930702

Нормированный R-квадрат

0,915302

Стандартная ошибка

914,446

Наблюдения

12

Высокие оценки множественного R, R 2 и нормированного R2 , а также небольшое значение стандартной ошибки свидетельствуют о хорошем качестве модели.

В результате регрессионного анализа для первого кластера была получена зависимость номинальной заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания.

Матрица корреляции имеет вид и позволяет определить сильную связь результативного признака со вторым, четвертым и пятым независимыми компонентами. Более слабо Y коррелирует с третьим признаком, и имеет наименьшую корреляцию с первым признаком.

Y

X1

X2

X3

X4

X5

Y

1

X1

0,398899

1

X2

0,918327

0,297061

1

X3

-0,71313

-0,55619

-0,54937

1

X4

0,992192

0,353451

0,921639

-0,7129

1

X5

0,938584

0,505718

0,931463

-0,71293

0,954758

1

Уравнение имеет вид: Y = -15061.1 + 324.353X 1 + 334.5X2 + 0.444X3 + 17.273X4 — 1.012X5

Определим значимость его коэффициентов по следующей таблице:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-15061,1

3029,784

-4,97102

0,038166

-28097,2

-2025

X1

324,3533

64,84276

5,002151

0,037719

45,35741

603,3492

X2

334,4999

102,3674

3,267639

0,082264

-105,952

774,9515

X3

0,443851

5,785511

0,076718

0,945832

-24,4492

25,3369

X4

17,27289

1,304104

13,24502

0,005652

11,66178

22,88399

X5

-1,01179

0,206824

-4,89202

0,039336

-1,90168

-0,12189

Коэффициенты признаков X 2 и X3 являются незначимыми, остальные — значимые. Уравнение в целом значимо, т.к. имеет наблюдаемую статистику 413,5413 и критическую 19,29641. Удалим из списка регрессоров третий признак, т.к. он имеет наименьшую t-статистику и снова построим уравнение регрессии.

Оно будет иметь вид: .

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-14872,1

1441,344

-10,3182

0,001942

-19459,1

-10285,1

X1

322,9254

50,79042

6,357998

0,007873

161,2876

484,5632

X2

337,5144

77,29317

4,366679

0,02221

91,53309

583,4958

X4

17,23049

0,965909

17,83864

0,000384

14,15654

20,30445

X5

-1,01345

0,168188

-6,02572

0,009162

-1,5487

-0,4782

Все коэффициенты уравнения являются значимыми. Уравнение регрессии тоже значимо, т.к. наблюдаемое значение F-статистики (773,1127) больше критического (9,117182).

Данная модель имеет хорошее качество, что можно проследить по следующей таблице:

Регрессионная статистика

Множественный R

0,999515

R-квадрат

0,999031

Нормированный R-квадрат

0,997739

Стандартная ошибка

304,9263

Наблюдения

8

В результате регрессионного анализа для второго кластера была получена линейная зависимость номинальной заработной платы от ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости продуктов питания и инвестиций в основной капитал, причем с последним признаком наблюдается обратная связь.

Если сравнивать полученные результаты регрессионного анализа по кластерам и по исходной совокупности данных, то можно сказать, что регрессия по первому кластеру схожа с регрессией по исходным признакам зависимостью от амбулаторно-поликлинических учреждений, а регрессия по второму кластеру — зависимостью от вложений в основной капитал.

РАЗДЕЛ 4.

1. Запишем модель дискриминантного анализа и предъявляемые к ней требования.

С помощью дискриминантного анализа на основании некоторых признаков изучаемый объект может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.

Ядром дискриминантного анализа является построение так называемой дискриминантной функции

d = b1х1+b2х2+… + bnхn+а,

где x1 и хn — значения переменных, соответствующих рассматриваемым случаям, онстанты b1-bn и a — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам [7, дискриминантный анализ].

2. Проведем дискриминантный анализ, взяв априорные данные из кластерного анализа, используя метод дальнего соседа. В результате кластеризации по этому методу, Ненецкий АО был выделен в отдельный кластер. Однако по дендрограмме можно проследить, что фактически регионы разбиваются на 2 различных кластера. Во второй кластер вошли следующие регионы: Коми, Архангельская, Мурманская, Вологодская, Новгородская, Липецкая области и город Москва. Остальные регионы образуют первый кластер. Требуется определить, к какой из двух групп относится каждый из оставшихся 65 регионов (включая Ненецкий АО), считая, что каждый регион относится только к одной группе.

Для вычисления выберем все пять исходных признаков.

Вычислим стандартизированные канонические коэффициенты дискриминантной функции:

Признак

Функция

X1

-,228

X2

,618

X3

1,092

X4

,226

X5

-,493

Стандартизированные коэффициенты показывают как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. Например, большой вклад в значение дискриминантной функции вносят переменные X2 (выбросы в атмосферу загрязняющих веществ) и X3 (обеспеченность амбулаторно-поликлиническими учреждениями).

Стандартизированные коэффициенты основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.

Вычислим нестандартизированные канонические коэффициенты дискриминантной функции:

Коэффициенты

Функция

X3

,751

X2

,429

X5

,327

X4

,226

X1

-,113

Нестандартизированные коэффициенты — это множители при заданных значениях переменных, входящих в дискриминантную функцию.

Таким образом, дискриминантная функция имеет вид:

D = -0.113 X1 + 0.429 X2 + 0.751 X3 + 0.226 X4 + 0.327 X5.

Проанализируем качество полученной функции. Для этого воспользуемся таблицей:

Собственные значения

Функция

Собственное значение

% вариации

Суммарный %

Каноническая корреляция

1

3,802

100,0

100,0

,890

Большое собственное значение свидетельствует об удачно подобранной дискриминантной функции. Одна дискриминантная функция объясняет 100 % вариации признаков. Канонические корреляции являются показателями качества функции, т. е. чем больше эти показатели, тем выше разделительная способность функции. Значение канонической корреляции 0,89 указывает на достаточно хорошую разделительную способность полученной функции.

1. Укажем, к каким группам были отнесены классифицируемые объекты, и вероятности, с которыми объекты входят в эти группы. Все данные представлены в таблице:

Статистики наблюдений

№ объекта

Фактическая группа

Прогнозируемая группа

Значение функции на объектах

Вероятность вхождения в первую группу

Вероятность вхождения во вторую группу

1

.

1

-2,75729

0,99999

0,00001

2

.

1

-1,77633

0,99975

0,00025

3

.

2

1,51082

0,01603

0,98397

4

.

1

-2,52018

0,99998

0,00002

5

.

1

-2,51226

0,99998

0,00002

6

.

1

-0,55183

0,97493

0,02507

7

.

1

-2,14422

0,99994

0,00006

8

.

1

-2,16023

0,99994

0,00006

9

2

2

1,91364

0,00355

0,99645

10

1

1

-1,26623

0,99826

0,00174

11

1

1

-1,98948

0,99989

0,00011

12

1

1

-1,56032

0,99943

0,00057

13

1

1

-0,40186

0,9567

0,0433

14

1

1

-1,29833

0,99846

0,00154

15

1

1

-2,62759

0,99999

0,00001

16

1

1

-1,06654

0,99632

0,00368

17

.

1

-0,61665

0,98026

0,01974

18

2

2

2,89967

0,00009

0,99991

19

1

1

-0,63451

0,98152

0,01848

20

2

2

4,6813

0

1

21

2

2

3,01559

0,00006

0,99994

22

1

-23,5078

1

0

23

2

2

1,16501

0,05662

0,94338

24

1

1

-2,71838

0,99999

0,00001

25

1

1

-1,64899

0,99959

0,00041

26

2

2

1,48965

0,01734

0,98266

27

2

2

0,96626

0,11267

0,88733

28

1

1

-0,91889

0,9936

0,0064

29

.

2

2,30613

0,00081

0,99919

30

.

1

-0,95583

0,99443

0,00557

31

.

1

-6,71214

1

0

32

.

1

-6,01949

1

0

33

.

1

-4,00668

1

0

34

.

1

-0,20946

0,9145

0,0855

35

.

1

-3,09869

1

0

36

.

1

-0,15024

0,89534

0,10466

37

.

1

-10,715

1

0

38

.

1

-3,15208

1

0

39

.

1

-3,73084

1

0

40

.

2

0,52085

0,40514

0,59486

41

.

1

-1,12713

0,99707

0,00293

42

.

1

-1,94645

0,99987

0,00013

43

.

2

1,2741

0,03825

0,96175

44

.

2

3,72986

0

1

45

.

1

-3,09226

1

0

46

.

1

-3,03555

1

0

47

.

1

0,0288

0,81327

0,18673

48

.

2

0,58555

0,34794

0,65206

49

.

1

-3,47834

1

0

50

.

1

-0,07669

0,86636

0,13364

51

.

1

-1,47263

0,9992

0,0008

52

.

1

-1,01332

0,99551

0,00449

53

.

1

-0,03795

0,84852

0,15148

54

.

1

-1,84807

0,99981

0,00019

55

.

1

-1,03495

0,99586

0,00414

56

.

1

-0,60595

0,97947

0,02053

57

.

2

25,40745

0

1

58

.

1

-0,67555

0,98413

0,01587

59

.

1

-1,69734

0,99966

0,00034

60

.

2

7,56569

0

1

61

.

2

17,39934

0

1

62

.

2

1,045

0,08622

0,91378

63

.

2

125,9983

0

1

64

.

1

-1,31425

0,99855

0,00145

65

.

2

3,0485

0,00005

0,99995

66

.

2

1,98111

0,00276

0,99724

67

.

2

0,52532

0,40108

0,59892

68

.

2

1,68373

0,00842

0,99158

69

.

1

-0,51874

0,9717

0,0283

70

.

1

-1,56037

0,99943

0,00057

71

.

2

7,83506

0

1

72

.

1

-1,77246

0,99974

0,00026

73

.

2

0,59063

0,34361

0,65639

74

.

1

-0,3749

0,95229

0,04771

75

.

2

5,05088

0

1

76

.

2

4,1223

0

1

77

.

1

-0,90543

0,99327

0,00673

78

.

2

0,85126

0,16382

0,83618

79

.

2

1,21127

0,04799

0,95201

80

.

2

3,9112

0

1

81

.

2

6,41917

0

1

82

.

1

-5,01373

1

0

83

.

1

0,03082

0,81211

0,18789

84

.

2

19,52412

0

1

В результате оказалось, что все 19 регионов, вошедшие в первоначальную выборку, были разбиты правильно, а остальные 65 регионов разбились на 2 группы.

Рассчитаем внутригрупповые математические ожидания. Проверим гипотезу о равенстве математических ожиданий признаков в двух группах.

Группа

Средние

1

X1=2,83973;

X2=1,108808;

X3=222,43396;

X4=1399,3490;

X5=471,14492.

2

X1=2,941936;

X2=17,24622;

X3=305,2069;

X4=1662,755;

X5=508,0618.

Проверка гипотезы

Сумма квадратов

Значение квадрата

F-статистика

Ур-нь значимости

X1

Межгрупповая

,428

,428

,141

,709

Внутригрупповая

249,592

3,044

Общая

250,020

X2

Межгрупповая

4663,384

4663,384

5,006

,028

Внутригрупповая

76384,616

931,520

Общая

81048,000

X3

Межгрупповая

126806,194

126806,194

41,506

,000

Внутригрупповая

250520,896

3055,133

Общая

377327,090

X4

Межгрупповая

1090066,125

1090066,125

6,213

,015

Внутригрупповая

14386901,747

175450,021

Общая

15476967,871

X5

Межгрупповая

5535,141

5535,141

,003

,953

Внутригрупповая

130677836,707

1593632,155

Общая

130683371,848

Уровень значимости для второго, третьего и четвертого признаков меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух группах отвергается на 5-% уровне. Тогда как гипотеза о равенстве признаков X1 и X5 в двух группах принимается на том же уровне.

Таким образом, математическое ожидание ввода в действие жилых домов и объема инвестиций в основной капитал в двух группах равны, а математические ожидания выбросов в атмосферу загрязняющих веществ, обеспеченности амбулаторно-поликлиническими учреждениями и стоимости минимального набора продуктов питания и в этих группах различны.

Т.е. можно заключить, что регионы и первого и второго кластера находятся на одинаковом уровне экономического развития. Т.к. средние показатели выбросов в атмосферу загрязнений, обеспеченности поликлиниками и стоимости продуктов в первом кластере ниже, чем во втором, то есть основание предположить, что регионы первого кластера более благоприятны для жизни населения, чем регионы второго кластера.

Поэтому, как и в предыдущей работе, назовем первый кластер «развитые регионы», а второй — «развивающиеся регионы».

2. В результате дискриминантного анализа все регионы были разбиты на 2 группы: в первую группу вошло 53 региона, во вторую — 31 регион. Для каждой группы регионов проведем регрессионный анализ.

  • Для первой группы.

Изучается зависимость признака Y (номинальная заработная плата) от пяти признаков.

По матрице ковариации видно, что наибольшую корреляцию результативный признак имеет со вторым, четвертым и пятым признаками, и наименьшую — с первым и третьим.

Y

X1

X2

X3

X4

X5

Y

1

X1

0,33556

1

X2

0,633169

0,370211

1

X3

0,253281

0,224761

-0,00711

1

X4

0,783026

0,202281

0,674772

-0,05327

1

X5

0,694317

0,469307

0,854778

0,008817

0,796845

1

Модель имеет неплохое качество, о чем можно судить по оценкам следующих показателей:

Регрессионная статистика

Множественный R

0,851149

R-квадрат

0,724455

Нормированный R-квадрат

0,695142

Стандартная ошибка

2465,44

Наблюдения

53

По таблице определим коэффициенты уравнения регрессии и их значимость:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-16173,2

3783,792

-4,27434

9,29E-05

-23785,2

-8561,2

X1

265,3093

242,5804

Страницы: | 2 | 3 | [4] | 5 |