Глава 28 линейная регрессия

Бизнес-план

Глава 28 линейная регрессия

Очень часто исследователя интересует связь между переменными. Это помогает при анализе их поведения. В этой главе будет разработана модель для описания связи между переменными с математической точки зрения. Начнем с наиболее простых для анализа линейных уравнений.

§ 28.1. ПРОСТАЯ МОДЕЛЬ ЛИНЕЙНОЙ РЕГРЕССИИ

Существует или нет линейная связь между двумя переменными Ху у? Проводим случайную выборку. При значениях Xi, Х2> хп мы наблюдаем значения у, у2, уп соответственно. На плоскости Оху отметим точки с координатами

(*ь Уг)> (*2> г/2>

  • …» (Хп>
  • Уп)Предположим, что точки группируются вокруг некоторой прямой линии у = а + Ъх. Тогда:

п п п п п

П^ХіУі 2>/2*/і ИУі ~ Ь^Хі

о — , а = .

і=1 і=1

Точки не находятся точно на линии у = а + Ьх. Но это неудивительно. Ведь помимо х на поведение у оказывают влияние и другие факторы. Дальнейший анализ полученного уравнения позволяет сказать, насколько сильно влияние неучтенных факторов, действительно ли модель линейна и т. д. На переменные х, у накладывается ряд условий. Для описания природы связи используется термин «регрессия*. Коэффициент Ъ называется показателем наклона линии линейной регрессии.

Пример 100. Изучается зависимость себестоимости единицы изделия (г/, тыс. руб.) от величины выпуска продукции (х, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал п = 5 предприятий и получил следующие результаты (2-й и 3-й столбцы).

Полагая, что между переменными ху у имеет место линейная зависимость, определим выборочное уравнение линейной регрессии. Заполним таблицу.

Номер

X

У

X2

ху

1

2

1,9

4

3,8

2

3

1,7

9

5,1

3

4

1,8

16

7,2

4

5

1,6

25

8

5

6

1,4

36

8,4

Сумма

20

8,4

90

32,5

Поясним, как заполняется таблица. В 4-м столбце указаны квадраты соответствующих чисел 2-го столбца. Каждое число 2-го столбца умножаем на соответствующее число 3-го столбца и результат пишем в 5-м столбце. В последней строке указана сумма чисел соответствующего столбца.

Ь =

п^ХіУі ХхіЕУі

5×32,5-20×8,4 5×90-202

= -0,11.

а =

У =

8,4-(-0,ll)x20

n 5 a + bx = 2,12 + (-0,11)*.

= 2,12.

Задача 100. Фирма провела рекламную кампанию. Через 10 недель фирма решила проанализировать эффективность этого вида рекламы, сопоставив недельные объемы продаж (у, тыс. руб.) с расходами на рекламу (х, тыс.

руб.).

Полагая, что между переменными х, у имеет место линейная зависимость, определить выборочное уравнение линейной регрессии.

X

5

8

6

5

3

9

12

4

3

10

У

72

76

78

70

68

80

82

65

62

90

Замечание. Вместо вычислений коэффициентов а и Ъ по формулам можно воспользоваться соответственно статистическими функциями ОТРЕЗОК (изв_знач_у; изв_знач_х) и НАКЛОН (изв_знач_і/; изв__знач_л;

  • мастера функций fx пакета Excel. Здесь изв_знач_і/ и изв_знач_х — это ссылки на ячейки, содержащие значения переменных у и х соответственно.

п

переменных у и х соответственно,

Обозначим через у в —— и х — —— средние значения

п п

§ 28.2. ОШИБКИ

Проводим случайную выборку. При значениях jq, #2, хп мы наблюдаем значения уі, у2, уп соответственно. Получено уравнение у = а + Ъх. Если вместо л: подставить в это уравнение значения Х, Х2, хп, то будут получены значения уі, fa, Уп> которые, вообще говоря, будут отличаться от Уъ Уъ •••» Уп* Разница yt yt = ^ называется ошибкой (остатком, отклонением).

Значения коэффициентов а и & в уравнении у = а + ftjc, которые рассчитывались по приведенным в § 28.1 формулам, подбирались так, чтобы минимизировать сумму

  • Говорят, что они получены методом паи-меньших квадратов (МНК).

§ 28.3. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ

Мы хотим знать, насколько хорошо приближает наши данные линейная модель. Уі ~ у = (yt ~ уд + (Уі ~ У) = (Уі ~ У) + еь.

Глава линейная регрессия 1

Формула у = а + Ъх только частично объясняет вариацию значений у (а именно, слагаемое yt у).

Но ведь на у влияют и другие факторы. Их влияние скрыто в остатке et. Если бы связь была строго линейной, то et = 0. И так для каждой точки xt.

п

^(Уі ~~ У) — это общая вариация переменной у.

І-1

~ у)2 — это вариация переменной і/, которая объяс-няется формулой у = а + Ьх.

л

  • у і)2 — это вариация переменной у, которая не объ/=і

не объясняется формулой у = а + Ьх.

Ш у)2

Введем характеристику г2 = коэффициент

Ш V)2

детерминации. Эта мера показывает величину вариации переменной у у которая объясняется переменной х при наличии линейной связи этих величин. В случае строгой линейной зависимости между х и у г2 = 1. Если зависимость между х и у отсутствует, то г2 = 0.

Коэффициент корреляции Пирсона:

І(Уі у)2 п±хіУі ±х£Уі

г = і=і *=1 i=l i=1 |r| < 1.

I л I л 7л v2 л7л v2

i=l V i=l vi=l 7 i=l vi=l 7

Вторая дробь — удобная расчетная формула, которую чаще всего используют.

Коэффициент корреляции Пирсона г содержит информацию о поведении у с ростом х. Знак коэффициента корреляции Пирсона г совпадает со знаком коэффициента Ь. Чем ближе г к 1, тем ближе связь между х и у к линейной. При г = 0 линейной связи между х и у не существует (но, возможно, между х и у есть другая зависимость).

Пример 101. Найдем остатки eh коэффициент корреляции Пирсона и коэффициент детерминации в примере 100. у = 2,12 0,Их. Заполним таблицу.

Номер

X

у

у2

£ = 2,12-0,11*

е = у~у

1

2

1,9

3,61

1,90

0,00

2

3

1,7

2,89

1,79

-0,09

3

4

1,8

3,24

1,68

0,12

4

5

1,6

2,56

1,57

0,03

5

6

1,4

1,96

1,46

-0,06

Сумма

20

8,4

14,26

Поясним, как заполняется таблица. В 4-м столбце указаны квадраты соответствующих чисел 3-го столбца.

Каждое число 2-го столбца подставляем в выражение 2,12 — 0,Их и результат пишем в 5-м столбце. В 6-м столбце указана разность чисел 3-го и 5-го столбцов. В последней строке указана сумма чисел соответствующего столбца. Коэффициент корреляции Пирсона:

п п п

i-1 i=l i=l

V і=1 Vi=l 7 і=1 Vi=l 7

5×32,5 20×8,4 Л ЛЛ>|

* -0,904.

V

(5×90 202)(5х 14,26 8,42)

Это значение близко к -1, что свидетельствует об очень сильной отрицательной связи (с ростом х значения у убывают).

Знаки Ь = —0,11 и г = -0,904 совпадают.

Коэффициент детерминации г2 = (-0,904)2 * 0,817, то есть 81,7\% общей вариации себестоимости у зависит от выпуска продукции х.

Наша модель не объясняет 18,3\% вариации себестоимости. Эта часть вариации объясняется факторами, не включенными в модель.

Задача 101. Найти остатки eit коэффициент корреляции Пирсона и коэффициент детерминации в задаче 100.

Замечание. Для вычисления коэффициента корреляции Пирсона можно воспользоваться статистическими функциями ПИРСОН (массив 1; массив 2) или КОРРЕЛ (массив 1; массив 2) мастера функций fx пакета Excel. Массив 1 и массив 2 — это ссылки на ячейки, содержащие значения переменных. Для вычисления коэффициента детерминации можно воспользоваться статистической функцией КВПИРСОН (изв_знач_і/; изв_знач_л:).

§ 28.4. ПРЕДСКАЗАНИЯ И ПРОГНОЗЫ НА ОСНОВЕ ЛИНЕЙНОЙ МОДЕЛИ РЕГРЕССИИ

Мы можем воспользоваться построенной моделью для нахождения значения у при известном значении х. Модель строилась по значениям Х, *2, хп. Поэтому поиск значения у для х из интервала (х, хп) называется предсказанием, а поиск значения у для х вне интервала (xi, хп) называется прогнозом. Чем дальше расположен х от интервала (*1>

  • п)> тем менее точным будет прогноз.

Пример 102. Найдем ожидаемое значение себестоимости у при выпуске продукции X = 5,5 тыс. шт. у = 2,12 0,11*.

Тогда 1/(5,5) 2,12 0,11×5,5 = 1,515 тыс. руб.

Задача 102. Найти ожидаемое значение еженедельного объема продаж у при расходах на рекламу х = 5,5 тыс. руб. в задаче 100.

Замечание. Для прогноза значений переменной у можно воспользоваться статистической функциейТЕНДЕНЦИЯ (изв_знач_і/; изв_знач_х; новзначл:; константа) мастера функций fx пакета Excel. Новзначл: — это ссылка на ячейки, содержащие значения переменной х, для которых ищется прогноз. Если необязательный аргумент константа = 0, то коэффициент а = 0. По известным значениям переменных х, у функция сама подбирает уравнение прямой линии и дает прогноз. Функцию ТЕНДЕНЦИЯ можно использовать и в случае множественной линейной регрессии. Для парной линейной регрессии можно воспользоваться и статистической функцией ПРЕДСКАЗ (х; изв_знач_і/; изв_знач_л:), где х — это значение переменной х, для которого ищется прогноз.

§ 28.5. ОСНОВНЫЕ ПРЕДПОСЫЛКИ МОДЕЛИ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ

Связь между переменными X, у является линейной.

Независимая переменная х может быть использована для прогноза у.

Остатки (то есть ошибки) нормально распределены.

Для всех данных х математическое ожидание ошибки равно нулю и дисперсия ошибки постоянна.

Ошибки независимы.

§ 28.6. ПРОЦЕДУРА ИСПЫТАНИЯ ГИПОТЕЗ

Очень часто генеральная совокупность должна подчиняться некоторым параметрам. Например, фасовочная машина должна наполнять пакеты сахаром по 1 кг. Как узнать, действительно ли генеральная совокупность подчиняется этим ограничениям? С этой целью проводят испытание гипотез.

Из генеральной совокупности проводят выборку объема п. Для этой выборки вычисляют нужные характеристики. Затем формулируют две гипотезы: основную Я0 и альтернативную Hi. Основная гипотеза Hq — это то утверждение, которое подлежит проверке.

Например, гипотеза Hq: генеральная средняя а = 2. Альтернативная гипотеза Ні в этом примере может быть сформулирована любым из следующих трех способов:

  • а) Н’іі а >
  • 2 (правосторонняя проверка);
  • б) Н\ а <
  • 2 (левосторонняя проверка);
  • в) Н\ а ф 2 (двусторонняя проверка).

Исследователь задает доверительную вероятность р — величину, которая отражает степень уверенности исследователя в результате испытания. Для односторонней проверки а = 1 р, для двусторонней проверки а = (1 — р)/2. Величина 1 — р называется уровнем значимости.

По а, п в зависимости от вида решаемой задачи по таблицам находят одну (для односторонней проверки) или две (для двусторонней проверки) граничные точки, которые наносят на координатную ось. Порядок нахождения граничных точек показан далее.

По результатам выборки вычисляется величина, называемая статистикой. Формула для вычисления статистики зависит от вида решаемой задачи. Значение статистики наносят на координатную ось. В зависимости от взаимного расположения значения статистики и граничных точек возможен один из трех вариантов:

  • принимается Hq;
  • отклоняется Н0 и без всякой проверки принимается Ні;
  • доказательство является неубедительным, нужно больше данных.

Для левосторонней проверки:

Отклонение Hq Принятие Hi

(1-р)\%

ПрИНЯТИе Hq

р\%

граничная точка

Для правосторонней проверки:

ПрИНЯТИе Hq

р\%

Отклонение Hq Принятие Ні

(1-р)\%

граничная точка

Для двусторонней проверки:

Отклонение Hq Принятие Hi [(1-р)/2]\%

ПрИНЯТИе Hq

р\%

Отклонение Hq Принятие Hi [(1-р)/2]\%

граничная точка | | граничная точка

Чем выше доверительная вероятность, тем шире область принятия Hq.

§ 28.7. ИСПЫТАНИЕ ГИПОТЕЗЫ ДЛЯ ОЦЕНКИ ЛИНЕЙНОСТИ СВЯЗИ

Между переменными X) у предполагается наличие линейной связи у = а + + є, где ошибка є — это отклонение значения у от линии у = а + р*. Мы производим парную выборку значений переменных х, у и методом наименьших квадратов получаем оценки коэффициентов аир — а и Ь соответственно. Очевидно, что для другой выборки оценки а и Ъ будут другими. Как, зная оценки а и Ь, убедиться, что связь между переменными х, у действительно линейная?

§ 28.7.1. Испытание гипотезы для оценки линейности связи на основе оценки коэффициента корреляции в генеральной совокупности

Показатель наличия линейной связи в генеральной совокупности — это коэффициент корреляции. Для генеральной совокупности он равен р. Нам это значение неизвестно. По данным выборки мы получаем оценку для р — выборочный коэффициент корреляции г — и на основании г проводим испытание гипотезы о наличии линейной связи между переменными х, у в генеральной совокупности. Наш вывод о наличии линейной связи между переменными х, у в генеральной совокупности зависит от объема выборки. Чем больше объем нашей выборки, тем надежнее полученный результат.

#о: р = 0, то есть между переменными X) у отсутствует линейная связь в генеральной совокупности.

Н\ р Ф О, то есть между переменными х, у есть линейная связь в генеральной совокупности.

Задается доверительная вероятность р. Пусть п — объем парной выборки. Двусторонняя проверка, а = (1 р)/2.

По таблице ^-распределения находим ta;n-2В Excel для двусторонней проверки ta;n-2 = = СТЬЮДРАСПОБР(1 -р; п-2), для односторонней проверки ^а;п_2 = СТЬЮДРАСПОБР(2х(1-р>

  • ; п-2).

Граничные точки ±£а;л-2.

Статистика t =^г2(п 2)/(1 г2).

Пример 103. Вернемся к примерам 100, 101. Проверим гипотезу о наличии линейной связи между переменными jc, у в генеральной совокупности. Доверительная вероятность р = 95\%. п = 5.

Hq: р = 0, то есть между переменными х, у отсутствует линейная связь в генеральной совокупности.

Н\ р ф 0, то есть между переменными х, у есть линейная связь в генеральной совокупности.

Проведем двустороннюю проверку.

а = (1 р)/2 = (1 0,95)/2 = 0,025. По таблице *-распределения находим ta;n-2 = *о,025;5-2 = 3,182. Граничные

точки ±3,182. ‘ L ‘

Статистика t ^г2(п 2)/(1 г2) =^0,817х(5 2)/(1 0,817) * 3,660.

Отметим значения на числовой оси.

X

Hi 2,5\%

Но 95\%

X #1

2,5\%

  • 3,1821 3,182| °3,660

Мы отклоняем гипотезу Hq и принимаем гипотезу Hi на уровне значимости 5\%. Между переменными jc, у есть линейная связь в генеральной совокупности.

Задача 103. В задачах 100, 101 проверить гипотезу о наличии линейной связи между переменными х, у в генеральной совокупности. Доверительная вероятность р = 99\%.

§ 28.7.2. Испытание гипотезы для оценки линейности связи на основе показателя наклона линейной регрессии

В случае парной линейной регрессии функция показателя наклона Р аналогична функции коэффициента корреляции. Поэтому нужно ограничиться только одной проверкой.

Я0: Р = 0, то есть между переменными ху у отсутствует линейная связь в генеральной совокупности.

Н\ р Ф 0, то есть между переменными х, у есть линейная связь в генеральной совокупности.

Задается доверительная вероятность р. п — объем парной выборки. Проведем двустороннюю проверку. В этом случае а = (1 -р)/2.

По таблице ^-распределения находим ta;n-2Граничные точки ±ta;n-2Дисперсия распределения остатков вдоль линии регрессии

п

S2 =

S — стандартная ошибка.

п-2

Стандартная ошибка коэффициента Ь:

о 8 S

2(*i *)2

Статистика £ = &/S&.

Пример 104. Вернемся к примерам 100, 101. Проверим гипотезу о наличии линейной связи между переменными ху у в генеральной совокупности. Доверительная вероятность р = 95\%. п = 5.

Hq: р = 0, то есть между переменными у отсутствует линейная связь в генеральной совокупности.

Hi9, р Ф 0, то есть между переменными Ху у есть линейная связь в генеральной совокупности.

Проведем двустороннюю проверку.

а = (1 р)/2 = (1 0,95)/2 0,025.

По таблице t-распределения находим ta;n-2 = *о,025;5-2 = = 3,182. Граничные точки ±3,182.

Номер

et

А

1

0

0

2

-0,09

0,0081

3

0,12

0,0144

4

0,03

0,0009

5

-0,06

0,0036

Сумма

0,0270

s2 = ^

п-2

Sh =

0,027 5-2

= 0,009. S 0,095 0,095

* 0,03.

^90 202/5

Статистика t = b/Sb = -0,11/0,03 * -3,667. Отметим значения на числовой оси.

X

Hi 2,5\% -О

  • 3,667
  • 3,182

Я0 95\% | 3,182

X

#1

2,5\%

Мы отклоняем гипотезу Hq и принимаем гипотезу Hi на уровне значимости 5\%. Между переменными х, у есть линейная связь в генеральной совокупности.

Задача 104. В задачах 100, 101 проверить гипотезу о наличии линейной связи между переменными х,у в генеральной совокупности на основе показателя наклона. Доверительная вероятность р = 99\%.

Глава линейная регрессия 2 Замечание. Для расчета стандартной ошибки вместо

можно воспользоваться статистической функцией CTOIIIYX (изв_знач_і/; извзначл:) мастера функций fx пакета Excel.

§ 28.8. доверительные интервалы в линейном регрессионном анализе

Проведя испытания гипотез (§ 28.7), мы пришли к выводу, что связь между переменными х, у линейна и задается неизвестной нам формулой у = а + fix. Мы производим парную выборку значений переменных х, у и методом наименьших квадратов получаем оценки коэффициентов а и р — а и Ь соответственно. Получена формула у = а + Ьх, которой мы можем воспользоваться для оценки значений у при заданном значении х.

По полученным точечным оценкам строят доверительные интервалы — интервалы значений, в пределах которого, как мы можем надеяться, находятся параметры генеральной совокупности. Наша надежда выражается доверительной вероятностью — вероятностью, с которой доверительный интервал «захватит» истинное значение параметра генеральной совокупности.

Чем выше доверительная вероятность, тем шире доверительный интервал. Значение доверительной вероятности выбирает сам исследователь. Обычно это 0,9; 0,95; 0,99.

Мы ограничимся построением доверительного интервала для показателя наклона линии линейной регрессии. Задается доверительная вероятность р. Пусть п — объем парной выборки. Проведем двустороннюю проверку. В этом случае а = (1 р)/2. По таблице ^-распределения находим ta;n-2Доверительный интервал для показателя наклона линии линейной регрессии имеет вид Ъ ± ta;n-2Sb, где Sb — стандартная ошибка коэффициента Ь.

Пример 105. Вернемся к примерам 100 и 104. Найдем доверительный интервал для показателя наклона линии линейной регрессии. Доверительная вероятность р = 95\%.

Ь ± ta;n-2Sb = -0,11 ± 3,182×0,03 * -0,11 ± 0,10, то есть -0,2І < р < -0,01.

Задача 105. В задачах 100 и 104 найти доверительный интервал для показателя наклона линии линейной регрессии. Доверительная вероятность р = 99\%.

§ 28.9. РЕГРЕССИЯ И Excel

Обычно зависимую переменную называют результативным признаком, а независимую переменную — фактором. Очень часто наблюдается случай, когда результативный признак зависит не от одного, а от многих факторов. Тогда вместо парной линейной регрессии используют множественную линейную регрессию: у =* bo + Ьіхг + ft2*2 + ••

  • + bmxm.

Пусть n — число наблюдений, т — число объясняющих переменных.

Excel позволяет при построении уравнения линейной регрессии большую часть работы сделать очень быстро. Важно понять, как интерпретировать полученные результаты. Воспользуемся надстройкой Пакет анализа.

Сервис -* Анализ данных -* Регрессия -* ОК. Появляется диалоговое окно, которое нужно заполнить. В графе Входной интервал Y: указывается ссылка на ячейки, содержащие значения результативного признака у. В графе Входной интервал X: указывается ссылка на ячейки, содержащие значения факторов хг, хт (т < 16).

Уровень надежности (доверительная вероятность) по умолчанию предполагается равным 95\%. Если исследователя это значение не устраивает, то рядом со словами Уровень надежности нужно поставить * галочку» и указать требуемое значение. Поставив «галочку» рядом со словом константа-ноль, исследователь получит bo — 0 по умолчанию. Если нужны значения остатков et и их график, то нужно поставить «галочки» рядом со словами Остатки и График остатков. Также указываются параметры вывода (Выходной интервал, Новый рабочий лист, Новая рабочая книга).

ОК. Появляется итоговое окно.

Если число в графе Значимость F превышает 1 Уровень надежности, то принимается гипотеза о равенстве нулю коэффициента детерминации.

вывод итогов

Регрессионная статистика

Множественный R r

R-квадрат r2

Нормированный R-квадрат r2

Стандартная ошибка S

Наблюдения п

Дисперсионный анализ

df SS MS F Значимость F

Регрессия т 2фі-у)2 SS/df СтатистикаF=

= МS(perp)/

MS(oct)

Остаток n-m-1 2(&-&)2 SS/df

Итого n-1 Сумма

Коэффициенты

Стандартная ошибка

t-с та тисР-знаНижние Верхние НижВерх-тика чение 95\% 95\% ние ние

(/-пересечение

ь0

Ч

*1

bi

*h

*2

h

\%

ВЫВОД ОСТАТКА

Наблюдение Предсказанный у Остатки

Номер pt et

Если Р-значение превышает 1 Уровень надежности, то соответствующая переменная статистически незначима и ее можно исключить из модели.

Нижние 95\% и Верхние 95\% — это нижние и верхние границы 95-процентных доверительных интервалов для коэффициентов теоретического уравнения линейной регрессии. Если исследователь согласился с принятым по умолчанию значением доверительной вероятности, то последние два столбца будут дублировать два предыдущих. Если исследователь вводил свое значение доверительной вероятности р, то последние два столбца содержат значения соответственно нижней и верхней границы р-процентных доверительных интервалов.

Если надстройки Пакет анализа нет, то можно воспользоваться статистической функцией ЛИНЕЙН мастера функций fx пакета Excel. Перед вызовом этой функции нужно выделить диапазон ячеек следующего размера (для парной регрессии это блок размера 5×2).

ьт

bm-i

h

bo

sbl

R2

S

Статистика F

п-т-1

Тогда после выполнения процедуры в ячейках будут находиться указанные величины. fx -» статистические -* ЛИНЕЙН -* ОК. Появляется диалоговое окно, которое нужно заполнить. Если исследователю требуется Ъ$ = 0, то в графе константа нужно ввести значение 0. В графе статистика указывается значение 1. После этого нажимается не ОК, а комбинация клавиш Ctrl + Shift + Enter.