Многомерный статистический анализ

Реферат

Вмногомерном статистическом анализе выборка состоит из элементов многомерногопространства. Отсюда и название этого раздела эконометрических методов. Измногих задач многомерного статистического анализа рассмотрим две — восстановления зависимости и классификации.

Оцениваниелинейной прогностической функции

Начнемс задачи точечного и доверительного оценивания линейной прогностической функцииодной переменной.

Исходныеданные – набор n пар чисел (tk, xk), k = 1,2,…,n, где tk– независимая переменная (например, время), а – зависимая(например, индекс инфляции, курс доллара США, объем месячного производства илиразмер дневной выручки торговой точки).

Предполагается, что переменные связанызависимостью

xk= a (tk — tср)+ b + ek, k = 1,2,…,n,

гдеa и b – параметры, неизвестные статистику и подлежащие оцениванию, а –погрешности, искажающие зависимость. Среднее арифметическое моментов времени

tср= (t1 + +…+tn ) / n

введенов модель для облегчения дальнейших выкладок.

Обычнооценивают параметры a и b линейной зависимости методом наименьших квадратов.Затем восстановленную зависимость используют для точечного и интервальногопрогнозирования.

Какизвестно, метод наименьших квадратов был разработан великим немецкимматематиком К. Гауссом в 1794 г. Согласно этому методу для расчета наилучшейфункции, приближающей линейным образом зависимость x от t, следует рассмотретьфункцию двух переменных

/>

/> <td/> />
Оценкиметода наименьших квадратов — это такие значения a* и b*, при которых функция f(a,b) достигает минимума по всем значениям аргументов.

Чтобынайти эти оценки, надо вычислить частные производные от функции f(a,b) поаргументам a и b, приравнять их 0, затем из полученных уравнений найти оценки:Имеем:

/>

Преобразуемправые части полученных соотношений. Вынесем за знак суммы общие множители 2 и(-1).

Затем рассмотрим слагаемые. Раскроем скобки в первом выражении, получим,что каждое слагаемое разбивается на три. Во втором выражении также каждоеслагаемое есть сумма трех. Значит, каждая из сумм разбивается на три суммы.Имеем:

/> <td/> />
/>

Приравняемчастные производные 0. Тогда в полученных уравнениях можно сократить множитель(-2).

Поскольку

/> (1)

уравненияприобретают вид

/>

/>

Следовательно,оценки метода наименьших квадратов имеют вид

55 стр., 27176 слов

Методические рекомендации: Ключевые слова. модель регрессии, метод наименьших квадратов, остатки регрессии

... моделей не столь критична по сравнению с первыми тремя. При выполнимости указанных предпосылок имеет место теорема ГауссаМаркова: оценки (7) и (8), полученные по МНК, имеют наименьшую дисперсию в ... 4. Валентинов, В. А. Эконометрика [Электронный ресурс]: Практикум / В. А. Валентинов. ... Спецификация линейной модели парной регрессии. В зависимости от количества факторов, включенных в уравнение регрессии, ...

/> (2)

/> <td/> />
Всилу соотношения (1) оценку а* можно записать в более симметричном виде:

Этуоценку нетрудно преобразовать и к виду

/>

Следовательно,восстановленная функция, с помощью которой можно прогнозировать иинтерполировать, имеет вид

x*(t)= a*(t — tср)+ b*.

Обратимвнимание на то, что использование tср в последней формуле ничуть неограничивает ее общность. Сравним с моделью вида

xk= c tk+ d + ek, k = 1,2,…,n.

Ясно,что

/>

Аналогичнымобразом связаны оценки параметров:

/>

Дляполучения оценок параметров и прогностической формулы нет необходимостиобращаться к какой-либо вероятностной модели. Однако для того, чтобы изучатьпогрешности оценок параметров и восстановленной функции, т.е. строитьдоверительные интервалы для a*, b* и x*(t), подобная модель необходима.

Непараметрическаявероятностная модель. Пусть значения независимой переменной t детерминированы,а погрешности ek, k = 1,2,…,n, — независимые одинаково распределенныеслучайные величины с нулевым математическим ожиданием и дисперсией />неизвестнойстатистику.

Вдальнейшем неоднократно будем использовать Центральную Предельную Теорему (ЦПТ)теории вероятностей для величин ek, k = 1,2,…,n (с весами), поэтомудля выполнения ее условий необходимо предположить, например, что погрешности ek, k = 1,2,…,n, финитны или имеют конечный третий абсолютный момент.Однако заострять внимание на этих внутриматематических «условияхрегулярности» нет необходимости.

Асимптотическиераспределения оценок параметров. Из формулы (2) следует, что

/> (5)

СогласноЦПТ оценка b* имеет асимптотически нормальное распределение с математическиможиданием b и дисперсией />оценка которой приводится ниже.

/>

Изформул (2) и (5) вытекает, что

Последнееслагаемое во втором соотношении при суммировании по i обращается в 0, поэтомуиз формул (2-4) следует, что

/> (6)

Формула(6) показывает, что оценка /> является асимптотическинормальной с математическим ожиданием />и дисперсией

/>

Отметим,что многомерная нормальность имеет быть, когда каждое слагаемое в формуле (6)мало сравнительно со всей суммой, т.е.

/>/>/>

Изформул (5) и (6) и исходных предположений о погрешностях вытекает такженесмещенность оценок параметров.

Несмещенностьи асимптотическая нормальность оценок метода наименьших квадратов позволяютлегко указывать для них асимптотические доверительные границы (аналогичнограницам в предыдущей главе) и проверять статистические гипотезы, например, оравенстве определенным значениям, прежде всего 0. Предоставляем читателювозможность выписать формулы для расчета доверительных границ и сформулироватьправила проверки упомянутых гипотез.

Асимптотическоераспределение прогностической функции. Из формул (5) и (6) следует, что

20 стр., 9984 слов

Дипломная работа: Оценка экономической эффективности инвестиционного проекта на ...

... городского округа город Нефтекамск. Для достижения цели дипломной работы в ходе его выполнения подлежит решению ряд задач: представить теоретические аспекты оценки экономической эффективности инвестиционного проекта; дать общую характеристику учреждения - МБУ ...

/>

т.е.рассматриваемая оценка прогностической функции является несмещенной. Поэтому

/>

Приэтом, поскольку погрешности независимы в совокупности и />, то

/>

Такимобразом,

/>

Итак,оценка />являетсянесмещенной и асимптотически нормальной. Для ее практического использованиянеобходимо уметь оценивать остаточную дисперсию />

Оцениваниеостаточной дисперсии. В точках tk, k = 1,2,…,n, имеются исходныезначения зависимой переменной и восстановленные значения x*(tk).Рассмотрим остаточную сумму квадратов

/>

Всоответствии с формулами (5) и (6)

/>

Найдемматематическое ожидание каждого из слагаемых:

/>

Изсделанных ранее предположений вытекает, что при />имеем />следовательно, по закону большихчисел статистика/>SS/n является состоятельнойоценкой остаточной дисперсии />.

Получениемсостоятельной оценкой остаточной дисперсии завершается последовательностьзадач, связанных с рассматриваемым простейшим вариантом метода наименьшихквадратов. Не представляет труда выписывание верхней и нижней границ дляпрогностической функции:

/>

гдепогрешность />имеетвид

/>

Здесьp — доверительная вероятность, U(p), как и в главе 4 — квантиль нормальногораспределения порядка (1+р)/2, т.е.

/>

Приp= 0,95 (наиболее применяемое значение) имеем U(p) = 1,96. Для другихдоверительных вероятностей соответствующие значения квантилей можно найти встатистических таблицах (см., например, наилучшее в этой сфере издание [1]).

Сравнениепараметрического и непараметрического подходов. Во многих литературныхисточниках рассматривается параметрическая вероятностная модель методанаименьших квадратов. В ней предполагается, что погрешности имеют нормальноераспределение. Это предположение позволяет математически строго получить рядвыводов. Так, распределения статистик вычисляются точно, а не в асимптотике,соответственно вместо квантилей нормального распределения используются квантилираспределения Стьюдента, а остаточная сумма квадратов делится не на n, а на (n-2).

Ясно, что при росте объема данных различия стираются.

Рассмотренныйвыше непараметрический подход не использует нереалистическое предположение онормальности погрешностей (см. начало главы 4)… Платой за это являетсяасимптотический характер результатов. В случае простейшей модели методанаименьших квадратов оба подхода дают практически совпадающие рекомендации. Этоне всегда так, не всегда два подхода бают близкие результаты. Напомним, что взадаче обнаружения выбросов методы, опирающиеся на нормальное распределение,нельзя считать обоснованными, и обнаружено это было с помощьюнепараметрического подхода (см. главу 4).

Общиепринципы. Кратко сформулируем несколько общих принципов построения, описания ииспользования эконометрических методов анализа данных. Во-первых, должны бытьчетко сформулированы исходные предпосылки, т.е. полностью описана используемаявероятностно-статистическая модель. Во-вторых, не следует приниматьпредпосылки, которые редко выполняются на практике. В-третьих, алгоритмырасчетов должны быть корректны с точки зрения математико-статистической теории.В-четвертых, алгоритмы должны давать полезные для практики выводы.

42 стр., 20926 слов

Дипломная работа: Анализ деятельности предприятия ООО «Квант» на основе ...

... функции и экономический анализ 4.2 Комплекснозначные производственные функции предприятия ООО «Квант» 4.3 Прогнозирование и анализ деятельности предприятия ООО «КВАНТ» с помощью производственных функций ... экономико-математического моделирования, появляется мало. Это вызвано ... функций определяются путём обобщения решений оптимизационных задач при меняющихся параметрах. Например, производственная функция ...

Применительнок задаче восстановления зависимостей это означает, что целесообразно применять непараметрическийподход, что и сделано выше. Однако предположение нормальности, хотя и оченьсильно сужает возможности применения, с чисто математической точки зренияпозволяет продвинуться дальше. Поэтому для первоначального изучения ситуации,так сказать, «в лабораторных условиях», нормальная модель можетоказаться полезной.

Примероценивания по методу наименьших квадратов. Пусть даны n=6пар чисел (tk, xk), k = 1,2,…,6, представленных вовтором и третьем столбцах табл.1. В соответствии с формулами (2) и (4) выше длявычисления оценок метода наименьших квадратов достаточно найти суммы выражений,представленных в четвертом и пятом столбцах табл.1.

Табл.1.Расчет по методу наименьших квадратов при построении

линейнойпрогностической функции одной переменной

i

/>

/>

/>

/>

/>

(/>)2

1 1 1 3,14 12,17 -0,17 0,03 2 3 9 9,42 18,45 1,55 2,40 3 4 12,56 21,59 -1,59 2,53 4 7 224 21,98 31,01 0,99 0,98 5 9 315 28,26 37,29 -2,29 5,24 6 100 420 31,40 40,43 1,57 2,46

/>

161 256 1111 0,06 13,64

/>

5,67 26,83 42,67 185,17

Всоответствии с формулой (2) b*=26,83, а согласно формуле (4)

/>

Следовательно,прогностическая формула имеет вид

/>

Следующийэтап анализа данных — оценка точности приближения функции методом наименьшихквадратов. Сначала рассматриваются т.н. восстановленные значения

/>

Этоте значения, которые полученная в результате расчетов прогностическая функцияпринимает в тех точках, в которых известны истинные значения зависимойпеременной xi.

Вполнеестественно сравнить восстановленные и истинные значения. Это и сделано вшестом — восьмом столбцах табл. 1. Для простоты расчетов в шестом столбцепредставлены произведения />, седьмой отличается от шестогодобавлением константы 9,03 и содержит восстановленные значения. Восьмой столбец- это разность третьего и седьмого.

Непосредственныйанализ восьмого столбца табл.1 показывает, что содержащиеся в нем числасравнительно невелики по величине по сравнению с третьим столбцом (на порядокменьше по величине).

Кроме того, знаки «+» и «-» чередуются.Эти два признака свидетельствуют о правильности расчетов. При использованииметода наименьших квадратов знаки не всегда чередуются. Однако если сначалаидут только плюсы, а потом только минусы (или наоборот, сначала только минусы,а потом только плюсы), то это верный показатель того, что в вычисленияхдопущена ошибка.

Верноследующее утверждение.

Теорема.

/>

Доказательствоэтой теоремы оставляем читателю в качестве упражнения.

Однакосумма по восьмому столбцу дает 0,06, а не 0. Незначительное отличие от 0связано с ошибками округления при вычислениях. Близость суммы значенийзависимой переменной и суммы восстановленных значений — практический критерийправильности расчетов.

Впоследнем девятом столбце табл.1 приведены квадраты значений из восьмогостолбца. Их сумма — это остаточная сумма квадратов SS= 13,64. В соответствии со сказанным выше оценками дисперсии погрешностей и ихсреднего квадратического отклонения являются

15 стр., 7488 слов

Курсовая работа: Модели множественной линейной регрессии

... параметров уравнения линейной множественной регрессии Параметры уравнения множественной регрессии можно оценить методом наименьших квадратов, составив и решив систему нормальных линейных уравнений. Кроме того, для линейной множественной регрессии ... курсовой работы производились c помощью приложения MS Excel. 1. Модели множественной линейной регрессии Построение уравнения множественной регрессии ...

/>

Рассмотримраспределения оценок параметров. Оценка b* имеет асимптотически нормальноераспределение с математическим ожиданием b и дисперсией, которая оцениваетсякак 2,27/6=0,38 (здесь считаем, что 6 — «достаточно большое» число,что, конечно, можно оспаривать).

Оценкой среднего квадратического отклоненияявляется 0,615. Следовательно, при доверительной вероятности 0,95 доверительныйинтервал для параметра b имеет вид (26,83 — 1,96.0,615; 26,83 + 1,96.0,615)= (25,625; 28,035).

Вформулах для дисперсий участвует величина

/>

Подставивчисленные значения, получаем, что

/>

Дисперсиядля оценки а* коэффициента при линейном члене прогностической функцииоценивается как 2,27/63,1=0,036, а среднее квадратическое отклонение — как0,19. Следовательно, при доверительной вероятности 0,95 доверительный интервалдля параметра а имеет вид (3,14 — 1,96.0,19; 3,14 + 1,96,0,19)= (2,77; 3,51).

Прогностическаяформула с учетом погрешности имеет вид (при доверительной вероятности 0,95)

/>

Вэтой записи сохранено происхождение различных составляющих. Упростим:

/>

Например,при t = эта формула дает

/>

Следовательно,нижняя доверительная граница — это 44,095, а верхняя доверительная граница — это 49,325.

Насколькодалеко можно прогнозировать? Обычный ответ таков — до тех пор, пока сохраняетсятот стабильный комплекс условий, при котором справедлива рассматриваемаязависимость. Изобретатель метода наименьших квадратов Карл Гаусс исходил иззадачи восстановления орбиты астероида (малой планеты) Церера. Движениеподобных небесных тел может быть рассчитано на сотни лет. А вот параметры комет(например, срок возвращения) не поддаются столь точному расчету, поскольку завремя пребывания в окрестности Солнца сильно меняется масса кометы. Всоциально-экономической области горизонты надежного прогнозирования еще менееопределены. В частности, они сильно зависят от решений центральной власти.

Чтобывыявить роль погрешностей в прогностической формуле, рассмотрим формальныйпредельный переход /> Тогда слагаемые 9,03; 1/6; 5,67становятся бесконечно малыми, и

/>

Такимобразом, погрешности составляют около

/>

оттренда (математического ожидания) прогностической функции. Всоциально-экономических исследованиях подобные погрешности считаются вполнеприемлемыми.

Основылинейного регрессионного анализа

Впредыдущем пункте метод наименьших квадратов описан в простейшем случае. Ондопускает различные обобщения. Например, метод наименьших квадратов даеталгоритм расчетов в случае, если исходные данные – по-прежнему набор n парчисел (tk, xk), k = 1,2,…,n, где –независимая переменная (например, время), а – зависимая(например, индекс инфляции — см. главу 7), а восстанавливать надо не линейнуюзависимость, а квадратическую:

/>

Следуетрассмотреть функцию трех переменных

/>

Оценкиметода наименьших квадратов — это такие значения параметров a*, b* и с*, прикоторых функция f(a,b, с) достигает минимума по всем значениям аргументов.Чтобы найти эти оценки, надо вычислить частные производные от функции f(a,b, с)по аргументам a, b и с, приравнять их 0, затем из полученных уравнений найтиоценки: Имеем:

16 стр., 7557 слов

Курсовая работа: Кадастровая оценка земель сельскохозяйственного предприятия «Вперед» ...

... Главными задачами курсовой работы являются экономическая и кадастровая оценка земель "Вперед", а так же практическое применение результатов оценки. Объектом исследования данной курсовой работы является сельскохозяйственное ... факторами. Затем вычисляется ошибка коэффициента корреляции ( mr ) по формуле: r - ошибка расчета коэффициента корреляции; r - коэффициент корреляции; n - число наблюдений. ...

/>

Приравниваячастную производную к 0, получаем линейное уравнение относительно трехнеизвестных параметров a,b,c:

/>

Приравниваячастную производную по параметру b к 0, аналогичным образом получаем уравнение

/>

Наконец,приравнивая частную производную по параметру с к 0, получаем уравнение

/>

Решаясистему трех уравнений с тремя неизвестными, находим оценки метода наименьшихквадратов.

Другиезадачи, рассмотренные в предыдущем пункте (доверительные границы для параметрови прогностической функции и др.), также могут быть решены. Соответствующиеалгоритмы более громоздки. Для их записи полезен аппарат матричной алгебры(см., например, одну из лучших в этой области монографий [2]).

Для реальныхрасчетов используют соответствующие компьютерные программы.

Разделмногомерного статистического анализа, посвященный восстановлению зависимостей,называется регрессионным анализом. Термин «линейный регрессионныйанализ» используют, когда рассматриваемая функция линейно зависит отоцениваемых параметров (от независимых переменных зависимость может бытьпроизвольной).

Теория оценивания неизвестных параметров хорошо развита именно вслучае линейного регрессионного анализа. Если же линейности нет и нельзяперейти к линейной задаче, то, как правило, хороших свойств от оценок ожидатьне приходится.

Продемонстрируемподходы в случае зависимостей различного вида. Если зависимость имеет видмногочлена (полинома)

/>

токоэффициенты многочлена могут быть найдены путем минимизации функции

/>

Функцияот t не обязательно должна бытьмногочленом. Можно, например, добавить периодическую составляющую,соответствующую сезонным колебаниям. Хорошо известно, например, что инфляция(рост потребительских цен) имеет четко выраженный годовой цикл — в среднем ценыбыстрее всего растут зимой, в декабре — январе, а медленнее всего (иногда всреднем даже падают) летом, в июле — августе. Пусть для определенности

/>

тогданеизвестные параметры могут быть найдены путем минимизации функции

/>

ПустьI(t)-индекс инфляции в момент t.Принцип стабильности условий приводит к гипотезе о постоянстве темпов ростасредних цен, т.е. индекса инфляции. Таким образом, естественная модель дляиндекса инфляции – это

/>

Этамодель не является линейной, метод наименьших квадратов непосредственноприменять нельзя. Однако если прологарифмировать обе части предыдущегоравенства:

/>

тополучим линейную зависимость, рассмотренную в первом пункте настоящей главы.

Независимыхпеременных может быть не одна, а несколько. Пусть, например, по исходным данным/>требуетсяоценить неизвестные параметры a и bв зависимости

/>

где/>

  • погрешность. Это можно сделать, минимизировав функцию

/>

Зависимостьот х и у не обязательно должна быть линейной. Предположим, что из каких-тосоображений известно, что зависимость должна иметь вид

12 стр., 5691 слов

Курсовой проект: Сравнительный анализ эконометрических моделей регрессии

... коэффициенты, представленные в общем виде, конкретными численными значениями. В эконометрике разрабатываются специальные методы анализа, ... уравнением; - система одновременных уравнений. Классификация задач, решаемых с помощью ... независимых (объясняющих) переменных и параметров. Этот класс включает модели множественной ... ряда. Они представляют собой систему линейных зависимостей между прошлыми и ...

/>

тогдадля оценки пяти параметров необходимо минимизировать функцию

/>

Болееподробно рассмотрим пример из микроэкономики. В одной из оптимизационныхмоделей поведения фирмы используется т.н. производственная функция f(K,L),задающая объем выпуска в зависимости от затрат капитала Kи труда L. В качествеконкретного вида производственной функции часто используется так называемаяфункция Кобба-Дугласа

/>

Однакооткуда взять значения параметров /> и />? Естественно предположить, чтоони — одни и те же для предприятий отрасли. Поэтому целесообразно собратьинформацию />гдеfk — объем выпуска на k-ом предприятии, — объем затраткапитала на k-ом предприятии, — объем затрат труда на k-омпредприятии (в кратком изложении здесь не пытаемся дать точных определенийиспользуемым понятиям из экономики предприятия).

По собранной информацииестественно попытаться оценить параметры /> и />. Но они входят в зависимостьнелинейно, поэтому сразу применить метод наименьших квадратов нельзя. Помогаетлогарифмирование:

/>

Следовательно,целесообразно сделать замену переменных

/>

азатем находить оценки параметров /> и />, минимизируя функцию

/>

Найдемчастные производные:

/>

/>

Приравняемчастные производные к 0, сократим на 2, раскроем скобки, перенесем свободныечлены вправо. Получим систему двух линейных уравнений с двумя неизвестными:

/> <td/> />
/>

Такимобразом, для вычисления оценок метода наименьших квадратов необходимо найтипять сумм

/>

Дляупорядочения расчета этих сумм может быть использована таблица типа той, чтоприменялась в первом пункте настоящей главы. Отметим, что рассмотренная тампостановка переходит в разбираемую сейчас при />

Подходящаязамена переменных во многих случаях позволяет перейти к линейной зависимости.Например, если

/>

тозамена z=1/yприводит к линейной зависимости a + bx.Если y=(a+bx)2,то замена /> приводитк линейной зависимости a + bx.

Основнойпоказатель качества регрессионной модели. Одни и те же данные можнообрабатывать различными способами. Показателем отклонений данных от модели служитостаточная сумма квадратов SS.Чем этот показатель меньше, тем приближение лучше, значит, и модель лучшеописывает реальные данные. Однако это рассуждение годится только для моделей содинаковым числом параметров. Ведь если добавляется новый параметр, по которомуможно минимизировать, то и минимум, как правило, оказывается меньше.

Вкачестве основного показателя качества регрессионной модели используют оценкуостаточной дисперсии

/>

скорректированнуюна число m параметров,оцениваемых по наблюдаемым данным. В случае линейной прогностической модели,рассмотренной в первом пункте настоящей главы, оценка остаточной дисперсииимеет вид

/>

посколькучисло оцениваемых параметров m=2.

Почемуэта формула отличается от приведенной в первом пункте? Там в знаменателе n, аздесь — (n-2).

Дело в том, что в первом пункте рассмотрена непараметрическаятеория при большом объеме данных (при />, а при безграничном возрастании nразница между n и (n-2) сходит на нет.

3 стр., 1333 слов

Реферат: Кластерный анализ в задачах социально-экономического прогнозирования

... кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в ... значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие ...

Авот при подборе вида модели знаменатель дроби, оценивающей остаточнуюдисперсию, приходится корректировать на число параметров. Если этого не делать,то придется заключить, что многочлен второй степени лучше соответствует данным,чем линейная функция, многочлен третьей степени лучше приближает исходныеданные, чем многочлен второй степени, и т.д. В конце концов доходим домногочлена степени (n-1) с n коэффициентами, который проходит через всезаданные точки. Но его прогностические возможности, скорее всего, существенноменьше, чем у линейной функции. Излишнее усложнение эконометрических моделейвредно.

Типовоеповедение скорректированной оценки остаточной дисперсии

/>

взависимости от параметра m в случае расширяющейся системы эконометрическихмоделей выглядит так. Сначала наблюдаем заметное убывание. Затем оценкаостаточной дисперсии колеблется около некоторой константы (теоретическогозначения дисперсии погрешности).

Пояснимситуацию на примере эконометрической модели в виде многочлена

/>

Пустьэта модель справедлива при /> При /> в скорректированной оценкеостаточной дисперсии учитываются не только погрешности измерений, но исоответствующие (старшие) члены многочлена (предполагаем, что коэффициенты приних отличны от 0).

При /> имеем

/>

Следовательно,скорректированная оценка остаточной дисперсии будет колебаться около указанногопредела. Поэтому в качестве оценки неизвестной эконометрику степени многочлена(полинома) можно использовать первый локальный минимум скорректированной оценкиостаточной дисперсии, т.е.

/>

Вработе [3] найдено предельное распределение этой оценки степени многочлена.

Теорема.При справедливости некоторых условий регулярности

/>

где

/>

Такимобразом, предельное распределение оценки m*степени многочлена (полинома) является геометрическим. Это означает, вчастности, что оценка не является состоятельной. При этом вероятность получитьменьшее значение, чем истинное, исчезающе мала. Далее имеем:

/>

/>

/>

Разработаныи иные методы оценивания неизвестной степени многочлена, например, с помощьюмногократного применения процедуры проверки адекватности регрессионнойзависимости с помощью статистики Фишера (см. работу [3]).

Предельное поведениеоценок — таково же, как в приведенной выше теореме, только значение параметра /> иное.

Линейныйи непараметрические парные коэффициенты корреляции. Термин«корреляция» означает «связь». В эконометрике этот терминобычно используется в сочетании «коэффициенты корреляции».

Рассмотримспособы измерения связи между двумя случайными переменными. Пусть исходнымиданными является набор случайных векторов /> Коэффициентом корреляции, болееподробно, линейным парным коэффициентом корреляции К. Пирсона называется (см.приложение 1 в конце настоящей книги)

/>

Еслиrn = 1, то /> причем a>0.Если же rn= -1, то /> причемa<0. Таким образом, близостькоэффициента корреляции к 1 (по абсолютной величине) говорит о достаточнотесной линейной связи.

Коэффициентыкорреляции типа используются во многих алгоритмах многомерногостатистического анализа эконометрических данных. В теоретических рассмотренияхчасто считают, что случайный вектор имеет многомерное нормальное распределение.Распределения реальных данных, как правило, отличны от нормальных (см. главу4).

19 стр., 9152 слов

Курсовая работа: Кластеры как новая форма конкурентных отношений в современной экономике

... экономическое пространство 5 . 1.2 Виды кластеров Существует немало классификаций кластеров в зависимости от разных признаков. ... информации о самих кластерах, её анализ, выявление определённых закономерностей развития кластеров, изучение соответствующих статистических данных и заключение ... развитые, так и только начинающие формировать рыночную экономику – все активнее используют кластерный подход в ...

Почему же распространено представление о многомерном нормальномраспределении? Дело в том, что теория в этом случае проще. В частности,равенство 0 теоретического коэффициента корреляции (см. приложение 1)эквивалентно независимости случайных величин. Поэтому проверка независимостисводится к проверке статистической гипотезы о равенстве 0 теоретическогокоэффициента корреляции. Эта гипотеза принимается, если />, где/> — некоторое граничноезначение, зависящее от объема выборки nи уровня значимости />.

Еслислучайные вектора /> независимы и одинаковораспределены, то выборочный коэффициент корреляции сходится к теоретическомупри безграничном возрастании объема выборки:

/>

(сходимостьпо вероятности).

Болеетого, выборочный коэффициент корреляции является асимптотически нормальным. Этоозначает, что

/>

где/> — функциястандартного нормального распределения с математическим ожиданием 0 и дисперсией1, а />

  • асимптотическая дисперсия выборочного коэффициента корреляции. Она имеетдовольно сложное выражение, приведенное в монографии [4, с.393]:

/>

Здесьпод /> понимаютсятеоретические центральные моменты порядка kи m, а именно,

/>

(см.приложение 1 в конце книги).

Длярасчета непараметрического коэффициента ранговой корреляции Спирмена необходимосделать следующее. Для каждого xi<sub/>рассчитатьего ранг riв вариационном ряду, построенном по выборке />Для каждого yi<sub/>рассчитатьего ранг qiв вариационном ряду, построенном по выборке /> Для набора из nпар />вычислить(линейный) коэффициент корреляции. Он называется коэффициентом ранговойкорреляции, поскольку определяется через ранги. В качестве примера рассмотримданные из табл.2 (см. монографию [5]).

Табл.2.Данные для расчета коэффициентов корреляции

i 1 2 3 4 5 5 25 6 7 300 1 2 3 4 5 1 2 3 4 5

Дляданных табл.2 коэффициент линейной корреляции равен 0,83, непосредственнойлинейной связи нет. А вот коэффициент ранговой корреляции равен 1, посколькуувеличение одной переменной однозначно соответствует увеличению другойпеременной. Во многих экономических задачах, например, при выборе инвестиционныхпроектов для осуществления, достаточно именно монотонной зависимости однойпеременной от другой.

Посколькусуммы рангов и их квадратов нетрудно подсчитать, то коэффициент ранговойкорреляции Спирмена равен

/>

Отметим,что коэффициент ранговой корреляции Спирмена остается постоянным при любомстрого возрастающем преобразовании шкалы измерения результатов наблюдений.Другими словами, он является адекватным в порядковой шкале (см. главу 3), как идругие ранговые статистики (см. статистики Вилкоксона, Смирнова, типаомега-квадрат для проверки однородности независимых выборок в главе 4 и общееобсуждение в главе 8).

Широкоиспользуется также коэффициент ранговой корреляции />Кендалла, коэффициент ранговойконкордации Кендалла и Б. Смита и др. Наиболее подробное обсуждение этойтематики содержится в монографии [6], необходимые для практических расчетовтаблицы имеются в справочнике [1]. Дискуссия о выборе вида коэффициентовкорреляции продолжается до настоящего времени [5].

Непараметрическаярегрессия. Рассмотрим общее понятие регрессии как условного математическогоожидания. Пусть случайный вектор />имеет плотность p(x,y).

Какизвестно из любого курса теории вероятностей, плотность условного распределения/> приусловии /> имеетвид

/>

Условноематематическое ожидание, т.е. регрессионная зависимость, имеет вид

/>

Такимобразом, для нахождения оценок регрессионной зависимости достаточно найтиоценки совместной плотности распределения вероятности /> такие, что

/>

при/> Тогданепараметрическая оценка регрессионной зависимости

/>

при/> будетсостоятельной оценкой регрессии как условного математического ожидания

/>

Общийподход к построению непараметрических оценок плотности распределениявероятностей развит в главе 8 ниже.



Основныепонятия теории классификации

Привнедрении современных эконометрических и статистических методов в практикутехнико-экономических исследований, при разработке соответствующих программныхпродуктов невозможно обойтись без классификации этих методов. Естественноисходить из вида обрабатываемых данных. В соответствии с современными воззрениямиделим эконометрику и прикладную статистику на четыре области:

  • статистика случайных величин (одномерная статистика);
  • многомерный статистический анализ;
  • статистика временных рядов и случайных величин;
  • статистика объектов нечисловой природы.

Впервой области элемент выборки — число, во второй — вектор, в третьей — функция, в четвертой — объект нечисловой природы. Термин «объектнечисловой природы» относится к элементам математического пространства, неявляющегося векторным (линейным).

Их нельзя складывать, умножать на числа, вотличие от чисел, векторов и функций. Примерами являются бинарные отношения(упорядочения, разбиения на классы, толерантности); множества, нечеткиемножества; результаты измерений в номинальной и порядковой шкалах (т.е. покачественным признакам), в частности булевы вектора; вектора разнотипныхпризнаков; тексты и т.д. (подробнее см., например, главу 8).

Внастоящем пункте рассматривается важное направление эконометрики и прикладнойстатистики – математические методы классификации. Основная их часть относится кстатистике объектов нечисловой природы, а именно, методы классификации,основанные на расстояниях между объектами.

Основныенаправления в математической теории классификации. Какие научные исследованияотносить к этой теории? Исходя из потребностей специалиста, применяющегоматематические методы классификации, целесообразно принять, что сюда входятисследования, во-первых, отнесенные самими авторами к этой теории; во вторых,связанные с ней общностью тематики, хотя бы их авторы и не упоминали термин«классификация». Это предполагает ее сложную внутреннюю структуру.

Влитературных источниках наряду с термином «классификация» в близких смыслахиспользуются термины «группировка», «распознавание образов», «диагностика»,«дискриминация», «сортировка» и др. Терминологический разнобой связан, преждевсего, с традициями научных кланов, к которым относятся авторы публикаций, атакже с внутренним делением самой теории классификации.

Внаучных исследованиях по современной теории классификации можно выделить дваотносительно самостоятельных направления. Одно из них опирается на опыт такихнаук, как биология, география, геология, и таких прикладных областей, какведение классификаторов продукции и библиотечное дело. Типичные объектырассмотрения — классификация химических элементов (таблица Д.И. Менделеева),биологическая систематика, универсальная десятичная классификация публикаций(УДК), классификатор товаров на основе штрих-кодов.

Другоенаправление опирается на опыт технических исследований, экономики,маркетинговых исследований, социологии, медицины. Типичные задачи — техническаяи медицинская диагностика, а также, например, разбиение на группы отраслейпромышленности, тесно связанных между собой, выделение групп однородной продукции.Обычно используются такие термины, как «распознавание образов» или«дискриминантный анализ». Это направление обычно опирается на математическиемодели; для проведения расчетов интенсивно используется ЭВМ. Однако относитьего к математике столь же нецелесообразно, как астрономию или квантовуюмеханику. Рассматриваемые математические модели можно и нужно изучать наформальном уровне, и такие исследования проводятся. Но направление в целомсконцентрировано на решении конкретных задач прикладных областей и вносит вкладв технические или экономические науки, медицину, социологию, но, как правило,не в математику. Использование математических методов как инструментаисследования нельзя относить к чистой математике.

В60-х годах века внутри прикладной статистики достаточно четко оформиласьобласть, посвященная методам классификации. Несколько модифицируя формулировкиМ. Дж. Кендалла и А. Стьюарта 1966 г. (см. русский перевод [7, с.437]), втеории классификации выделим три подобласти: дискриминация (дискриминантныйанализ), кластеризация (кластер-анализ), группировка. Опишем эти подобласти.

Вдискриминантном анализе классы предполагаются заданными — плотностямивероятностей или обучающими выборками. Задача состоит в том, чтобы вновьпоступающий объект отнести в один из этих классов. У понятия «дискриминация»имеется много синонимов: диагностика, распознавание образов с учителем,автоматическая классификация с учителем, статистическая классификация и т.д.

Прикластеризации и группировке целью является выявление и выделение классов.Синонимы: построение классификации, распознавание образов без учителя,автоматическая классификация без учителя, таксономия и др. Задачакластер-анализа состоит в выяснении по эмпирическим данным, насколько элементы«группируются» или распадаются на изолированные«скопления», «кластеры»(от cluster(англ.) — гроздь, скопление).

Иными словами, задача — выявление естественногоразбиения на классы, свободного от субъективизма исследователя, а цель — выделение групп однородных объектов, сходных между собой, при резком отличииэтих групп друг от друга.

Пригруппировке, наоборот, «мы хотим разбить элементы на группы независимо от того,естественны ли границы разбиения или нет» [7, с.437]. Цель по-прежнему состоитв выявлении групп однородных объектов, сходных между собой (как вкластер-анализе), однако «соседние» группы могут не иметь резких различий (вотличие от кластер-анализа).

Границы между группами условны, не являютсяестественными, зависят от субъективизма исследователя. Аналогично прилесоустройстве проведение просек (границ участков) зависит от специалистовлесного ведомства, а не от свойств леса.

Задачикластеризации и группировки принципиально различны, хотя для их решения могутприменяться одни и те же алгоритмы. Важная для практической деятельностипроблема состоит в том, чтобы понять, разрешима ли задача кластер-анализа дляконкретных данных или возможна только их группировка, поскольку они достаточнооднородны и не разбиваются на резко разделяющиеся между собой кластеры.

Какправило, в математических задачах кластеризации и группировки основное — выборметрики, расстояния между объектами, меры близости, сходства, различия. Хорошоизвестно, что для любого заданного разбиения объектов на группы и любого e> 0 можно указать метрику такую, что расстояния между объектами из однойгруппы будут меньше e, а между объектами из разных групп — больше 1/e. Тогда любой разумный алгоритмкластеризации даст именно заданное разбиение.

Ситуацияосложняется использованием одного и того же термина в разных смыслах. Термином«классификация» (и термином «диагностика») обозначают, покрайней мере, три разные вещи: процедуру построения классификации (и выделениеклассов, используемых при диагностике), построенную классификацию (системувыделенных классов) и процедуру ее использования (правила отнесения вновьпоступающего объекта к одному из ранее выделенных классов).

Другими словами,имеем естественную триаду: построение – изучение – использование классификации.

Какуже отмечалось, для построения системы диагностических классов используютразнообразные методы кластерного анализа и группировки объектов. Наименееизвестен второй член триады – изучение отношений эквивалентности, полученных врезультате построения системы диагностических классов. Статистический анализполученных, в частности экспертами, отношений эквивалентности — частьстатистики бинарных отношений и тем самым — статистики объектов нечисловойприроды. Помимо общих результатов этой области эконометрики и прикладнойстатистики, представляют интерес частные результаты, полученные специально дляотношений эквивалентности (см. главу 8)).

Диагностикав узком смысле слова (процедура использования классификации, т.е. отнесениявновь поступающего объекта к одному из выделенных ранее классов) — предметдискриминантного анализа. Отметим, что с точки зрения статистики объектовнечисловой природы дискриминантный анализ является частным случаем общей схемырегрессионного анализа, соответствующим ситуации, когда зависимая переменнаяпринимает конечное число значений, а именно — номера классов, а вместо квадратаразности стоит функция потерь от неправильной классификации. Однако есть рядспецифических постановок, выделяющих задачи диагностики среди всехрегрессионных задач.

Опостроении диагностических правил. Начнем с обсуждения одного распространенногозаблуждения. Иногда рекомендуют сначала построить систему диагностическихклассов, а потом в каждом диагностическом классе отдельно проводитьрегрессионный анализ (в классическом смысле) или применять иные методымногомерного статистического анализа. Однако обычно забывают, что при этомнельзя опираться на вероятностную модель многомерного нормальногораспределения, так как распределение результатов наблюдений, попавших вопределенный кластер, будет отнюдь не нормальным, а усеченным нормальным(усечение определяется границами кластера).

Процедурыпостроения диагностических правил делятся на вероятностные и детерминированные.К первым относятся так называемые задачи расщепления смесей. В нихпредполагается, что распределение вновь поступающего случайного элементаявляется смесью вероятностных законов, соответствующих диагностическим классам.Как и при выборе степени полинома в регрессии (см. предыдущий пункт настоящейглавы), при анализе реальных социально-экономических данных встает вопрос обоценке числа элементов смеси, т.е. числа диагностических классов. Были изученырезультаты применения обычно рекомендуемого критерия Уилкса для оценки числаэлементов смеси. Оказалось (см. статью [8]), что оценка с помощью критерияУилкса не является состоятельной, асимптотическое распределение этой оценки –геометрическое, как и в случае задачи восстановления зависимости в регрессионноманализе (см. выше).

Итак, продемонстрирована несостоятельность обычноиспользуемых оценок. Для получения состоятельных оценок достаточно связатьуровень значимости в критерии Уилкса с объемом выборки, как это было предложенои для задач регрессии.

Какуже отмечалось, задачи построения системы диагностических классов целесообразноразбить на два типа: с четко разделенными кластерами (задачи кластер-анализа) ис условными границами, непрерывно переходящими друг в друга классами (задачигруппировки).

Такое деление полезно, хотя в обоих случаях могут применятьсяодинаковые алгоритмы. Сколько же существует алгоритмов построения системыдиагностических правил? Иногда называют то или иное число. На самом же деле ихбесконечно много, в чем нетрудно убедиться.

Действительно,рассмотрим один определенный алгоритм — алгоритм средней связи. Он основан наиспользовании некоторой меры близости d(x,y) между объектами xи у. Как он работает? На первом шаге каждый объект рассматривается какотдельный кластер. На каждом следующем шаге объединяются две ближайшихкластера. Расстояние между объектами рассчитывается как средняя связь (отсюда иназвание алгоритма), т.е. как среднее арифметическое расстояний между парамиобъектов, один из которых входит в первый кластер, а другой — во второй. Вконце концов все объекты объединяются вместе, и результат работы алгоритмапредставляет собой дерево последовательных объединений (в терминах теорииграфов), или «Дендрограмму». Из нее можно выделить кластеры разнымиспособами. Один подход — исходя из заданного числа кластеров. Другой — изсоображений предметной области. Третий — исходя из устойчивости (если разбиениедолго не менялось при возрастании порога объединения — значит оно отражаетреальность).

И т.д.

Калгоритму средней связи естественно сразу добавить алгоритм ближайшего соседа(когда расстоянием между кластерами называется минимальное из расстояний междупарами объектов, один из которых входит в первый кластер, а другой — во второй)и алгоритм дальнего соседа (когда расстоянием между кластерами называетсямаксимальное из расстояний между парами объектов, один из которых входит впервый кластер, а другой — во второй).

Каждыйиз трех описанных алгоритмов (средней связи, ближайшего соседа, дальнегососеда), как легко проверить, порождает бесконечное (континуальное) семействоалгоритмов кластер-анализа. Дело в том, что величина d a(x,y),a>0, также является мерой близости между xи у и порождает новый алгоритм. Если параметр а пробегает отрезок, тополучается бесконечно много алгоритмов классификации.

Какимиз них пользоваться при обработке данных? Дело осложняется тем, что практическив любом пространстве данных мер близости различных видов существует весьмамного. Именно в связи с обсуждаемой проблемой следует указать на принципиальноеразличие между кластер-анализом и задачами группировки.

Есликлассы реальны, естественны, существуют на самом деле, четко отделены друг отдруга, то любой алгоритм кластер-анализа их выделит. Следовательно, в качествекритерия естественности классификации следует рассматривать устойчивостьотносительно выбора алгоритма кластер-анализа.

Проверитьустойчивость можно, применив к данным несколько подходов, например, стольнепохожие алгоритмы, как «ближнего соседа» и «дальнего соседа». Если полученныерезультаты содержательно близки, то они адекватны действительности. В противномслучае следует предположить, что естественной классификации не существует,задача кластер-анализа не имеет решения, и можно проводить только группировку.

Какуже отмечалось, часто применяется т.н. агломеративный иерархический алгоритм«Дендрограмма», в котором вначале все элементы рассматриваются какотдельные кластеры, а затем на каждом шагу объединяются два наиболее близкихкластера. Для работы «Дендрограммы» необходимо задать правило вычислениярасстояния между кластерами. Оно вычисляется через расстояние d(x, у) междуэлементами х и у. Поскольку d a(x,y)при 0<a<1 также расстояние,то, как правило, существует бесконечно много различных вариантов этогоалгоритма. Представим себе, что они применяются для обработки одних и тех жереальных данных. Если при всех а получается одинаковое разбиение элементов накластеры, т.е. результат работы алгоритма устойчив по отношению к изменению а(в смысле общей схемы устойчивости, рассмотренной в главе ниже), то имеем«естественную» классификацию. В противном случае результат зависит отсубъективно выбранного исследователем параметра а, т.е. задача кластер-анализанеразрешима (предполагаем, что выбор а нельзя специально обосновать).

Задачагруппировки в этой ситуации имеет много решений. Из них можно выбрать одно подополнительным критериям.

Следовательно,получаем эвристический критерий: если решение задачи кластер-анализасуществует, то оно находится с помощью любого алгоритма. Целесообразно использоватьнаиболее простой.

Проблемапоиска естественной классификации. Существуют различные точки зрения на этупроблему. На Всесоюзной школе-семинаре «Использование математических методов взадачах классификации» (г. Пущино, 1986 г.), в частности, были высказанымнения, что естественная классификация:

  • закон природы;
  • основана на глубоких закономерностях, тогда как искусственная классификация — на неглубоких;
  • для конкретного индивида та, которая наиболее быстро вытекает из его тезауруса;
  • удовлетворяет многим целям; цель искусственной классификации задает человек;
  • классификация с точки зрения потребителя продукции;
  • классификация, позволяющая делать прогнозы;
  • имеет критерием устойчивость.

Приведенныевысказывания уже дают представление о больших расхождениях в понимании«естественной классификации». Этот термин следует признать нечетким, как,впрочем, и многие другие термины, как социально-экономические,научно-технические, так и используемые в обыденном языке. Нетрудно подробнообоснована нечеткость естественного языка и тот факт, что «мы мыслимнечетко», что однако не слишком мешает нам решать производственные ижизненные проблемы. Кажущееся рациональным требование выработать сначаластрогие определения, а потом развивать науку — невыполнимо. Следовать ему — значит отвлекать силы от реальных задач. При системном подходе к теорииклассификации становится ясно, что строгие определения можно надеяться получитьна последних этапах построения теории. Мы же сейчас находимся чаще всего напервых этапах. Поэтому, не давая определения понятиям «естественнаяклассификация»и «естественная диагностика», обсудим, как проверить на«естественность» классификацию (набор диагностических классов), полученнуюрасчетным путем.

Можновыделить два критерия «естественности», по поводу которых имеется относительноесогласие:

А.Естественная классификация должна быть реальной, соответствующейдействительному миру, лишенной внесенного исследователем субъективизма;

Б.Естественная классификация должна быть важной или с научной точки зрения(давать возможность прогноза, предсказания новых свойств, сжатия информации ит.д.), или с практической.

Пустьклассификация проводится на основе информации об объектах, представленной ввиде матрицы «объект-признак» или матрицы попарных расстояний (мер близости).Пусть алгоритм классификации дал разбиение на кластеры. Как можно получитьдоводы в пользу естественности этой классификации? Например, уверенность в том,что она — закон природы, может появиться только в результате длительного ееизучения и практического применения. Это соображение относится и к другим изперечисленных выше критериев, в частности к Б (важности).

Сосредоточимся накритерии А (реальности).

Понятие«реальности» кластера требует специального обсуждения. (оно начато в работе[8]).

Рассмотрим существо различий между понятиями «классификация» и«группировка». Пусть, к примеру, необходимо деревья, растущие в определеннойместности, разбить на группы находящихся рядом друг с другом. Ясна интуитивнаяразница между несколькими отдельными рощами, далеко отстоящими друг от друга иразделенными полями, и сплошным лесом, разбитым просеками на квадраты с цельюлесоустройства. Однако формально определить эту разницу столь же сложно, какопределить понятие «куча зерен», чем занимались еще в Древней Греции (однозерно не составляет кучи, два зерна не составляют кучи,…, если к тому, что несоставляет кучи, добавить еще одно зерно, то куча не получится; значит — попринципу математической индукции — никакое количество зерен не составляет кучи;но ясно, что миллиард зерен — большая куча зерен — подсчитайте объем!).

Переформулируемсказанное в терминах «кластер-анализа» и «методовгруппировки». Выделенные с помощью первого подхода кластеры реальны, апотому могут рассматриваться как кандидаты в «естественные».Группировка дает «искусственные» классы, которые не могут быть«естественными».

Выборкуиз унимодального распределения можно, видимо, рассматривать как«естественный», «реальный» кластер. Применим к нейкакой-либо алгоритм классификации («средней связи», «ближайшегососеда» и т.п.).

Он даст какое-то разбиение на классы, которые,разумеется, не являются «реальными», поскольку отражают прежде всегосвойства алгоритма, а не исходных данных. Как отличить такую ситуацию отпротивоположной, когда имеются реальные кластеры и алгоритм классификации болееили менее точно их выделяет? Как известно, «критерий истины –практика», но слишком много времени необходимо для применения подобногокритерия. Поэтому представляет интерес критерий, оценивающий«реальность» выделяемых с помощью алгоритма классификации кластероводновременно с его применением.

Такойпоказатель существует — это критерий устойчивости. Устойчивость — понятиеширокое. Общая схема формулирования и изучения проблем устойчивости рассмотренав главе 10. В частности, поскольку значения признаков всегда измеряются спогрешностями, то «реальное» разбиение должно быть устойчиво (т.е. неменяться или меняться слабо) при малых отклонениях исходных данных. Алгоритмовклассификации существует бесконечно много, и «реальное» разбиениедолжно быть устойчиво по отношению к переходу к другому алгоритму. Другимисловами, если «реальное» разбиение на диагностические классывозможно, то оно находится с помощью любого алгоритма автоматическойклассификация. Следовательно, критерием естественности классификации можетслужить совпадение результатов работы двух достаточно различающихся алгоритмов,например «ближайшего соседа» и «дальнего соседа».

Вышерассмотрены два типа «глобальных» критериев «естественностиклассификации», касающихся разбиения в целом. «Локальны»»критерии относятся к отдельным кластерам. Простейшая постановка такова:достаточно ли однородны два кластера (две совокупности) для их объединения:?Если объединение возможно, то кластеры не являются «естественными».Преимущество этой постановки в том, что она допускает применение статистическихкритериев однородности двух выборок. В одномерном случае (классификация поодному признаку) разработано большое число подобных критериев — Крамера-Уэлча,Смирнова, омега-квадрат (Лемана-Розенблатта), Вилкоксона, Ван-дер-Вардена,Лорда, Стьюдента и др. (см. главу 4 и справочник [1]).

Имеются критерии и длямногомерных данных. Для одного из видов объектов нечисловой природы — люсианов- статистические методы выделения «реальных» кластеров развиты вработе [9].

Чтокасается глобальных критериев, то для изучения устойчивости по отношению кмалым отклонениям исходных данных естественно использовать метод статистическихиспытаний и проводить расчеты по «возмущенным» данным. Некоторыетеоретические утверждения, касающиеся влияния «возмущений» на кластерыразличных типов, получены в работе [8].

Опишемпрактический опыт реализации анализа устойчивости. Несколько алгоритмовклассификации были применены к данным, полученным при проведении маркетингаобразовательных услуг и приведенным в работе [10]. Для анализа данных былииспользованы широко известные алгоритмы «ближайшего соседа»,«дальнего соседа» и алгоритм кластер-анализа из работы [11]. С содержательнойточки зрения полученные разбиения отличались мало. Поэтому есть основаниясчитать, что с помощью этих алгоритмов действительно выявлена «реальная»структура данных.

Идеяустойчивости как критерия «реальности» иногда реализуетсянеадекватно. Так, для однопараметрических алгоритмов один из специалистовпредлагал выделять разбиения, которым соответствуют наибольшие интервалыустойчивости по параметру, т.е. наибольшие приращения параметра междуочередными объединениями кластеров. Для данных работы [10] это предложение не далополезных результатов — были получены различные разбиения: три алгоритма — триразбиения. И с теоретической точки зрения предложение этого специалистанесостоятельно. Покажем это.

Действительно,рассмотрим алгоритм «ближайшего соседа», использующий меру близостиd(x, у), и однопараметрическое семейство алгоритмов с мерой близости da(x,y),а>0, также являющихся алгоритмами «ближайшего соседа». Тогдадендрограммы, полученные с помощью этих алгоритмов, совпадают при всех a,поскольку при их реализации происходит лишь сравнение мер близости междуобъектами. Другими словами, дендрограмма, полученная с помощью алгоритма«ближайшего соседа», является адекватной в порядковой шкале (измерения мерыблизости d(x, у)), т.е. сохраняется при любом строго возрастающем преобразованииэтой меры (см. главу 3).

Однако выделенные по обсуждаемому методу«устойчивые разбиения» меняются. В частности, при достаточно большома «наиболее объективным» в соответствии с предложением этогоспециалиста будет, как нетрудно показать, разбиение на два кластера! Такимобразом, разбиение, выдвинутое им как «устойчивое», на самом делеоказывается весьма неустойчивым.

Эконометрикаклассификации

Рассмотримнесколько конкретных эконометрических вопросов теории классификации.

Вероятностнаятеория кластер-анализа. Как и для прочих методов эконометрики и прикладнойстатистики, свойства алгоритмов кластер-анализа необходимо изучать навероятностных моделях. Это касается, например, условий естественногообъединения двух кластеров.

Вероятностныепостановки нужно применять, в частности, при перенесении результатов,полученных по выборке, на генеральную совокупность. Вероятностная теориякластер-анализа и методов группировки различна для исходных данных типа таблиц«объект x признак» и матриц сходства. Для первых параметрическаявероятностно-статистическая теория называется «расщеплением смесей».Непараметрическая теория основана на непараметрических оценках плотностейвероятностей и их мод. Основные результаты, связанные с непараметрическими оценкамиплотности, обсуждаются ниже (глава 8).

Еслиисходные данные — матрица сходства ||d(x,y)||, то необходимо признать, чторазвитой вероятностно-статистической теории пока нет. Подходы к ее построениюобсуждались в работе [8]. Одна из основных проблем — проверка «реальности»кластера, его объективного существования независимо от расчетов исследователя.Проблема «реальности» кластера давно обсуждается специалистамиразличных областей. Типичное рассуждение таково. Предположим, что результатынаблюдений можно рассматривать как выборку из некоторого распределения смонотонно убывающей плотностью при увеличении расстояния от некоторого центра.Примененный к подобным данным какой-либо алгоритм кластер-анализа порождаетнекоторое разбиение. Ясно, что оно — чисто формальное, поскольку выделеннымтаксонам (кластерам) не соответствуют никакие «реальные» классы.Другими словами, задача кластер-анализа не имеет решения, а алгоритм дает лишьгруппировку. При обработке реальных данных мы не знаем вида плотности. Проблемасостоит в том, чтобы определить, каков результат работы алгоритма (реальныекластеры или формальные группы).

Частныйслучай этой проблемы — проверка обоснованности объединения двух кластеров,которые мы рассматриваем как два множества объектов, а именно, множества {a1,a2,…,ak} и {b1,b2,…,bm}. Пусть, например,используется алгоритм типа «Дендрограмма». Естественнойпредставляется следующая идея. Пусть есть две совокупности мер близости: одна — меры близости между объектами, лежащими внутри одного кластера, т.е. d(ai,aj),1
<

i<j<
k,d(ba,bb),1<
a<b<
m,и другая — меры близости между объектами, лежащими в разных кластерах, т.е. d(ai,ba),1<
i<
k,1<
a<
m.Эти две совокупности мер близости предлагается рассматривать как независимыевыборки и проверять гипотезу о совпадении их функций распределения. Еслигипотеза не отвергается, объединение кластеров считается обоснованным; впротивном случае — объединять нельзя, алгоритм прекращает работу.

Врассматриваемом подходе есть две некорректности (см. также работу [8, разд.4]).Во-первых, меры близости не являются независимыми случайными величинами. Во-вторых,не учитывается, что объединяются не заранее фиксированные кластеры (сдетерминированным составом), а полученные в результате работы некоторогоалгоритма, и их состав (в частности, количество элементов) оказываетсяслучайным От первой из этих некорректностей можно частично избавиться.Справедливо следующее утверждение.

Теорема1. Пусть a1,a2,…,ak, b1,b2,…,bm — независимыеодинаково распределенные случайные величины (со значениями в произвольномпространстве).

Пусть случайная величина d(а1, а2)имеет все моменты. Тогда при k, т®¥ распределениестатистики

/>

(гдеU — сумма рангов элементов первой выборки в объединенной выборке; перваявыборка составлена из внутрикластерных расстояний (мер близости) d(ai,aj),1
<

i<j<
k,и d(ba,bb),1<
a<b<
m,а вторая — из межкластерных расстояний d(ai,ba),1<
i<
k,1<
a<
m)сходится к стандартному нормальному распределению с математическим ожиданием 0и дисперсией 1.

Наоснове теоремы 1 очевидным образом формулируется правило проверкиобоснованности объединения двух кластеров. Другими словами, мы проверяемстатистическую гипотезу, согласно которой объединение двух кластеров образуетоднородную совокупность. Если величина Uслишком мала, статистическая гипотеза однородности отклоняется (на заданномуровне значимости), и возможность объединения отбрасывается. Таким образом,хотя расстояния между объектами в кластерах зависимы, но эта зависимость слаба,и доказана математическая теорема о допустимости применения критерия Вилкоксонадля проверки возможности объединения кластеров.

Овычислительной сходимости алгоритмов кластер-анализа. Алгоритмы кластер-анализаи группировки зачастую являются итерационными. Например, формулируется правилоулучшения решения задачи кластер-анализа шаг за шагом, но момент остановкивычислений не обсуждается. Примером является известный алгоритм«Форель», в котором постепенно улучшается положение центра кластера.В этом алгоритме на каждом шагу строится шар определенного заранее радиуса,выделяются элементы кластеризуемой совокупности, попадающие в этот шар, и новыйцентр кластера строится как центр тяжести выделенных элементов. При анализеалгоритма «Форель» возникает проблема: завершится ли процесс улучшенияположения центра кластера через конечное число шагов или же он может бытьбесконечным. Она получила название «проблема остановки». Для широкого классатак называемых «эталонных алгоритмов» проблема остановки была решенав работе [8]: процесс улучшения остановится через конечное число шагов.

Отметим,что алгоритмы кластер-анализа могут быть модифицированы разнообразнымиспособами. Например, описывая алгоритм «Форель» в стиле статистикиобъектов нечисловой природы, заметим, что вычисление центра тяжести длясовокупности многомерных точек – это нахождение эмпирического среднего для мерыблизости, равной квадрату евклидова расстояния. Если взять более естественнуюмеру близости – само евклидово расстояние, то получим алгоритм кластер-анализа«Медиана», отличающийся от «Форели» тем, что новый центрстроится не с помощью средних арифметических координат элементов, попавших вкластер, а с помощью медиан.

Проблемаостановки возникает не только при построении диагностических классов. Онапринципиально важна, в частности, и при оценивании параметров вероятностныхраспределений методом максимального правдоподобия. Обычно не представляетбольшого труда выписать систему уравнений максимального правдоподобия ипредложить решать ее каким-либо численным методом. Однако когда остановиться,сколько итераций сделать, какая точность оценивания будет при этом достигнута?Общий ответ, видимо, невозможно найти, но обычно нет ответа и для конкретныхсемейств распределения вероятностей. Именно поэтому мы нет основанийрекомендовать решать системы уравнений максимального правдоподобия, вместо нихцелесообразно использовать т.н. одношаговые оценки (подробнее см. об этихоценках работу [12]).

Эти оценки задаются конечными формулами, ноасимптотически столь же хороши (на профессиональном языке — эффективны), как иоценки максимального правдоподобия.

Осравнении алгоритмов диагностики по результатам обработки реальных данных.Перейдем к этапу применения диагностических правил, когда классы, к одному изкоторых нужно отнести вновь поступающий объект, уже выделены.

Вприкладных эконометрических исследованиях применяют различные методыдискриминантного анализа, основанные на вероятностно-статистических моделях, атакже с ними не связанные, т.е. эвристические, использующие детерминированныеметоды анализа данных. Независимо от «происхождения», каждый подобныйалгоритм должен быть исследован как на параметрических и непараметрическихвероятностно-статистических моделях порождения данных, так и на различныхмассивах реальных данных. Цель исследования — выбор наилучшего алгоритма вопределенной области применения, включение его в стандартные программныепродукты, методические материалы, учебные программы и пособия. Но для этогонадо уметь сравнивать алгоритмы по качеству. Как это делать?

Частоиспользуют такой показатель качества алгоритма диагностики, как«вероятность правильной классификации» (при обработке конкретныхданных — «частота правильной классификации»).

Чуть ниже мы покажем,что этот показатель качества некорректен, а потому пользоваться им нерекомендуется. Целесообразно применять другой показатель качества алгоритмадиагностики — оценку специального вида т.н. «расстояния Махаланобиса»между классами. Изложение проведем на примере разработки программного продуктадля специалистов по диагностике материалов. Прообразом является диалоговаясистема «АРМ материаловеда», разработанная Институтом высоких статистическихтехнологий и эконометрики для ВНИИ эластомерных материалов.

Припостроении информационно-исследовательской системы диагностики материалов(ИИСДМ) возникает задача сравнения прогностических правил «по силе».Прогностическое правило — это алгоритм, позволяющий по характеристикамматериала прогнозировать его свойства. Если прогноз дихотомичен («есть» или«нет»), то правило является алгоритмом диагностики, при котором материалотносится к одному из двух классов. Ясно, что случай нескольких классов можетбыть сведен к конечной последовательности выбора между двумя классами.

Прогностическиеправила могут быть извлечены из научно-технической литературы и практики.Каждое из них обычно формулируется в терминах небольшого числа признаков, нонаборы признаков сильно меняются от правила к правилу. Поскольку в ИИСДМ должнофиксироваться лишь ограниченное число признаков, то возникает проблема ихотбора. Естественно отбирать лишь те их них, которые входят в наборы, дающиенаиболее «надежные» прогнозы. Для придания точного смысла термину «надежный»необходимо иметь способ сравнения алгоритмов диагностики по прогностической«силе».

Результатыобработки реальных данных с помощью некоторого алгоритма диагностики врассматриваемом случае двух классов описываются долями: правильной диагностикив первом классе />; правильной диагностики во второмклассе />;долями классов в объединенной совокупности />

Величины/>определяютсяретроспективно.

Нередкокак показатель качества алгоритма диагностики (прогностической «силы»)используют долю правильной диагностики

/>

Однакопоказатель /> определяется, в частности, черезхарактеристики /> и/>частично заданные исследователем (например, на них влияет тактика отбораобразцов для изучения).

В аналогичной медицинской задаче величина /> оказаласьбольше для тривиального прогноза (у всех больных течение заболевания будетблагоприятно), чем для использованного в работе [13] группы под руководствомакадемика АН СССР И.М. Гельфанда алгоритма выделения больных с прогнозируемымтяжелым течением заболевания, применение которого с медицинской точки зрениявполне оправдано. Другими словами, по доле правильной классификации алгоритмакадемика И.М. Гельфанда оказался хуже тривиального — объявить всех больных легкими,не требующими специального наблюдения. Этот вывод нелеп. И причина появлениянелепости понятна. Хотя доля тяжелых больных невелика, но смертельные исходысосредоточены именно в этой группе больных. Поэтому целесообразнагипердиагностика — рациональнее часть легких больных объявить тяжелыми, чемсделать ошибку в противоположную сторону. Применение теории статистическихрешений в рассматриваемой постановке вряд ли возможно, поскольку оценитьколичественно потери от смерти больного нельзя по этическим соображениям.Поэтому, на наш взгляд, долю правильной диагностики /> нецелесообразно использовать какпоказатель качества алгоритма диагностики.

Применениетеории статистических решений требует знания потерь от ошибочной диагностики, ав большинстве научно-технических и экономических задач определить потери, какуже отмечалось, сложно. В частности, из-за необходимости оценивать человеческуюжизнь в денежных единицах. По этическим соображениям это, на наш взгляд,недопустимо. Сказанное не означает отрицания пользы страхования, но, очевидно,страховые выплаты следует рассматривать лишь как способ первоначальногосмягчения потерь от утраты близких.

Длявыявления информативного набора признаков целесообразно использовать методпересчета на модель линейного дискриминантного анализа, согласно которомустатистической оценкой прогностической «силы» является

/>

где/>

  • функциястандартного нормального распределения вероятностей с математическим ожиданием0 и дисперсией 1, а />
  • обратная ей функция.

Есликлассы описываются выборками из многомерных нормальных совокупностей содинаковыми матрицами ковариаций, а для классификации применяется классическийлинейный дискриминантный анализ Р.Фишера, то величина /> представляет собой состоятельнуюстатистическую оценку так называемого расстояния Махаланобиса междурассматриваемыми двумя совокупностями (конкретный вид этого расстояния сейчасне имеет значения), независимо от порогового значения, определяющего конкретноерешающее правило. В общем случае показатель /> вводится как эвристический.

Пустьалгоритм классификации применяется к совокупности, состоящей из т объектовпервого класса и n объектоввторого класса.

Теорема2. Пусть т, п®¥. Тогда для всех х

/>,

где/>

  • истинная «прогностическая сила» алгоритма диагностики; />
  • ее эмпирическаяоценка,

/>;

/>) — плотностьстандартного нормального распределения вероятностей с математическим ожиданием0 и дисперсией 1.

Спомощью теоремы 2 по /> и /> обычным образом определяютдоверительные границы для «прогностической силы» />.

Какпроверить обоснованность пересчета на модель линейного дискриминантногоанализа? Допустим, что классификация состоит в вычислении некоторогопрогностического индекса у и сравнении его с заданным порогом с; объект относятк первому классу, если у
<

с, ко второму, если у>с. Возьмем двазначения порога с1 и c2.Если пересчет на модель линейного дискриминантного анализа обоснован, то«прогностические силы» для обоих правил совпадают: />.Эту статистическую гипотезу можно проверить.

Пусть/>

  • доля объектовпервого класса, для которых y
    <

    c1,а />
  • доляобъектов первого класса, для которых c1<y<
    c2.Аналогично пусть />
  • доля объектов второго класса, длякоторых c1<y<
    c2,а />
  • доляобъектов второго класса, для которых у>с2.

Тогда можно рассчитатьдве оценки одного и того же расстояния Махаланобиса. Они имеют вид:

/>

Теорема3. Если истинные прогностические силы двух правил диагностики совпадают, />то при /> при всех х

/>,

Где

/>;

/>.

Изтеоремы 3 вытекает метод проверки рассматриваемой гипотезы: при выполнениинеравенства

/>

онапринимается на уровне значимости, асимптотически равном />, в противном случае — отвергается.

Подходык построению прогностических правил. Для решения задач диагностики используютдва подхода – параметрический и непараметрический. Первый из них обычно основанна использовании того или иного индекса и сравнения его с порогом. Индекс можетбыть построен по статистическим данным, например, как в уже упомянутом линейномдискриминантном анализе Фишера. Часто индекс представляет собой линейнуюфункцию от характеристик, выбранных специалистами предметной области,коэффициенты которой подбирают эмпирически. Непараметрический подход связан слеммой Неймана-Пирсона в математической статистике и с теорией статистическихрешений. Он опирается на использование непараметрических оценок плотностейраспределений вероятностей, описывающих диагностические классы.

Обсудимситуацию подробнее. Математические методы диагностики, как и статистическиеметоды в целом, делятся на параметрические и непараметрические. Первые основанына предположении, что классы описываются распределениями из некоторыхпараметрических семейств. Обычно рассматривают многомерные нормальныераспределения, при этом зачастую принимают гипотезу о том, что ковариационныематрицы для различных классов совпадают. Именно в таких предположенияхсформулирован классический дискриминантный анализ Фишера. Как известно, обычнонет оснований считать, что наблюдения извлечены из нормального распределения.

Поэтомуболее корректными, чем параметрические, являются непараметрические методыдиагностики. Исходная идея таких методов основана на лемме Неймана-Пирсона,входящей в стандартный курс математической статистики. Согласно этой леммерешение об отнесении вновь поступающего объекта (сигнала, наблюдения и др.) кодному из двух классов принимается на основе отношения плотностей f(x)/g(x),где f(x) — плотность распределения, соответствующая первому классу, а g(x) — плотность распределения, соответствующая второму классу. Если плотностираспределения неизвестны, то применяют их непараметрические оценки, построенныепо обучающим выборкам. Пусть обучающая выборка объектов из первого классасостоит из n элементов, а обучающая выборка для второго класса — из mобъектов. Тогда рассчитывают значения непараметрических оценок плотностей fn(x)и gm(x) для первого и второго классов соответственно, адиагностическое решение принимают по их отношению. Таким образом, для решениязадачи диагностики достаточно научиться строить непараметрические оценкиплотности для выборок объектов произвольной природы.

Методыпостроения непараметрических оценок плотности распределения вероятностей впространствах произвольной природы рассмотрены в главе 8.

Цитированная литература

1.Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. – М.: Наука,1983. — 416 с.

2.Себер Дж. Линейный регрессионный анализ. — М.: Мир, 1980. — 456 с.

3.Орлов А.И. Оценка размерности модели в регрессии. – В сб.: Алгоритмическое ипрограммное обеспечение прикладного статистического анализа. Ученые записки постатистике, т.36. — М.: Наука, 1980. — С.92-99.

4.Крамер Г. Математические методы статистики. — М.: Мир, 1975. — 648 с.

5.Красильников В.В. Статистика объектов нечисловой природы. — Наб. Челны: Изд-воКамского политехнического института, 2001. — 144 с.

6.Кендэл М. Ранговые корреляции. — М.: Статистика, 1975. — 216 с.

7.Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. — М.: Наука, 1976. – 736 с.

8.Орлов А.И. Некоторые вероятностные вопросы теории классификации. – В сб.:Прикладная статистика. Ученые записки по статистике, т.45. — М.: Наука, 1983. –С.166-179.

9.Орлов А.И.; Гусейнов Г.А. Математические методы в изучении способных кматематике школьников – В сб.: Исследования по вероятностно-статистическомумоделированию реальных систем. — М.: ЦЭМИ АН СССР, 1977. — С.80-93.

10.Куперштох B.JI., Миркин Б.Г., Трофимов В.А. Сумма внутренних связей какпоказатель качества классификации Автоматика и телемеханика. 1976. № 3.С.91-98.

11.Гельфанд И.М., Алексеевская М.А., Губерман Ш.А. и др. Прогнозирование исходаинфаркта миокарда с помощью программы «Кора-3» Кардиология. 1977.Т.17. № 6. С.19-23.