КЛАСТЕРНЫЙ АНАЛИЗ В ЗАДАЧАХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО ПРОГНОЗИРОВАНИЯ
Введение в кластерный анализ.
При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это
происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка
отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.
Методы многомерного анализа — наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим
числом характеристик. К ним относятся кластерный анализ, таксономия, распознавание образов, факторный анализ.
Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ – в исследовании связи.
Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.
Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова
cluster
– гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение
множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления
соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится
к образованию групп по количественному сходству.
Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный
анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных
Земля, как средство производства, часть природного комплекса ...
... самым ценным свойством: плодородием почвы. 3. Земля как объект социально-экономических связей , 3. Земля как объект социально-экономических связей Оценивая землю как объект социально-экономических и, прежде всего, земельных отношений, следует иметь в ...
данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение
традиционных эконометрических подходов.
Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их
компактными и наглядными.
Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной
конъюнктуры).
Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее
схожа.
Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь
может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной
связью.
В задачах
социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа
с другими количественными методами (например, с регрессионным анализом).
Как и любой другой метод, кластерный анализ имеет определенные недостатки
и ограничения: В частности, состав
и количество кластеров зависит от
выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться
индивидуальные черты отдельных объектов за счет
замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в
рассматриваемой
совокупности каких-либо значений кластеров.
В кластерном анализе считается, что:
а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;
б) единицы измерения (масштаб) выбраны правильно.
Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклоненение, так что дисперсия оказывается равной
единице.
Задача кластерного анализа.
Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся
во множестве Х, разбить множество объектов
на m
– целое) кластеров (подмножеств)
, …,
, так, чтобы каждый объект
принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным
кластерам были разнородными.
Например, пусть
включает
стран, любая из которых характеризуется ВНП на душу населения (F
1), числом М автомашин на 1 тысячу человек (
Расчет и анализ себестоимости продукции
Для достижения цели курсовой работы были поставлены и выполнены следующие задачи: изучение теоретических основ по расчету и анализу себестоимости продукции; расчёт прямых и косвенных затрат на единицу продукции, полной себестоимости единицы продукции; определение прибыли ...
), душевым потреблением электроэнергии (
), душевым потреблением стали (
) и т.д. Тогда Х
1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х
2 — для второй, Х
3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.
Решением задачи кластерного анализа являются разбиения, удовлетворяющие некоторому критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий
уровни желательности различных разбиений и группировок, который называют целевой функцией. Например, в качестве целевой функции может быть взята внутригрупповая сумма квадратов
отклонения:
где
— представляет собой измерения j-го объекта.
Для решения
задачи кластерного анализа необходимо определить понятие сходства и разнородности.
Понятно то, что объекты
-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Х
и Х
j было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов
определяется понятием расстояния между Х
и Х
j из Ер, где Ер — р-мерное евклидово пространство. Неотрицательная функция d(Х
, Х
j) называется функцией расстояния (метрикой), если:
а) d(Х
, для всех Х
и Х
j из Ер
б) d(Х
, Х
j) = 0
, тогда и только тогда, когда Х
= Х
в) d(Х
, Х
j) = d(Х
j, Х
г) d(Х
, Х
d(Х
, Х
k) + d(Х
k, Х
j), где Х
j; Х
и Х
— любые три вектора из Ер.
Значение d(Х
, Х
для Х
и Х
j называется расстоянием между Х
и Х
j и эквивалентно расстоянию между G
и G
j соответственно выбранным характеристикам (
2, F
3, …, F
р).
Наиболее часто употребляются следующие функции расстояний:
1. Евклидово расстояние
2(Х
, Х
j) =
2. l
1 — норма
1(Х
, Х
j) =
3. Сюпремум — норма
, Х
j) = sup
k = 1, 2, …, р
4. l
p — норма
р(Х
, Х
j) =
Евклидова метрика является наиболее популярной. Метрика l
1 наиболее легкая для вычислений. Сюпремум-норма легко считается и включает в себя процедуру упорядочения, а l