Кластерный анализ в задачах социально-экономического прогнозирования

Реферат

КЛАСТЕРНЫЙ АНАЛИЗ В ЗАДАЧАХ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО ПРОГНОЗИРОВАНИЯ

Введение в кластерный анализ.

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это

происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка

отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.

Методы многомерного анализа — наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим

числом характеристик. К ним относятся кластерный анализ, таксономия, распознавание образов, факторный анализ.

Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ – в исследовании связи.

Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.

Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова

cluster

– гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение

множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления

соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится

к образованию групп по количественному сходству.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный

анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных

3 стр., 1452 слов

Кластеризация, как метод анализа данных в социально - экономических ...

... анализа данных в социально-экономических и политических исследованиях. Для этого были определены следующие задачи: определить основные идеи кластеризации; рассмотреть историю развития кластеризации; показать применение кластерного метода в ... объектов, и затем упорядочивающая объекты в сравнительно однородные группы. В последнее время в России происходит осознание значимости кластерного подхода в ...

данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение

традиционных эконометрических подходов.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их

компактными и наглядными.

Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной

конъюнктуры).

Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее

схожа.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь

может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной

связью.

В задачах

социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа

с другими количественными методами (например, с регрессионным анализом).

Как и любой другой метод, кластерный анализ имеет определенные недостатки

и ограничения: В частности, состав

и количество кластеров зависит от

выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться

индивидуальные черты отдельных объектов за счет

замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в

рассматриваемой

совокупности каких-либо значений кластеров.

В кластерном анализе считается, что:

а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;

б) единицы измерения (масштаб) выбраны правильно.

Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклоненение, так что дисперсия оказывается равной

единице.

Задача кластерного анализа.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся

во множестве Х, разбить множество объектов

на m

– целое) кластеров (подмножеств)

, …,

, так, чтобы каждый объект

принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным

20 стр., 9946 слов

Земля, как средство производства, часть природного комплекса ...

... форму земельных правоотношений, непосредственным объектом которых являются земельные участки разной площади, местоположения, качества и назначения. 4. Экономическая оценка земли в сельском ... существования человеческого общества, незаменимое средство удовлетворения его разнообразных потребностей: экономических, социально-бытовых, эстетических и т.д. Однако, говоря об использовании земли, ...

кластерам были разнородными.

Например, пусть

включает

стран, любая из которых характеризуется ВНП на душу населения (F

1), числом М автомашин на 1 тысячу человек (

), душевым потреблением электроэнергии (

), душевым потреблением стали (

) и т.д. Тогда Х

1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х

2 — для второй, Х

3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.

Решением задачи кластерного анализа являются разбиения, удовлетворяющие некоторому критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий

уровни желательности различных разбиений и группировок, который называют целевой функцией. Например, в качестве целевой функции может быть взята внутригрупповая сумма квадратов

отклонения:

где

— представляет собой измерения j-го объекта.

Для решения

задачи кластерного анализа необходимо определить понятие сходства и разнородности.

Понятно то, что объекты

-ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Х

и Х

j было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов

определяется понятием расстояния между Х

и Х

j из Ер, где Ер — р-мерное евклидово пространство. Неотрицательная функция d(Х

, Х

j) называется функцией расстояния (метрикой), если:

а) d(Х

, для всех Х

и Х

j из Ер

б) d(Х

, Х

j) = 0

, тогда и только тогда, когда Х

= Х

в) d(Х

, Х

j) = d(Х

j, Х

г) d(Х

, Х

d(Х

, Х

k) + d(Х

k, Х

j), где Х

j; Х

и Х

— любые три вектора из Ер.

Значение d(Х

, Х

для Х

и Х

j называется расстоянием между Х

и Х

j и эквивалентно расстоянию между G

и G

j соответственно выбранным характеристикам (

2, F

3, …, F

р).

Наиболее часто употребляются следующие функции расстояний:

1. Евклидово расстояние

2(Х

, Х

j) =

2. l

1 — норма

1(Х

4 стр., 1547 слов

Функции нескольких переменных

... условия экстремума, в точке функция имеет минимум, так как в этой точке и . 5. Находим значение функции в точке : 6. Условный экстремум В теории функций нескольких переменных иногда возникают задачи, когда экстремум функции нескольких переменных необходимо ...

, Х

j) =

3. Сюпремум — норма

, Х

j) = sup

k = 1, 2, …, р

4. l

p — норма

р(Х

, Х

j) =

Евклидова метрика является наиболее популярной. Метрика l

1 наиболее легкая для вычислений. Сюпремум-норма легко считается и включает в себя процедуру упорядочения, а l