Клъстер анализ - какво е това, определение и концепция

Съдържание:

Anonim

Клъстерният анализ е набор от многомерни статистически техники, които имат за цел да групират набор от случаи или индивиди в клъстери или клъстери.

Следователно клъстерният анализ е вид статистическо групиране. Целта е да направим данните във всеки клъстер възможно най-сходни помежду си и възможно най-различни по отношение на останалите групи. Може да се направи и с променливи.

Преобразуване на данни при клъстерния анализ

Един от проблемите, с които се сблъскваме, когато групираме данни, е, че понякога данните са в различни мерни единици. Поради тази причина трябва да се извърши стъпка на анализ преди клъстера, която позволява клъстериране.

Най-често срещаният метод е стандартизацията. Това се използва за трансформиране на данните, така че те да имат подобни мерни единици. Трябва да се вземат предвид две правила, двоичните променливи не са стандартизирани и, ако са категорични, стават двоични (присъствие / отсъствие).

Методи в клъстерния анализ

Има много методи за извършване на клъстерния анализ, но в Economy-Wiki.com, следвайки принципа на простотата, който ни характеризира, ще видим най-подходящите по схематичен начин.

Йерархични методи

Първата класификация би била йерархични или неиерархични методи. Бившите групират индивиди в йерархични фази (оттук и името им). По този начин само един обект сменя групата наведнъж, а останалите остават на същото място.

Те от своя страна се класифицират на:

Агломеративни методи

Състои се от групиране на индивиди в по-малко клъстери всеки път. Започва от брой групи, равен на броя на случаите, и намалява.

Най-известните са:

  • Метод на най-близкия съсед: В този случай използвате алгоритъм за групиране на данните. Това, което търсите, е минималното разстояние между най-близките индивиди. Той е много чувствителен към данни, които могат да причинят така наречения „шум“. Методът на най-отдалечения съсед е подобен.
  • Среден метод между групите: Това, което прави, е да изчисли средната стойност на разстоянието между индивидите в група и по-специално един от тях. Много е полезно да се намали така нареченият „шум“.
  • Метод на Уорд: Това, което прави, е да добави квадратите на отклоненията между всеки индивид и средната стойност на неговия клъстер, за да се избегне загубата на информация. Той е един от най-известните и има предимствата на метода, базиран на средната стойност, но по-голяма дискриминационна сила.

Дисоциативни методи

В този случай това, което правите, е да разделите. Започва с един клъстер и се предлагат подразделения въз основа на поредица от изисквания.

Най-често срещаните са:

  • Метод за средна, най-близка съседна и най-отдалечена съседна група: Тези три метода са подобни на предишния случай, но се използва дисоциативен метод. Тоест, този път това, което правим, е отделно, а не групово.
  • Метод на центроид: Той се използва широко при проблеми с оптимизирането на местоположението на съоръжението. Използвайте този тип анализ, за ​​да намерите най-подходящите.

Неиерархични методи

В този случай те започват с предварително зададено решение. Това е отправна точка за клъстерния анализ. По този начин групите се създават предварително и всеки случай ще бъде поставен в една от тях, в зависимост от неговите характеристики. На свой ред можем да ги разделим на други подгрупи.

  • Методи за преназначаване: Най-подходящите са центроидните методи, като k-средни. Тези от медиоиди, като PAM. Или тази на динамичните облаци.
  • Директни методи: Най-важното е блоковото клъстериране, широко използвано в извличането на данни.
  • Редуктивни методи: Те се основават на факторния анализ.
  • Методи за търсене на плътност: От една страна ще има тези на типологичните подходи, като например модален анализ. От друга страна имаме вероятностните, като тези на Вълк.

Примери за клъстерен анализ

Да видим, накрая, някои примери за приложения за клъстерен анализ.

  • Нека си представим, че имаме група държави, които искаме да групираме въз основа на определени макроикономически променливи, като инфлация или безработица. Можем да използваме този тип анализ, за ​​да направим еднородни групи, например повече или по-малко развити страни.
  • Друг пример може да бъде поредица от потребители с определени социодемографски характеристики. Идеята е да се създадат групи със сходни индивиди, които от своя страна са много различни помежду си.
  • Но освен в икономиката, клъстерният анализ е полезен и в други науки. Например в биологията, за класифициране на видовете или в геологията, за да се направи същото с минералите.