Analiza skupień - Co to jest, definicja i pojęcie

Spisie treści:

Anonim

Analiza skupień to zestaw wielowymiarowych technik statystycznych, których celem jest pogrupowanie zbioru przypadków lub osób w skupienia lub skupiska.

Analiza skupień jest zatem rodzajem grupowania statystycznego. Celem jest, aby dane w każdym klastrze były jak najbardziej podobne do siebie i jak najbardziej różne w stosunku do innych grup. Można to również zrobić za pomocą zmiennych.

Transformacja danych w analizie klastrów

Jednym z problemów, które napotykamy, gdy grupujemy dane, jest to, że dane są czasami w różnych jednostkach miary. Z tego powodu należy wykonać etap analizy przed skupieniem, który umożliwia tworzenie skupień.

Najpopularniejszą metodą jest standaryzacja. Służy do przekształcania danych tak, aby miały podobne jednostki miary. Należy wziąć pod uwagę dwie reguły, zmienne binarne nie są standaryzowane i jeśli są kategoryczne, stają się binarne (obecność / brak).

Metody analizy skupień

Metod na przeprowadzenie analizy skupień jest wiele, ale w Economy-Wiki.com, kierując się charakterystyczną dla nas zasadą prostoty, w sposób schematyczny zobaczymy najistotniejsze.

Metody hierarchiczne

Pierwsza klasyfikacja to metody hierarchiczne lub niehierarchiczne. Pierwsi grupują jednostki w fazy hierarchiczne (stąd ich nazwa). W ten sposób tylko jeden obiekt zmienia grupę na raz, reszta pozostaje w tym samym miejscu.

Te z kolei dzielą się na:

Metody aglomeracyjne

Polega ona na każdorazowym grupowaniu jednostek w mniej skupieniu. Zaczyna się od liczby grup równej liczbie przypadków i maleje.

Najbardziej znane to:

  • Metoda najbliższego sąsiada: W tym przypadku używasz algorytmu do grupowania danych. To, czego szukasz, to minimalna odległość między najbliższymi osobami. Jest bardzo wrażliwy na dane, które mogą powodować tak zwany „szum”. Metoda najdalszego sąsiada jest podobna.
  • Metoda średnia między grupami: To, co robi, to obliczanie średniej odległości między osobami w grupie, a jednym z nich w szczególności. Bardzo przydatne jest zmniejszenie tak zwanego „hałasu”.
  • Metoda Warda: Dodaje kwadraty odchyleń między każdą osobą a średnią jego skupienia, aby uniknąć utraty informacji. Jest to jedna z najbardziej znanych i ma zalety metody opartej na średniej, ale większej sile dyskryminacyjnej.

Metody dysocjacyjne

W tym przypadku to, co robisz, to dzielenie. Zaczyna się od pojedynczego klastra, a podziały są proponowane w oparciu o szereg wymagań.

Najczęstsze to:

  • Średnia między grupami, metoda najbliższego sąsiada i najdalszego sąsiada: Te trzy metody są podobne do poprzedniego przypadku, ale wykorzystują metodę dysocjacyjną. Oznacza to, że tym razem to, co robimy, jest oddzielne, a nie grupowe.
  • Metoda centroid: Jest szeroko stosowany w problemach optymalizacji lokalizacji obiektów. Użyj tego typu analizy, aby znaleźć najbardziej odpowiednie.

Metody niehierarchiczne

W tym przypadku zaczynają od gotowego rozwiązania. To jest punkt wyjścia do analizy skupień. W ten sposób grupy są ustalane z góry i każda sprawa zostanie umieszczona w jednej z nich, w zależności od jej cech. Z kolei możemy je podzielić na inne podgrupy.

  • Metody zmiany przypisania: Najbardziej odpowiednie są metody centroid, takie jak k-średnie. Te z medioidów, jak PAM. Albo dynamicznych chmur.
  • Metody bezpośrednie: Najważniejszym jest klastrowanie bloków, szeroko stosowane w eksploracji danych.
  • Metody redukcyjne: Są one oparte na analizie czynnikowej.
  • Metody wyszukiwania gęstości: Z jednej strony byłyby to podejścia typologiczne, takie jak analiza modalna. Z drugiej strony mamy probabilistyczne, jak Wolfa.

Przykłady analizy skupień

Zobaczmy na koniec kilka przykładów zastosowań analizy klastrów.

  • Wyobraźmy sobie, że mamy grupę krajów, które chcemy pogrupować na podstawie pewnych zmiennych makroekonomicznych, takich jak inflacja czy bezrobocie. Możemy wykorzystać ten rodzaj analizy do stworzenia jednorodnych grup, na przykład mniej lub bardziej rozwiniętych krajów.
  • Innym przykładem może być grupa konsumentów o pewnych cechach socjodemograficznych. Chodzi o to, aby tworzyć grupy z podobnymi osobami, które z kolei bardzo się od siebie różnią.
  • Ale oprócz ekonomii analiza skupień jest przydatna w innych naukach. Na przykład w biologii, aby sklasyfikować gatunki, lub w geologii, aby zrobić to samo z minerałami.