Hiyerarşik Kümeleme Giriş

Hiyerarşik kümeleme de K-Ortalamalar tekniği gibi aslında aynı sonucu hedefliyor fakat, farklı bir yöntemle, taneciklerden bütüne doğru ilerliyor. K-Ortalamalar tekniğinde olduğu gibi küme kullanıcıdan sayısını istemiyor.

İki tip hiyerarşik kümeleme yöntemi var: Agglomerative (sözlük karşılığı yığınsal) ve Divisive (bölücü). Agglomerative yöntemde başlangıçta her nokta bir kümedir. Bu nokta, en yakınındaki noktaları toplayarak küçük kümeleri, daha sonra bu kümeler en yakınındaki diğer kümeleri toplayarak daha büyük kümeleri, en sonunda da bütün noktların dahil olduğu büyük tek küme oluşur. Agglomerative yöntemin aşamalarını şöyle sıralayabiliriz:

  1. Her bir noktayı bir küme ve küme merkezi olarak belirle
  2. Her bir nokta kendine en yakın iki noktayı alarak tek bir küme oluşturur.
  3.  En yakın iki kümeyi alarak tek küme oluştur.
  4. Tek kümeye ulaşana kadar üçüncü adımı tekrarla.

Mesafe için burada iki nokta arasındaki mesafe ve iki küme arasındaki mesafe söz konusu. İki nokta arasındaki mesafeyi konuştuk biliyoruz. Öklid mesafesi dedik. Öklid mesafesi de bildiğimiz dik üçgen hipotenüs hesabı. Dike kenar kareler toplamının karekökü işte. Ancak kümeler arası mesafe nasıl ölçülecek? En yakın iki noktaya göre mi, en uzak iki noktaya göre mi yoksa küme merkezlerinin birbirine uzaklığına göre mi yoksa her küme elemanlarının birbirine olan uzaklığının ortalamasına göre mi? Bu seçim önemli çünkü sonucu çok etkiler. Aşağıda basit bir örnek üzerinden küme arası mesafeyi en yakın nokta kabul ederek göstermeye çalıştım.

Eee… peki tamam da kümeleri birleştire birleştire gelmişsin tek küme yapmışsın. Biz ne yapacağız bir kümeyi bize biraz küme lazım. Haklısınız, şekle bakınca olay anlamsız gibi duruyor ancak bu kadar emek boşa gitmedi merak etmeyin. Her adım kayıt altına alındı. Geriye dönüp baktığımızda küme sayısına rahatlıkla karar verebileceğiz. Bu konuda dendogramlar imdadımıza yetişiyor. Bir sonraki yazı ile devam ediyoruz…

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir