Veri Madenciliğinde Kümeleme (Clustering)

√Kümeleme sınıflandırmadan farklı olarak denetimsiz/eğitimsiz bir yöntemdir. Sınıflandırmada bir hedef değişken vardır ve veri setinin bir kısmı eğitim için ayrılır, modelin öğrenmesini sağlanır. Bu öğrenmeye göre aynı niteliklere sahip yeni bir nesnenin hangi sınıfa dahil olacağı tahmin edilir. Kümelemede ise hedef değişken yoktur dolayısıyla sınıf da yoktur. Sınıflandırmada amaç benzer nesneleri aynı sınıfa dahil etmek iken; kümelemede amaç benzer nesneleri aynı grupta toplamaktır. Örneğin; Kırşehirliler buraya, psikopatlar oraya, salağa yatanlar öbür tarafa gibi. Sınıflandırmada zaten bir salağa yatan tayfa vardır ve bunlar benzer, ortak özellikler taşıyordur, boynu bükük durmak, sessiz davranmak, aşırı uyumlu görünmek gibi. Yeni biriyle karşılaştığımızda bu kişinin özellikleri en çok salağa yatanlar ile benzeşiyor ise “Haa! bak bu da salağa yatanlardan” diye sınıflandırırız.

Kümelemede kaç grup oluşacağı verinin içindeki nesnelerin birbirine benzerlik derecesine göre değişir. Örneğin 100 kişilik bir grupta herkesin adı Ahmet ve yaşı da 30 ise bu grubu ancak tek kümeye ayırabiliriz. Farklı kümelerin oluşması için nesnelerin tamamen birbirine benzememesi çok fazla da birbirinde ayrı olmaması gerekir. Herkesin adı Ahmet olsun ancak yaşlar farklı olsun. İşte şimdi bu grubu yaşlara göre kümeleyebiliriz. Çocuk, genç, orta yaş, yaşlı gibi. Peki isimler farklı olsa ne olur? Fark eden pek bir şey olmaz çünkü iki yaşın birbirine ne kadar yakın ve uzak olduğunu ölçebiliriz ancak isimlerle bunu yapamayız. Öyleyse bu örnekte isim niteliğini kümelemek için kullanamayız. Peki isimden vazgeçtim sadece yaşa göre kümeleyelim, kaç küme olacak? 100 kişilik grupta diyelim ki 40 farklı yaş olsun. Ne yapacağız 40 farklı küme mi oluşturacağız yoksa 4 mü 14 mü? İşte bu noktada işleri biraz daha kolaylaştırmak için kullanıcı katkısı alınır. Az önceki örneğimizde yaşlara göre dört küme belirleyelim demiştik. Biz kümeleme algoritmasına 4 küme yap dediğimizde o da işini ona göre yapacaktır. 14 küme yap deseydik bile 100 kişilik grubu 14 kümeye ayıracaktı elbet. Ancak 14 kümeyi yorumlarken zorlanabiliriz. Ne iş göreceğiz 14 yaş kümesiyle mesela. Ancak 4 gibi makul bir sayı belirlersek yorumlanabilirliği ve faydası daha çok olan bir küme elde etmiş oluruz. Çocuklara şunu yapalım, gençlere şunu verelim, yaşlılar böyle yapsın gibi. Küme sayısını sezgisel olarak belirlemenin yanında bir çok yöntemle de belirlenebilir. Ancak sorumluluk araştırmacıdadır 🙂

Benzerlik ve Uzaklık

Kümelemede sık sık kullanılan iki kavram: benzerlik ve uzaklık. Benzerlik ve uzaklık farklı kavramlar önce onu belirtelim. Ben de belli bir zamana kadar ikisinin farkını tam anlayamamıştım, umarım şimdi anlamışımdır. İkisini de ölçen farklı yöntemler var. Nesneleri birbirine benzerliklerine göre bir kümede toplarız demiştik. Makineler rakamlardan anlar, biz de makineye uzaklık ve benzerliği anlatmak için işi rakamlara dökmeliyiz. Elimizdeki veriyi saçılma diyagramına saçalım ve birbirine yakın nesneler aynı kümededir diyelim. Analitik uzayda iki nokta (her nokta bir nesneyi temsil eder) arası uzaklığı birbirine yakın olan nesneler aynı kümede toplanabilir deriz. Aynı kümede olan nesneler olabildiğince birbirine yakın diğer kümelerden ise uzak olmalıdır. Peki nesneler iki boyutlu analitik uzayda temsil edilebilecek kadar basit iki niteliğe sahip değil ise uzaklığı nasıl hesaplayacağız?

UZAKLIK

Numerik nitelikler için Öklid (Euclid)  sağolsun buna çözüm bulmuş. Öklid mesafesi, çok boyutlu uzayda nesnelerin birbirine olan uzaklığıdır. İki nesne ne kadar birbirine yakın ise öklit uzaklığı da o kadar sıfıra yakın olur. İki nesne arasındaki mesafe Euclid’e göre:

 İkiNesneArasıMesafe = NiteliklerArasıFarklarKarelerToplamı

a ve b iki ayrı nesne olsun bu nesnelerin i=1,2,3… z’ye kadar nitelikleri olsun.

mes(a,b)=\sqrt { \sum _{ i=1 }^{ z }{ ({ a }_{ i }-{ b }_{ i })^{ 2 } } }

a = {1,2,3} ve b = {4,5,6} ikisi arasındaki mesafeyi hesaplayalım:

mes(a,b)=\sqrt { (1-4)^{ 2 }+(2-5)^{ 2 }+(3-6)^{ 2 } }
mes(a,b)=\sqrt { 9+9+9 }
mes(a,b)=5,19

Nitelikler nümerik değil ise başka yöntemler de kullanılabilir. Örneğin; Hamming.

BENZERLİK

Benzerlik ise iki nokta arasındaki mesafenin tersi bir anlama sahiptir. Benzerlik konusunda farklı ölçüm yöntemleri olsa da genel formülü şu şekilde ifade edebiliriz.

ikiNesneArasiBenzerlik = \frac { 1 }{ 1+ikiNoktaArasiMesafe }

Benzerliği ölçmek için kullanılan yöntemlerden bazıları şunlardır: Dice, Jaccard, Kosinüs (Cosine), Pearson ve Overlap. Kosünüs için örneğimizi burada yapalım. Kosinüs formülü:

{ Benzerlik(a,b) }_{ KOSINUS}=\frac { \sum _{ i=1 }^{ n }{ { a }_{ i }b_{ i } } }{ \sqrt { \sum _{ i=1 }^{ n }{ { a }_{ i }^{ 2 } } } \sum _{ i=1 }^{ n }{ { b }_{ i }^{ 2 } } }

Rakamları formüldeki yerine koyalım:

{ Benzerlik(a,b) }_{ KOSINUS }=\frac { (1*4)+(2*5)+(3*6) }{ \sqrt { \left[ { 1 }^{ 2 }+2^{ 2 }+3^{ 2 } \right] \left[ { 4 }^{ 2 }+5^{ 2 }+6^{ 2 } \right] } } = \frac { 32 }{ 32,83 } = 0,97

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Barkod Etiketi üretimi yapan firmaların işi ciddi bir iştir. Bu anlamda sizin de hangi firmayla çalışma yatığınız çok büyük önem taşır. Kullanım alanı sınırsızdır. Her alanda ve her sektörde bu etiketlere ihtiyaç duyulur. Etiket çeşitleri ve Barkod etiketleri, seri üretimle hazırlanmaktadır. Etiketler ahşap, plastik, metal ya da cam gibi ambalajlı ürünlerin üzerilerine ugulanır.
Mide botoksu midenin belirli yerlerine botoks maddesi enjekte etme suretiyle midedeki kasların çalışmasını sınırlandırmayı ve sayede midenin gıdaları sindirim sürecini yavaşlatarak buna bağlı olan açlık-tokluk hissi süresinin de uzatılmasını amaçlayan ameliyatsız kolay kilo verme tedavisidir. Botoks uygulanırken, midenin detaylı şekilde içerden görüntülenmesini sağlayan endoskopi uygulaması ile gerçekleştirilir. Bu sayede hastaya sadece gastroskpik uygulaması kadar bir rahatsızlık olur. Özellikle diyet programlarına ve düzenli egzersizlere uymakta zorlanan ve buna bağlı olarak da obeziteye yakalanan, bu yüzdende obezitenin sebep olduğu çeşitli sağlık sorunları olan kişiler için mide botoksu bir devrim niteliğindedir ve son yıllarda ülkemizde yaygın olarak kullanılmaktadır.
En güzel cami halısı dış avlusu olup bunun çevresi pencereli duvarlarla çevrilidir. Bu avulya 3 ü cephede olmak üzere, 8 kapıdan girilir. Şadırvan avlusu, 26 adet granit mermer ve porfir sütuna oturtulmuş, 30 kubbeyle çevrili geniş alandır. Mermer döşemeli bu geniş sahanın ortasında 6 mermer sütunlu şadırvan, sahanın azametini gösterir. Şadırvanın kemerleri, kabartma olarak Rumi geçmelerle ve köşebentleri, kabartma, lale ve karanfil motifleriyle bezelidir.
En güzel cami halısı dış avlusu olup bunun çevresi pencereli duvarlarla çevrilidir. Bu avulya 3 ü cephede olmak üzere, 8 kapıdan girilir. Şadırvan avlusu, 26 adet granit mermer ve porfir sütuna oturtulmuş, 30 kubbeyle çevrili geniş alandır. Mermer döşemeli bu geniş sahanın ortasında 6 mermer sütunlu şadırvan, sahanın azametini gösterir. Şadırvanın kemerleri, kabartma olarak Rumi geçmelerle ve köşebentleri, kabartma, lale ve karanfil motifleriyle bezelidir.
Termal Etiket Eco Termal etiket, yüzeyinde hami bir katman bulunmayan miktar çeşididir. Kumbara üzerine termal lamine edilmesi sonucunda oluşmaktadır. Kullanılan barkod yazıcının baş bölgesindeki ısı beraberlik birlikte termal sıvılaşma özelliği gösterir dahi bu şekilde Eco termal etiketin üzerine baskı alınır. Bu termal etiketlere yumruk termal olarak (ısıyla) yapılır ve yerde yüzden ribon kullanılmaz. Ribon kullanımı olmadığı için tahakküm maliyeti sıfıra yakındır.
Dijital Baskı ve baskı etiketi teknolojileri geliştikçe firmaların büyük ebatlı etiket ihtiyaçlarına da dijital çözümler sunulmaya başlamıştır. Böylece, birbirinden canlı renklerin ve kusursuz çizgilerin hakimiyetindeki büyük ebatlı dijital baskı etkileri; kurumsal firmaların reklam kampanyalarındaki en iddialı unsurlarına dönüşmüştür.