Kişisel Bilgisayara Gerçek Bir Hadoop Big Data Clusterı Kurmak-1: Genel Bilgiler

Big data bildiğimiz gibi son zamanlarda üzerinde çok konuşulan bir kavram. Yapılan araştırmalara ve sektördeki gelişmelere dayanarak big data kullanımının artan bir trendle devam edeceğini söyleyebiliriz. Artık big data ile ilgili bilgi ve yeteneklerimizi; big data nedir? iyi bir şey midir? çalışma mantığı nedir? vb. gibi giriş seviyesi bilinçlenmenin ötesine taşıyıp bizzat ellerimizi hamura sokmalıyız. Ben bu yazı dizisinde sizlerle kendi dizüstü bilgisayarıma kurduğum çok sunuculu Hadoop cluster ile ilgili aldığım notları paylaşacağım. Her şey yolunda giderse 6 sunuculu Hadoop Big Data Cluster kurmuş olacağız. Bunu yapmak niye bu kadar önemli. Öncelikle gerçek bir big data deneyimi yaşayacaksınız. Bu ortamı kurduğunuzda ortam üzerinde rahat rahat çalışabileceksiniz. Hiç kimseye bağımlı olmadan, hatta internet bağlantınız bile olmadan big data laboratuvarınız hep yanınızda olacak. Ne zaman müsait olursanız açıp çalışabileceksiniz. Eğitici, eğitim ortamı ve zamanla ilgili kısıtlamalarınızı kaldırmış olacaksınız. Kendi bilgisayarınıza yaptığınız yatırım dışında (ki onu da kendi mülkünüze yapıyorsunuz) hiçbir masrafınız olmayacak. Dünya açık kaynak dünyası, ihtiyacınız olan her şey bir yerlerde var, size gidip onu bulup, öğrenmek ve kullanmak düşüyor. Tek ihtiyacınız bir bigisayar, internet bağlantısı ve bir fincan kahve.

Gereksinimler:

Bu yazı dizisini takip edebilmek için güçlü bir bilgisayara ihtiyaç var. Günümüzde i5 işlemcili ve 8 GB ana bellekli bilgisayarlar yaygın. Bu iş için en azından RAM’i 16 GB mümkünse 32 GB çıkarmanız sizi çok rahatlatacaktır. Daha fazla sanal makineyi aynı anda çalıştırmak için de işlemcinin i7 olması daha iyi. Ben bu iş için 16 GB RAM’li bilgisayarımı 32 GB’ye çıkardım ve 512 GB ilave SSD disk taktım. Bence kişisel gelişiminiz için böyle küçük yatırımlar yapmanız gerekir. Hatta sadece donanım değil yazılım lisansı, eğitim videosu kitap vb. yatırımlarda kaçınmayın. Hatta bunlara vereceğiniz para, piyasada big data adı altında alacağınız 3-5 günlük eğitim için ödeyeceğinizden daha az bile olabilir. Ben aşağıda kendi kullandığım bilgisayar ve yazılımlara ait bilgileri paylaşıyorum. Parantez içinde tavsiyelerde bulunuyorum.

İşlemci: Intel i7 (i5’de olabilir ancak i7 olsa daha iyi)

Ana Bellek (RAM): 32 GB (16 GB olabilir)

Harddisk: 512 GB SSD (Mekanik disk de olur ancak çok yavaş çalışırsınız)

İşletim Sistemi: Windows 10

Gerekli Yazılımlar:

  • Sanallaştırma Yazılımı (Örnekler vmware workstation üzerinden olacaktır. Virtual Box veya Hyper-V de kullanılabilir)
  • Ana makineden sanal clustera bağlanmak ve linux komutları kullanmak için ana makine üzerine Cygwin64 terminal kurdum. Çünkü clusterı oluşturacak sunuculara CenOS7 işletim sistemini arayüz olmadan minimal versiyonu ile kuracağız ki gereksiz kaynak tüketimi olmasın
Varsayımlar:

Bu yazı dizisini takip edecekler için bazı varsayımlarım var: Yukarıdaki doananım ve yazılımlara sahipler. Sanallaştırma yazılımını kullanmayı biliyorlar (yazı dizisinde vmware workstation kullanılacaktır). Temel linux bilgisine ve komutlarını kullanma becerisine sahipler. HDFS, MapReduce, NameNode, DataNode, YARN vb. Hadoop ve big data hakkında temel kavramlara hakimler.

Bu yazı dizisinde VmWare gibi sanallaştırma yazılımı, Cygwin64 gibi Windows-toLinux terminal programı kurulumu anlatılmayacaktır. Yazının başlangıcında bu yazılımların kurulu olduğu varsayılmaktadır.

Amaç:

Mevcut kaynaklarla (kişisel bilgisayar ve internek bağlantısı) ilave masraf yapmaksızın big data konusunda uygulamalı olarak kendi kendini eğitebilir hale getirmek. Hortonworks, Cloudera gibi önde gelen şirketlerin sertifikasyon sınavlarına hazırlanmak. Big data alanında insan yeteneklerini geiştirmek ve bu alanla ilgili iş bulabilme imkanını sağlamak.

Sonuç:

Sonuçta kişisel bilgisayarımızda çalışan bir Hadoop cluster olacaktır. Ben Cluster kurulumunda Hortonworks’ün HDP-2.6.2.0 versiyonunu kullanacağım ve Ambari ile otomatik kurulum yapacağız. Yazı dizisini başarıyla tamamladığımızda karşınızda aşağıdaki ekranı göreceksiniz.

Yazılardan yayınladıklarımın liklerini bağlayacağım (kırmızı olanlar yayınlanmıştır).

Yazılar:

1. Genel Bilgiler

2. Cluster Ağ ve IP Planlaması

3. VMware ile Sanal Makine Yaratmak

4. Baz Şablon Sunucuya CentOS7 İşletim Sistemi Yüklemek

5. Baz Şablon Sunucuya Gerekli Yazılımları Yüklemek

6. VMware Tools Yükleme

7. Baz Şablon Sunucu Konfigürasyonu

8. Uzman Seviyesi Linux Kernel Ayarları

9. Sanal Makineleri Kopyalama ve Parolasız SSH Bağlantısı

10. Cluster Planı

11. Edge Server Hazırlama(httpd ve pssh)

12. Lokal Repository Kurulumu

13. Ambari Kurulumu

14. Ambari ile Cluster Kurulumu

Veriyle kalın…

Kişisel Bilgisayara Gerçek Bir Hadoop Big Data Clusterı Kurmak-1: Genel Bilgiler” için 2 yorum

  • 13 Mart 2018 tarihinde, saat 15:33
    Permalink

    Merhaba, Linux Ubuntu 16.04 üzerine Hadoop kurulumu yapıyorum. Yazınızı da takip etmek istiyorum ama kurulumlar farklı ortamlarda olduğundan takip açısından sıkıntı yaşar mıyız?

    Yanıtla
    • 15 Mart 2018 tarihinde, saat 21:20
      Permalink

      Merhabalar öncelikle yazı dizisini veribilimi.co adresine taşıdım oradan takip ederseniz daha iyi olur. Sonrasında eğer yeni başlıyorsanızSandbox kullanarak biraz tecrübe kazanmanızı öneririm. Daha sonra 7-8 sunuculu gerçek bir cluster kurmak isterseniz veribilimi.co daki herkes için big data yazı dizisinden takip edebilirsiniz. Ben CentOS7 kullandım siz Ubuntu üzerine de kurabilirsiniz büyük bir farklılık olmaz. Ancak bire bir adım adım takip etmek istiyorsanız işletim sistemini de CentOS7 seçmenizi tavsiye ederim. iyi çalışmalar…

      Yanıtla

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir