Rocky Linux 9 ile Büyük Veri Analizi (Big Data Analytics) Araçları Kurulumu Nasıl Yapılır? (Hadoop, Spark, Hive)

Sistem Gereksinimleri ve Hazırlık

Rocky Linux 9 üzerinde büyük veri analizi framework’lerinin kurulumu için öncelikle sistem gereksinimlerinin karşılanması gerekmektedir. Minumum olarak 8 GB RAM, 4 çekirdekli işlemci ve en az 100 GB disk alanına sahip bir sunucu önerilmektedir. Ayrıca Java Development Kit (JDK) kurulumu da gereklidir. Hadoop ve Spark, Java tabanlı olduğundan JDK’nın versiyonu 8 veya daha yüksek olmalıdır. Paket yöneticisi ile sistem güncellemeleri yapılmalıdır:

“`bash
sudo dnf update -y
“`

JDK Kurulumu

OpenJDK, Hadoop ve Spark için yaygın olarak kullanılan bir JDK sürümüdür. Aşağıdaki komutlar ile OpenJDK kurulumu gerçekleştirilir:

“`bash
sudo dnf install java-11-openjdk-devel -y
java -version
“`

Yukarıdaki komut, Java’nın kurulup kurulmadığını kontrol eder. Kurulumdan sonra JAVA_HOME değişkeni ayarlanmalıdır. `/etc/profile` dosyasını aşağıdaki şekilde güncelleyerek gerekli değişiklikler yapılır:

“`bash
sudo nano /etc/profile
“`

Dosyanın sonuna şunlar eklenir:

“`bash
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk
export PATH=$PATH:$JAVA_HOME/bin
“`

Daha sonra değişiklikleri uygulamak için terminal oturumu kapatılıp açılmalıdır.

Hadoop Kurulumu

Hadoop kurulumu için ilk olarak Hadoop’un en son sürümü indirilmelidir. Apache Hadoop’un resmi web sitesinden sıkıştırılmış dosya indirilip şu komutla çıkarılmalıdır:

“`bash
wget https://downloads.apache.org/hadoop/common/hadoop-3.x.x/hadoop-3.x.x.tar.gz
tar -xzvf hadoop-3.x.x.tar.gz
sudo mv hadoop-3.x.x /usr/local/hadoop
“`

Ardından Hadoop ile ilgili environment variable’lar ayarlanmalıdır. `/etc/profile` dosyasına şu satırlar eklenmelidir:

“`bash
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
“`

Yine terminal oturumu yeniden kapatılarak veya `source /etc/profile` komutu ile değişiklikler uygulanmalıdır. HDFS (Hadoop Distributed File System) yapılandırmasına geçilmelidir. Aşağıdaki dizin ve dosyalar oluşturulmalıdır:

“`bash
mkdir -p /usr/local/hadoop/hdfs/namenode
mkdir -p /usr/local/hadoop/hdfs/datanode
“`

Hadoop’un `core-site.xml` ve `hdfs-site.xml` dosyaları da yapılandırılmalıdır. `core-site.xml` için aşağıdaki içerik eklenir:

“`xml
fs.defaultFS
hdfs://localhost:9000

“`

`hdfs-site.xml` için de aşağıdaki içerik geçirilmelidir:

“`xml
dfs.namenode.name.dir
file:///usr/local/hadoop/hdfs/namenode
dfs.datanode.data.dir
file:///usr/local/hadoop/hdfs/datanode

“`

Yapılandırmalardan sonra HDFS formatlanmalı ve Hadoop başlatılmalıdır:

“`bash
hdfs namenode -format
start-dfs.sh
“`

Spark Kurulumu

Spark kurulum işlemi için Apache Spark’ın en güncel sürümü indirilmelidir. İndirme ve kurulum şu şekilde yapılır:

“`bash
wget https://downloads.apache.org/spark/spark-x.x.x/spark-x.x.x-bin-hadoop3.tgz
tar -xzvf spark-x.x.x-bin-hadoop3.tgz
sudo mv spark-x.x.x-bin-hadoop3 /usr/local/spark
“`

Spark ile ilgili ortam değişkenleri `/etc/profile` dosyasına aşağıdaki gibi eklenir:

“`bash
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
“`

Aynı şekilde terminal oturumu kapatılıp açılmalı ya da `source /etc/profile` komutu uygulanmalıdır. Spark, Hadoop ile birlikte çalıştığı için Hadoop’un doğru bir şekilde yapılandırılmış olduğundan emin olunmalıdır.

Hive Kurulumu

Apache Hive’nin kurulumu için öncelikle Hive’nin en yeni sürümü indirilmelidir. Aşağıdaki komutlar uygulanır:

“`bash
wget https://downloads.apache.org/hive/hive-x.x.x/apache-hive-x.x.x-bin.tar.gz
tar -xzvf apache-hive-x.x.x-bin.tar.gz
sudo mv apache-hive-x.x.x-bin /usr/local/hive
“`

Hive için de ortam değişkenleri ayarlanmalıdır. `/etc/profile` dosyasına şu satırlar eklenir:

“`bash
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
“`

Daha sonra Hive’ın metastore için bir veritabanı oluşturması sağlanmalıdır. Bu amaçla, Hive ile MySQL veya başka bir veritabanı kullanılabilir. Hive kurulumdan sonra aşağıdaki adımlar takip edilmelidir:

“`bash
schematool -initSchema -dbType derby
“`

Bu komut, Hive’ın yerel veri tabanını oluşturur. Sonrasında Hive shell açılarak, sorgular çalıştırılabilir.

Test ve Doğrulama

Kurulum sonrasında Hadoop, Spark ve Hive’ın çalıştığını doğrulamak amacıyla aşağıdaki komutlar kullanılabilir:

“`bash
hadoop version
spark-shell
hive
“`

Bu komutlar, her bir aracın yüklü olup olmadığını ve düzgün çalışıp çalışmadığını kontrol eder. Eğer her şey doğru bir şekilde kurulduysa, büyük veri analizi işlemleri için Rocky Linux 9 sistemi hazır hale gelmiştir.

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

SON İÇERİKLER

İLGİNİZİ ÇEKEBİLİR