Sistem Gereksinimleri ve Hazırlık
Rocky Linux 9 üzerinde büyük veri analizi framework’lerinin kurulumu için öncelikle sistem gereksinimlerinin karşılanması gerekmektedir. Minumum olarak 8 GB RAM, 4 çekirdekli işlemci ve en az 100 GB disk alanına sahip bir sunucu önerilmektedir. Ayrıca Java Development Kit (JDK) kurulumu da gereklidir. Hadoop ve Spark, Java tabanlı olduğundan JDK’nın versiyonu 8 veya daha yüksek olmalıdır. Paket yöneticisi ile sistem güncellemeleri yapılmalıdır:
“`bash
sudo dnf update -y
“`
JDK Kurulumu
OpenJDK, Hadoop ve Spark için yaygın olarak kullanılan bir JDK sürümüdür. Aşağıdaki komutlar ile OpenJDK kurulumu gerçekleştirilir:
“`bash
sudo dnf install java-11-openjdk-devel -y
java -version
“`
Yukarıdaki komut, Java’nın kurulup kurulmadığını kontrol eder. Kurulumdan sonra JAVA_HOME değişkeni ayarlanmalıdır. `/etc/profile` dosyasını aşağıdaki şekilde güncelleyerek gerekli değişiklikler yapılır:
“`bash
sudo nano /etc/profile
“`
Dosyanın sonuna şunlar eklenir:
“`bash
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk
export PATH=$PATH:$JAVA_HOME/bin
“`
Daha sonra değişiklikleri uygulamak için terminal oturumu kapatılıp açılmalıdır.
Hadoop Kurulumu
Hadoop kurulumu için ilk olarak Hadoop’un en son sürümü indirilmelidir. Apache Hadoop’un resmi web sitesinden sıkıştırılmış dosya indirilip şu komutla çıkarılmalıdır:
“`bash
wget https://downloads.apache.org/hadoop/common/hadoop-3.x.x/hadoop-3.x.x.tar.gz
tar -xzvf hadoop-3.x.x.tar.gz
sudo mv hadoop-3.x.x /usr/local/hadoop
“`
Ardından Hadoop ile ilgili environment variable’lar ayarlanmalıdır. `/etc/profile` dosyasına şu satırlar eklenmelidir:
“`bash
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
“`
Yine terminal oturumu yeniden kapatılarak veya `source /etc/profile` komutu ile değişiklikler uygulanmalıdır. HDFS (Hadoop Distributed File System) yapılandırmasına geçilmelidir. Aşağıdaki dizin ve dosyalar oluşturulmalıdır:
“`bash
mkdir -p /usr/local/hadoop/hdfs/namenode
mkdir -p /usr/local/hadoop/hdfs/datanode
“`
Hadoop’un `core-site.xml` ve `hdfs-site.xml` dosyaları da yapılandırılmalıdır. `core-site.xml` için aşağıdaki içerik eklenir:
“`xml
“`
`hdfs-site.xml` için de aşağıdaki içerik geçirilmelidir:
“`xml
“`
Yapılandırmalardan sonra HDFS formatlanmalı ve Hadoop başlatılmalıdır:
“`bash
hdfs namenode -format
start-dfs.sh
“`
Spark Kurulumu
Spark kurulum işlemi için Apache Spark’ın en güncel sürümü indirilmelidir. İndirme ve kurulum şu şekilde yapılır:
“`bash
wget https://downloads.apache.org/spark/spark-x.x.x/spark-x.x.x-bin-hadoop3.tgz
tar -xzvf spark-x.x.x-bin-hadoop3.tgz
sudo mv spark-x.x.x-bin-hadoop3 /usr/local/spark
“`
Spark ile ilgili ortam değişkenleri `/etc/profile` dosyasına aşağıdaki gibi eklenir:
“`bash
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
“`
Aynı şekilde terminal oturumu kapatılıp açılmalı ya da `source /etc/profile` komutu uygulanmalıdır. Spark, Hadoop ile birlikte çalıştığı için Hadoop’un doğru bir şekilde yapılandırılmış olduğundan emin olunmalıdır.
Hive Kurulumu
Apache Hive’nin kurulumu için öncelikle Hive’nin en yeni sürümü indirilmelidir. Aşağıdaki komutlar uygulanır:
“`bash
wget https://downloads.apache.org/hive/hive-x.x.x/apache-hive-x.x.x-bin.tar.gz
tar -xzvf apache-hive-x.x.x-bin.tar.gz
sudo mv apache-hive-x.x.x-bin /usr/local/hive
“`
Hive için de ortam değişkenleri ayarlanmalıdır. `/etc/profile` dosyasına şu satırlar eklenir:
“`bash
export HIVE_HOME=/usr/local/hive
export PATH=$PATH:$HIVE_HOME/bin
“`
Daha sonra Hive’ın metastore için bir veritabanı oluşturması sağlanmalıdır. Bu amaçla, Hive ile MySQL veya başka bir veritabanı kullanılabilir. Hive kurulumdan sonra aşağıdaki adımlar takip edilmelidir:
“`bash
schematool -initSchema -dbType derby
“`
Bu komut, Hive’ın yerel veri tabanını oluşturur. Sonrasında Hive shell açılarak, sorgular çalıştırılabilir.
Test ve Doğrulama
Kurulum sonrasında Hadoop, Spark ve Hive’ın çalıştığını doğrulamak amacıyla aşağıdaki komutlar kullanılabilir:
“`bash
hadoop version
spark-shell
hive
“`
Bu komutlar, her bir aracın yüklü olup olmadığını ve düzgün çalışıp çalışmadığını kontrol eder. Eğer her şey doğru bir şekilde kurulduysa, büyük veri analizi işlemleri için Rocky Linux 9 sistemi hazır hale gelmiştir.