TechDogy

(paduvi)

You can do anything, but not everything..

Cài đặt Hadoop + HBase + Apache Phoenix

Categories:,

Bài hướng dẫn này đang sử dụng các phiên bản như sau, mình không đảm bảo được rằng nó cũng hoạt động ngon với các phiên bản kế tiếp.

Trong bài viết này, mình sử dụng username có tên là paduvi, các bạn thay nó bằng tên user của riêng mình nhé.

1. Cài đặt Java:

$ sudo apt update
$ sudo apt install openjdk-8-jdk

Kiểm tra cài đặt thành công chưa bằng lệnh:

$ java -version

Đặt giá trị JAVA_HOME, sử dụng lệnh sau để lấy đường dẫn của thư mục cài đặt Java:

$ sudo update-alternatives --config java

There is only one alternative in link group java (providing /usr/bin/java): /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java
Nothing to configure.

hoặc nó sẽ hiện ra như sau:

There are 3 choices for the alternative java (providing /usr/bin/java).

  Selection    Path                                            Priority   Status
------------------------------------------------------------
* 0            /usr/lib/jvm/java-11-openjdk-amd64/bin/java      1101      auto mode
  1            /usr/lib/jvm/java-11-openjdk-amd64/bin/java      1101      manual mode
  2            /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java   1081      manual mode
  3            /usr/lib/jvm/java-8-oracle/jre/bin/java          1081      manual mode

Press <enter> to keep the current choice[*], or type selection number:

Bổ sung dòng sau vào trong file ~/.bashrc:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export PATH=$PATH:$JAVA_HOME/bin

Để hoàn thành thì ta cần thực thi lệnh:

$ source ~/.bashrc

2. Cài đặt Hadoop:

$ cd ~
$ wget http://mirrors.viethosting.com/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
$ tar -zxvf hadoop-2.7.7.tar.gz
$ sudo mv hadoop-2.7.7 /usr/local/hadoop

Copy đống sau vào trong ~/.bashrc:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_INSTALL=$HADOOP_HOME

Và sau đó ta cần gọi source ~/.bashrc để apply các thay đổi.

$ cd $HADOOP_HOME/etc/hadoop

Toàn bộ file cấu hình của Hadoop đều nằm trong này, ta sẽ lần lượt sửa từng file sau:

2.1. File hadoop-env.sh:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

2.2. File core-site.xml:

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
   </property>
</configuration>

2.3. File hdfs-site.xml:

<configuration>
   <property>
      <name>dfs.replication</name >
      <value>1</value>
   </property>
	
   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/paduvi/hadoopinfra/hdfs/namenode</value>
   </property>
	
   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/paduvi/hadoopinfra/hdfs/datanode</value>
   </property>
</configuration>

2.4. File yarn-site.xml:

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

2.5. File mapred-site.xml:

Trước hết, copy file mapred-site.xml.template sang mapred-site.xml

$ cp mapred-site.xml.template mapred-site.xml

Bổ sung đoạn sau vào trong nội dung file mapred-site.xml:

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Kiểm tra xem ổn chưa nè:

$ cd ~
$ hdfs namenode -format

Nếu không có lỗi gì thì ta start hadoop thôi:

$ start-dfs.sh
$ start-yarn.sh

3. Cài đặt HBase:

$ cd ~
$ wget http://mirrors.viethosting.com/apache/hbase/1.3.5/hbase-1.3.5-bin.tar.gz
$ tar -zxvf hbase-1.3.5-bin.tar.gz
$ sudo mv hbase-1.3.5 /usr/local/hbase

Copy đống sau vào trong ~/.bashrc:

export HBASE_HOME=/usr/local/hbase
export HBASE_CONF_DIR=$HBASE_HOME/conf
export PATH=$PATH:$HBASE_HOME/bin

Và sau đó ta cần gọi source ~/.bashrc để apply các thay đổi.

$ cd $HBASE_CONF_DIR

Toàn bộ file cấu hình của HBase đều nằm trong này, ta sẽ lần lượt sửa theo từng bước như sau. Đầu tiên, sửa file hbase-env.sh:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

Tiếp theo, để chạy thử HBase ở chế độ standalone, ta sửa file hbase-site.xml:

<configuration>
   // Here you have to set the path where you want HBase to store its files.
   <property>
      <name>hbase.rootdir</name>
      <value>file:///home/paduvi/HBase/HFiles</value>
   </property>
	
   // Here you have to set the path where you want HBase to store its built in zookeeper  files.
   <property>
      <name>hbase.zookeeper.property.dataDir</name>
      <value>/home/paduvi/zookeeper</value>
   </property>
</configuration>

Khởi động HBase:

$ start-hbase.sh

Ta thử kết nối tới HBase Server sử dụng HBase Shell, chương trình này sẽ tự động khởi tạo connection tới HBase, với cấu hình sẽ được load từ file $HBASE_CONF_DIR/hbase-site.xml. Nếu các bạn sau này có muốn kết nối tới remote server, thì mình chỉ cần export biến HBASE_CONF_DIR tới thư mục chứa file hbase-site.xml lưu cấu hình remote:

$ hbase shell
hbase(main):001:0>
hbase(main):001:0> create 'test', 'cf'
0 row(s) in 0.4170 seconds

=> Hbase::Table - test

hbase(main):001:0> quit

Nếu không có lỗi gì xảy ra, thì ta sẽ chuyển sang phần tiếp, đó là lưu vào Hadoop và sử dụng Zookeeper. Ta tạm stop hbase để tránh 1 số lỗi không mong muốn:

$ stop-hbase.sh

Sửa file hbase-env.sh:

# Tell HBase whether it should manage it's own instance of Zookeeper or not.
export HBASE_MANAGES_ZK=false

Xóa toàn bộ các property cũ trong file hbase-site.xml đi, thay bằng như sau:

<property>
  <name>hbase.cluster.distributed</name>
  <value>true</value>
</property>

<property>
  <name>hbase.rootdir</name>
  <value>hdfs://localhost:9000/hbase</value>
</property>

<property>
  <name>hbase.zookeeper.quorum</name>
  <value>localhost</value>
</property>

<property>
  <name>hbase.zookeeper.property.clientPort</name>
  <value>2181</value>
</property>

<property>
  <name>zookeeper.znode.parent</name>
  <value>/hbase-unsecure</value>
</property>

Khởi động Zookeeper:

$ hbase-daemons.sh start zookeeper

Khởi động HBase:

$ start-hbase.sh

Nếu thành công, ta sẽ thu được kết quả tương tự như sau:

$ hadoop fs -ls /hbase
Found 7 items
drwxr-xr-x   - hbase users          0 2014-06-25 18:58 /hbase/.tmp
drwxr-xr-x   - hbase users          0 2014-06-25 21:49 /hbase/WALs
drwxr-xr-x   - hbase users          0 2014-06-25 18:48 /hbase/corrupt
drwxr-xr-x   - hbase users          0 2014-06-25 18:58 /hbase/data
-rw-r--r--   3 hbase users         42 2014-06-25 18:41 /hbase/hbase.id
-rw-r--r--   3 hbase users          7 2014-06-25 18:41 /hbase/hbase.version
drwxr-xr-x   - hbase users          0 2014-06-25 21:49 /hbase/oldWALs

4. Cài đặt Snappy:

Snappy là 1 thư viện được dùng trong Hadoop để nén dữ liệu. Để biết trong máy mình đã có cài đặt Snappy cho Hadoop chưa, ta có thể gọi lệnh sau để kiểm tra:

$ hadoop checknative -a

Trước khi bắt đầu, để đảm bảo toàn vẹn dữ liệu, ta sẽ stop tất cả các service Hadoop và HBase:

$ stop-hbase.sh
$ stop-yarn.sh
$ stop-dfs.sh
$ cd ~
$ wget https://github.com/google/snappy/archive/1.1.6.tar.gz
$ tar -xvzf 1.1.6.tar.gz
$ cd snappy-1.1.6/
$ mkdir build
$ cd build && cmake ../ && make
$ sudo make install

Lệnh cuối cùng sẽ generate ra các file libsnappy.so* ở trong thư mục /usr/local/lib/, ta sẽ copy các file này vào trong folder lib của Hadoop:

$ cp /usr/local/lib/libsnappy* $HADOOP_HOME/lib/native/

Cập nhật file ~/.bashrc rồi sau đó chạy source ~/.bashrc:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_HOME/lib/native/
export JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:$HADOOP_HOME/lib/native/
export HBASE_LIBRARY_PATH=$HADOOP_HOME/lib/native/

Cập nhật file core-site.xml của Hadoop:

<property>
  <name>io.compression.codecs</name>
  <value>
      org.apache.hadoop.io.compress.GzipCodec,
      org.apache.hadoop.io.compress.DefaultCodec,
      org.apache.hadoop.io.compress.BZip2Codec,
      org.apache.hadoop.io.compress.SnappyCodec
  </value>
</property>

Khởi động lại Hadoop và HBase:

$ start-dfs.sh
$ start-yarn.sh
$ hadoop checknative -a
$ start-hbase.sh
$ hbase shell
hbase(main):001:0> create 'snappyTest',{NAME=>'f',COMPRESSION => 'SNAPPY'}

5. Cài đặt Apache Phoenix:

$ cd ~
$ wget http://archive.apache.org/dist/phoenix/apache-phoenix-4.13.1-HBase-1.3/bin/apache-phoenix-4.13.1-HBase-1.3-bin.tar.gz
$ tar -xvzf apache-phoenix-4.13.1-HBase-1.3-bin.tar.gz
$ cd apache-phoenix-4.13.1-HBase-1.3-bin

Tạm thời stop HBase và copy 1 số file jar vào trong thư mục lib của HBase:

$ stop-hbase.sh
$ cp phoenix-core-4.13.1-HBase-1.3.jar $HBASE_HOME/lib/
$ cp phoenix-4.13.1-HBase-1.3-server.jar $HBASE_HOME/lib/

Bổ sung cấu hình sau vào hbase-site.xml:

<property>
  <name>phoenix.schema.mapSystemTablesToNamespace</name>
  <value>true</value>
</property>

<property>
  <name>phoenix.schema.isNamespaceMappingEnabled</name>
  <value>true</value>
</property>

Khởi động lại HBase và thử kết nối bằng Phoenix:

$ start-hbase.sh
$ python sqlline.py

Latest Comments:

  1. Mình đi search về storage engine thì thấy series về bài của bạn (mình đoán là bạn cũng đọc từ…

  2. Series rất hay, ủng hộ admin làm thêm về các database khác như Scylladb (discord mới migrate từ Cassandra sang)

  3. bài viết rất chất lượng, ủng hộ mạnh tác giả

  4. Mình đang làm về authentication thì phải tìm hiểu thêm về JWE (Json Web Encryption) và JWS (Json Web Signature).…

One response to “Cài đặt Hadoop + HBase + Apache Phoenix”

  1. Crave Freebies Avatar

    Nice post. I study one thing more difficult on different blogs everyday. It would always be stimulating to learn content material from other writers and follow a little something from their store. I抎 want to use some with the content on my blog whether you don抰 mind. Natually I抣l offer you a link in your net blog. Thanks for sharing.

Leave a Reply

Your email address will not be published. Required fields are marked *