CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

发布人：shili8 发布时间：2025-02-20 09:33 阅读次数：0

**CDH-6.3.2 从零到一的详细安装教程**

**前言**

Apache CDH (Hadoop Distributed) 是一个开源的大数据处理平台，提供了 HDFS（分布式文件系统）、YARN（资源管理器）、MapReduce（任务执行器）等组件。CDH-6.3.2 是最新的版本，我们将一步步地安装和配置它。

**环境准备**

* 操作系统：CentOS7.x* 内存：至少16GB* 硬盘空间：至少100GB**Step1: 安装依赖包**

bashsudo yum install -y epel-releasesudo yum install -y java-1.8.0-openjdk-headless.x86_64

**Step2: 下载CDH-6.3.2**

bashwget  -xvf hadoop-3.3.1.tar.gzmv hadoop-3.3.1 /usr/local/cdh

**Step3: 配置HDFS**

bashcd /usr/local/cdh/etc/hadoopcp mapred-site.xml.template mapred-site.xmlcp hdfs-site.xml.template hdfs-site.xml# 编辑配置文件vim hdfs-site.xml<property>
 <name>dfs.replication</name>
 <value>3</value>
</property>

# 编辑配置文件vim mapred-site.xml<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>

**Step4: 配置YARN**

bashcd /usr/local/cdh/etc/hadoopcp yarn-site.xml.template yarn-site.xml# 编辑配置文件vim yarn-site.xml<property>
 <name>yarn.nodemanager.resource.memorymb</name>
 <value>8192</value>
</property>

<property>
 <name>yarn.nodemanager.resource.cpu-vcores</name>
 <value>8</value>
</property>

**Step5: 启动HDFS**

bashcd /usr/local/cdh/bin./hdfs namenode -format./hdfs datanode

**Step6: 启动YARN**

bash./yarn resourcemanager./yarn nodemanager

**Step7: 启动MapReduce**

bash./mapred jobhistoryserver

**Hive on Spark 性能测试教程**

**前言**

Apache Hive 是一个数据仓库工具，提供了 SQL-like 的查询语言。Hive on Spark 是一种将 Hive 查询转换为 Spark任务的方式。

**环境准备**

* 操作系统：CentOS7.x* 内存：至少16GB* 硬盘空间：至少100GB**Step1: 安装Hive**

bashsudo yum install -y hive

**Step2: 配置Hive**

bashcd /usr/local/hive/confcp hive-site.xml.template hive-site.xml# 编辑配置文件vim hive-site.xml<property>
 <name>hive.metastore.uri</name>
 <value>thrift://localhost:9083</value>
</property>

<property>
 <name>hive.exec.mode</name>
 <value>mr</value>
</property>

**Step3: 启动Hive**

bashcd /usr/local/hive/bin./hive --service metastore

**Step4: 配置Spark**

bashcd /usr/local/spark/confcp spark-defaults.conf.template spark-defaults.conf# 编辑配置文件vim spark-defaults.confspark.master yarn-clientspark.executor.memory8g

**Step5: 启动Spark**

bashcd /usr/local/spark/bin./spark-shell --driver-memory4g

**性能测试**

scala// 创建一个Hive表val hive = new HiveContext(sc)
hive.sql("CREATE TABLE IF NOT EXISTS test (id INT, name STRING)")

// 将数据写入Hive表val data = Array((1, "John"), (2, "Mary"))
hive.sql("INSERT INTO test VALUES (?, ?)", data)

// 从Hive表中读取数据val result = hive.sql("SELECT * FROM test").collect()

// 打印结果result.foreach { case (id, name) =>
 println(s"id: $id, name: $name")
}

**结论**

本教程从零到一地安装了CDH-6.3.2和Hive on Spark，提供了性能测试的示例代码。通过阅读本教程，读者可以了解如何在CentOS7.x上安装CDH-6.3.2和Hive on Spark，并且能够使用Hive on Spark进行性能测试。

上一条：【Linux工具篇】项目自动构建化工具-make/Makefile

下一条：MySQL基础（三十一）