当前位置:实例文章 » 其他实例» [文章]CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程

发布人:shili8 发布时间:2025-02-20 09:33 阅读次数:0

**CDH-6.3.2 从零到一的详细安装教程**

**前言**

Apache CDH (Hadoop Distributed) 是一个开源的大数据处理平台,提供了 HDFS(分布式文件系统)、YARN(资源管理器)、MapReduce(任务执行器)等组件。CDH-6.3.2 是最新的版本,我们将一步步地安装和配置它。

**环境准备**

* 操作系统:CentOS7.x* 内存:至少16GB* 硬盘空间:至少100GB**Step1: 安装依赖包**

bashsudo yum install -y epel-releasesudo yum install -y java-1.8.0-openjdk-headless.x86_64


**Step2: 下载CDH-6.3.2**

bashwget  -xvf hadoop-3.3.1.tar.gzmv hadoop-3.3.1 /usr/local/cdh


**Step3: 配置HDFS**

bashcd /usr/local/cdh/etc/hadoopcp mapred-site.xml.template mapred-site.xmlcp hdfs-site.xml.template hdfs-site.xml# 编辑配置文件vim hdfs-site.xml<property>
 <name>dfs.replication</name>
 <value>3</value>
</property>

# 编辑配置文件vim mapred-site.xml<property>
 <name>mapreduce.framework.name</name>
 <value>yarn</value>
</property>


**Step4: 配置YARN**

bashcd /usr/local/cdh/etc/hadoopcp yarn-site.xml.template yarn-site.xml# 编辑配置文件vim yarn-site.xml<property>
 <name>yarn.nodemanager.resource.memorymb</name>
 <value>8192</value>
</property>

<property>
 <name>yarn.nodemanager.resource.cpu-vcores</name>
 <value>8</value>
</property>


**Step5: 启动HDFS**

bashcd /usr/local/cdh/bin./hdfs namenode -format./hdfs datanode


**Step6: 启动YARN**

bash./yarn resourcemanager./yarn nodemanager


**Step7: 启动MapReduce**

bash./mapred jobhistoryserver


**Hive on Spark 性能测试教程**

**前言**

Apache Hive 是一个数据仓库工具,提供了 SQL-like 的查询语言。Hive on Spark 是一种将 Hive 查询转换为 Spark任务的方式。

**环境准备**

* 操作系统:CentOS7.x* 内存:至少16GB* 硬盘空间:至少100GB**Step1: 安装Hive**

bashsudo yum install -y hive


**Step2: 配置Hive**

bashcd /usr/local/hive/confcp hive-site.xml.template hive-site.xml# 编辑配置文件vim hive-site.xml<property>
 <name>hive.metastore.uri</name>
 <value>thrift://localhost:9083</value>
</property>

<property>
 <name>hive.exec.mode</name>
 <value>mr</value>
</property>


**Step3: 启动Hive**

bashcd /usr/local/hive/bin./hive --service metastore


**Step4: 配置Spark**

bashcd /usr/local/spark/confcp spark-defaults.conf.template spark-defaults.conf# 编辑配置文件vim spark-defaults.confspark.master yarn-clientspark.executor.memory8g


**Step5: 启动Spark**

bashcd /usr/local/spark/bin./spark-shell --driver-memory4g


**性能测试**

scala// 创建一个Hive表val hive = new HiveContext(sc)
hive.sql("CREATE TABLE IF NOT EXISTS test (id INT, name STRING)")

// 将数据写入Hive表val data = Array((1, "John"), (2, "Mary"))
hive.sql("INSERT INTO test VALUES (?, ?)", data)

// 从Hive表中读取数据val result = hive.sql("SELECT * FROM test").collect()

// 打印结果result.foreach { case (id, name) =>
 println(s"id: $id, name: $name")
}


**结论**

本教程从零到一地安装了CDH-6.3.2和Hive on Spark,提供了性能测试的示例代码。通过阅读本教程,读者可以了解如何在CentOS7.x上安装CDH-6.3.2和Hive on Spark,并且能够使用Hive on Spark进行性能测试。

其他信息

其他资源

Top