CDH-6.3.2从零到一的详细安装教程&hive on Spark性能测试教程
发布人:shili8
发布时间:2025-02-20 09:33
阅读次数:0
**CDH-6.3.2 从零到一的详细安装教程**
**前言**
Apache CDH (Hadoop Distributed) 是一个开源的大数据处理平台,提供了 HDFS(分布式文件系统)、YARN(资源管理器)、MapReduce(任务执行器)等组件。CDH-6.3.2 是最新的版本,我们将一步步地安装和配置它。
**环境准备**
* 操作系统:CentOS7.x* 内存:至少16GB* 硬盘空间:至少100GB**Step1: 安装依赖包**
bashsudo yum install -y epel-releasesudo yum install -y java-1.8.0-openjdk-headless.x86_64
**Step2: 下载CDH-6.3.2**
bashwget -xvf hadoop-3.3.1.tar.gzmv hadoop-3.3.1 /usr/local/cdh
**Step3: 配置HDFS**
bashcd /usr/local/cdh/etc/hadoopcp mapred-site.xml.template mapred-site.xmlcp hdfs-site.xml.template hdfs-site.xml# 编辑配置文件vim hdfs-site.xml<property> <name>dfs.replication</name> <value>3</value> </property> # 编辑配置文件vim mapred-site.xml<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
**Step4: 配置YARN**
bashcd /usr/local/cdh/etc/hadoopcp yarn-site.xml.template yarn-site.xml# 编辑配置文件vim yarn-site.xml<property> <name>yarn.nodemanager.resource.memorymb</name> <value>8192</value> </property> <property> <name>yarn.nodemanager.resource.cpu-vcores</name> <value>8</value> </property>
**Step5: 启动HDFS**
bashcd /usr/local/cdh/bin./hdfs namenode -format./hdfs datanode
**Step6: 启动YARN**
bash./yarn resourcemanager./yarn nodemanager
**Step7: 启动MapReduce**
bash./mapred jobhistoryserver
**Hive on Spark 性能测试教程**
**前言**
Apache Hive 是一个数据仓库工具,提供了 SQL-like 的查询语言。Hive on Spark 是一种将 Hive 查询转换为 Spark任务的方式。
**环境准备**
* 操作系统:CentOS7.x* 内存:至少16GB* 硬盘空间:至少100GB**Step1: 安装Hive**
bashsudo yum install -y hive
**Step2: 配置Hive**
bashcd /usr/local/hive/confcp hive-site.xml.template hive-site.xml# 编辑配置文件vim hive-site.xml<property> <name>hive.metastore.uri</name> <value>thrift://localhost:9083</value> </property> <property> <name>hive.exec.mode</name> <value>mr</value> </property>
**Step3: 启动Hive**
bashcd /usr/local/hive/bin./hive --service metastore
**Step4: 配置Spark**
bashcd /usr/local/spark/confcp spark-defaults.conf.template spark-defaults.conf# 编辑配置文件vim spark-defaults.confspark.master yarn-clientspark.executor.memory8g
**Step5: 启动Spark**
bashcd /usr/local/spark/bin./spark-shell --driver-memory4g
**性能测试**
scala// 创建一个Hive表val hive = new HiveContext(sc) hive.sql("CREATE TABLE IF NOT EXISTS test (id INT, name STRING)") // 将数据写入Hive表val data = Array((1, "John"), (2, "Mary")) hive.sql("INSERT INTO test VALUES (?, ?)", data) // 从Hive表中读取数据val result = hive.sql("SELECT * FROM test").collect() // 打印结果result.foreach { case (id, name) => println(s"id: $id, name: $name") }
**结论**
本教程从零到一地安装了CDH-6.3.2和Hive on Spark,提供了性能测试的示例代码。通过阅读本教程,读者可以了解如何在CentOS7.x上安装CDH-6.3.2和Hive on Spark,并且能够使用Hive on Spark进行性能测试。