hdfs的读写流程

发布人：shili8 发布时间：2025-02-04 01:47 阅读次数：0

**HDFS读写流程**

HDFS（Hadoop Distributed File System）是 Hadoop 生态系统中的一项关键组件，用于存储和管理大规模数据。理解 HDFS 的读写流程对于有效地使用 HDFS 来实现数据处理和分析至关重要。

### **1. HDFS 架构**

HDFS 架构由以下几个组成部分：

* **NameNode (NN)**：负责维护 HDFS 中所有块的元数据信息，包括块的位置、大小等。
* **DataNode (DN)**：存储实际的数据块。
* **Client**：向 HDFS读写数据的应用程序。

### **2.读流程**

当 Client 想要从 HDFS 中读取数据时，会发生以下过程：

#### **2.1. Client 向 NameNode 发起读请求**

java// Client.javapublic class Client {
 public void readFromHdfs(String filePath) throws IOException {
 //1. 连接到 NameNode Configuration conf = new Configuration();
 conf.set("fs.defaultFS", "hdfs://localhost:9000");
 FileSystem fs = FileSystem.get(conf);
 //2. 向 NameNode 发起读请求 FSDataInputStream in = fs.open(new Path(filePath));
 //3.读取数据 byte[] data = new byte[1024];
 int bytesRead = in.read(data);
 while (bytesRead != -1) {
 System.out.println(new String(data,0, bytesRead));
 bytesRead = in.read(data);
 }
 in.close();
 }
}

#### **2.2. NameNode 返回块位置**

NameNode 接收到 Client 的读请求后，会返回相应的块位置。

java// NameNode.javapublic class NameNode {
 public void handleReadRequest(String filePath) throws IOException {
 //1. 查找块元数据 Block block = getBlock(filePath);
 if (block != null) {
 //2. 返回块位置 String[] locations = block.getLocations();
 System.out.println("Block " + block.getBlockId() + " located at: " + Arrays.toString(locations));
 } else {
 System.out.println("Block not found.");
 }
 }
}

#### **2.3. Client 从 DataNode读取数据**

Client 接收到块位置后，会从相应的 DataNode 中读取实际的数据。

java// DataNode.javapublic class DataNode {
 public void handleReadRequest(String blockId, String location) throws IOException {
 //1. 查找块 Block block = getBlock(blockId);
 if (block != null) {
 //2. 返回块数据 byte[] data = block.getData();
 System.out.println("Data: " + new String(data));
 } else {
 System.out.println("Block not found.");
 }
 }
}

### **3. 写流程**

当 Client 想要向 HDFS 中写入数据时，会发生以下过程：

#### **3.1. Client 向 NameNode 发起写请求**

java// Client.javapublic class Client {
 public void writeToHdfs(String filePath, byte[] data) throws IOException {
 //1. 连接到 NameNode Configuration conf = new Configuration();
 conf.set("fs.defaultFS", "hdfs://localhost:9000");
 FileSystem fs = FileSystem.get(conf);
 //2. 向 NameNode 发起写请求 FSDataOutputStream out = fs.create(new Path(filePath));
 //3. 写入数据 out.write(data);
 out.close();
 }
}

#### **3.2. NameNode 分配块**

NameNode 接收到 Client 的写请求后，会分配相应的块。

java// NameNode.javapublic class NameNode {
 public void handleWriteRequest(String filePath, byte[] data) throws IOException {
 //1. 查找块元数据 Block block = getBlock(filePath);
 if (block != null) {
 //2. 分配块 String[] locations = block.getLocations();
 System.out.println("Block " + block.getBlockId() + " located at: " + Arrays.toString(locations));
 } else {
 System.out.println("Block not found.");
 }
 }
}

#### **3.3. Client 写入 DataNode**

Client 接收到块位置后，会向相应的 DataNode 中写入实际的数据。

java// DataNode.javapublic class DataNode {
 public void handleWriteRequest(String blockId, String location, byte[] data) throws IOException {
 //1. 查找块 Block block = getBlock(blockId);
 if (block != null) {
 //2. 写入数据 block.setData(data);
 System.out.println("Data written to block " + block.getBlockId());
 } else {
 System.out.println("Block not found.");
 }
 }
}

以上就是 HDFS 的读写流程的基本步骤。理解这些过程对于有效地使用 HDFS 来实现数据处理和分析至关重要。

上一条：linux_amd64/link: running gcc failed: exec: “gcc“ 错误解决

下一条：pico添加devmem2读写内存模块