全网最详细4W字Flink入门笔记（上）

发布人：shili8 发布时间：2024-12-26 07:53 阅读次数：0

**Flink 入门笔记 (上)****前言**

Apache Flink 是一个流式处理框架，支持批处理、事件驱动处理和流式处理。它提供了高吞吐量、高可靠性和高可扩展性的特性，使其成为大数据处理的理想选择。在本文中，我们将详细介绍 Flink 的基本概念、配置、编程模型以及常见操作。

**1. Flink 基础**

###1.1 Flink 架构Flink 的架构主要包括以下几个组件：

* **JobManager (JM)**：负责管理和调度任务。
* **TaskManager (TM)**：执行任务的进程。
* **ResourceManager (RM)**：资源管理器，负责分配和监控资源。

###1.2 Flink 配置Flink 的配置文件主要包括以下几个部分：

* **flink-conf.yaml**：全局配置文件。
* **jobmanager.properties**：JobManager 配置文件。
* **taskmanager.properties**：TaskManager 配置文件。

###1.3 Flink 环境准备在使用 Flink 之前，需要准备以下环境：

* **Java**：Flink 需要 Java8 或以上版本。
* **Scala**：Flink 支持 Scala2.11 和2.12 版本。
* **Maven**：用于管理依赖和构建 Flink 应用。

##2. Flink 编程模型###2.1 DataStream APIDataStream API 是 Flink 的核心编程模型，提供了高级别的抽象来处理流式数据。它支持以下操作：

* **map**：映射函数。
* **filter**：过滤函数。
* **reduce**：聚合函数。
* **join**：连接函数。

###2.2 DataSet APIDataSet API 是 Flink 的批处理编程模型，提供了高级别的抽象来处理批式数据。它支持以下操作：

* **map**：映射函数。
* **filter**：过滤函数。
* **reduce**：聚合函数。

###2.3 Table APITable API 是 Flink 的 SQL 编程模型，提供了高级别的抽象来处理流式数据。它支持以下操作：

* **SELECT**：选择列。
* **FROM**：从表中获取数据。
* **WHERE**：过滤条件。

##3. 常见操作###3.1 map 操作map 操作用于将输入元素转换为输出元素。它是 Flink 中最常用的操作之一。

java// JavaDataStream input = ...;
DataStream output = input.map(new MapFunction() {
 @Override public String map(String value) throws Exception {
 return value.toUpperCase();
 }
});

// Scalaval input: DataStream[String] = ...
val output: DataStream[String] = input.map(_.toUpperCase)

###3.2 filter 操作filter 操作用于过滤输入元素，仅保留满足条件的元素。

java// JavaDataStream input = ...;
DataStream output = input.filter(new FilterFunction() {
 @Override public boolean filter(String value) throws Exception {
 return value.startsWith("A");
 }
});

// Scalaval input: DataStream[String] = ...
val output: DataStream[String] = input.filter(_.startsWith("A"))

###3.3 reduce 操作reduce 操作用于聚合输入元素，产生一个输出值。

java// JavaDataStream input = ...;
DataStream output = input.reduce(new ReduceFunction() {
 @Override public Integer reduce(Integer value1, Integer value2) throws Exception {
 return value1 + value2;
 }
});

// Scalaval input: DataStream[Int] = ...
val output: DataStream[Int] = input.reduce(_ + _)

###3.4 join 操作join 操作用于连接两个输入流，产生一个输出流。

java// JavaDataStream leftInput = ...;
DataStream rightInput = ...;
DataStream output = leftInput.join(rightInput).where(new KeySelector() {
 @Override public String getKey(String value) throws Exception {
 return value.split(",")[0];
 }
}).equalTo(new KeySelector() {
 @Override public String getKey(String value) throws Exception {
 return value.split(",")[1];
 }
}).windowAll().apply(new JoinFunction() {
 @Override public String join(String leftValue, String rightValue) throws Exception {
 return leftValue + "," + rightValue;
 }
});

// Scalaval leftInput: DataStream[String] = ...
val rightInput: DataStream[String] = ...
val output: DataStream[String] = leftInput.join(rightInput).where(_.split(",")(0)).equalTo(_.split(",")(1)).windowAll().apply(_ + _)

本文介绍了 Flink 的基本概念、配置、编程模型以及常见操作。通过阅读本文，读者应该能够理解 Flink 的核心原理，并能够使用 Flink 来处理流式数据和批式数据。

上一条：模拟实现strcpy

下一条：职责链模式：如何实现可灵活扩展算法的敏感信息过滤框架？