flink1.16消费kafka数据之DataStream

发布人：shili8 发布时间：2025-02-24 09:23 阅读次数：0

**Flink1.16 消费 Kafka 数据之 DataStream**

在 Apache Flink 中，DataStream 是一个用于处理流式数据的 API。它提供了一个高效、可扩展且易用的方式来处理大规模的流式数据。在本文中，我们将讨论如何使用 Flink1.16 消费 Kafka 数据。

### 一、环境准备首先，我们需要准备好 Flink 的环境。我们需要下载并安装 Flink1.16 版本。

bash# 下载Flink1.16版本wget  安装Flinkjava -jar flink-assembly-1.16.2-hadoop27-java11.jar

### 二、创建 Kafka Topic接下来，我们需要创建一个 Kafka Topic 来存储数据。

bash# 启动Kafkakafka-server-start.sh etc/kafka/server.properties# 创建Topickafka-topics.sh --create --bootstrap-server localhost:9092 --replication-factor1 --partitions1 my_topic

### 三、创建 Flink Job现在，我们可以开始创建一个 Flink Job 来消费 Kafka 数据。

java// 导入必要的包import org.apache.flink.api.common.functions.MapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;

// 创建Flink环境public class KafkaConsumerJob {
 public static void main(String[] args) throws Exception {
 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

 // 配置Kafka参数 String topic = "my_topic";
 String bootstrapServers = "localhost:9092";

 // 创建FlinkKafkaConsumer FlinkKafkaConsumer consumer = new FlinkKafkaConsumer<>(
 topic,
 new SimpleStringSchema(),
 PropertiesBuilder.getKafkaProps(bootstrapServers)
 );

 // 添加检查点 env.enableCheckpointing(1000);

 // 从Kafka中读取数据 DataStream dataStream = env.addSource(consumer);

 // 对数据进行处理 dataStream.map(new MyMapFunction()).print();

 // 执行Flink Job env.execute("Kafka Consumer Job");
 }
}

// 定义一个MapFunction来对数据进行处理class MyMapFunction implements MapFunction {
 @Override public String map(String value) throws Exception {
 return "Received message: " + value;
 }
}

### 四、运行 Flink Job最后，我们可以运行 Flink Job 来消费 Kafka 数据。

bash# 运行Flink Jobflink run -c KafkaConsumerJob target/flink-assembly-1.16.2-hadoop27-java11.jar

在本文中，我们讨论了如何使用 Flink1.16 消费 Kafka 数据。我们创建了一个 Kafka Topic、一个 Flink Job 以及一个 MapFunction 来对数据进行处理。最后，我们运行了 Flink Job 来消费 Kafka 数据。

**注意：**

* 在实际的生产环境中，需要根据具体需求调整配置参数。
* 需要确保 Kafka 和 Flink 的版本兼容性。
* 需要考虑到数据处理和检查点的性能影响。

上一条：C#之事件

下一条：【C#】微软的Roslyn 是个啥？