掘金 后端 ( ) • 2024-05-07 09:50

theme: healer-readable highlight: atelier-cave-light

image-20240506222727961

❤️时间语义

image-20240506222754341

💕时间的分类

Flink中,时间通常分为三类

image-20240502214701589

EventTime:事件(数据)时间,是事件/数据真真正正发生时/产生时的时间

IngestionTime:摄入时间,是事件/数据到达流处理系统的时间

ProcessingTime:处理时间,是事件/数据被处理/计算时的系统的时间

image-20240502214730266

💛水位线Watermark

✅水位线

Flink的三种时间语义中,处理时间摄入时间都可以不用设置Watermark。如果我们要使用事件时间Event Time语义,以下两项配置缺一不可:

  • 使用一个时间戳为数据流中每个事件的Event Time赋值
  • 生成Watermark

​ Event Time是每个事件的元数据,如果不设置,Flink并不知道每个事件的发生时间,我们必须要为每个事件的Event Time赋值一个时间戳。

​ 有了Event Time时间戳,我们还必须生成Watermark。Watermark是Flink插入到数据流中的一种特殊的数据结构,它包含一个时间戳,并假设后续不会有小于该时间戳的数据。下图展示了一个乱序数据流,其中方框是单个事件,方框中的数字是其对应的Event Time时间戳,圆圈为Watermark,圆圈中的数字为Watermark对应的时间戳。

一个包含Watermark的乱序数据流

image-20240502233750045

Watermark = 当前最大的事件时间 - 最大允许的延迟时间(或最大允许的乱序度时间)

Watermark 是一个单独计算出来的时间戳 Watermark可以通过改变窗口的触发时机 在 一定程度上解决数据乱序或延迟达到的问题 Watermark >= 窗口结束时间 时 就会触发窗口计算(窗口中得有数据) 延迟或乱序严重的数据还是丢失, 但是可以通过调大最大允许的延迟时间(乱序度) 来解决, 或 使用侧道输出流来单独收集延迟或乱序严重的数据,保证数据不丢失!

🍏分布式环境下水位线的传播

在多并行度下,每个并行有一个水印

比如并行度是6,那么程序中就有6个watermark

分别属于这6个并行度(线程)

那么,触发条件以6个水印中最小的那个为准

平时测试水位线强烈建议将并行度设为1

🍊代码实战

需求

实时模拟生成订单数据,格式为: (订单ID,用户ID,时间戳/事件时间,订单金额)

要求每隔5s,计算5秒内,每个用户的订单总金额

并添加Watermark来解决一定程度上的数据延迟和数据乱序问题。

我们循序渐进先写一版没有Watermark的

代码清单


import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingProcessingTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;

import java.text.SimpleDateFormat;
import java.util.Random;
import java.util.UUID;

/**
 * @author tiancx
 */
public class WatermarkDemo {


    @Data  // set get toString
    @AllArgsConstructor
    @NoArgsConstructor
    public static class OrderInfo {
        //格式化的时间
        private String time;
        private String orderId;
        private int uid;
        private int money;
        private long timeStamp;
    }

    public static class MySource implements SourceFunction<OrderInfo> {
        boolean flag = true;

        @Override
        public void run(SourceFunction.SourceContext ctx) throws Exception {
            // 源源不断的产生数据
            Random random = new Random();
            while (flag) {
                OrderInfo orderInfo = new OrderInfo();
                orderInfo.setOrderId(UUID.randomUUID().toString());
                orderInfo.setUid(random.nextInt(3));
                orderInfo.setMoney(random.nextInt(101));
                orderInfo.setTimeStamp(System.currentTimeMillis());
                long timeStamp = orderInfo.getTimeStamp();
                //转成yyyy-MM-dd HH:mm:ss
                String format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(timeStamp);
                orderInfo.setTime(format);
                System.out.println("数据:" + orderInfo);
                ctx.collect(orderInfo);
                Thread.sleep(1000);// 间隔1s
            }
        }

        // source 停止之前需要干点啥
        @Override
        public void cancel() {
            flag = false;
        }
    }

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        //加载数据
        DataStreamSource<OrderInfo> source = env.addSource(new MySource());
        //keyby分组
        KeyedStream<OrderInfo, Integer> keyBy = source.keyBy(OrderInfo::getUid);
        //开窗计算(滚动窗口)
        SingleOutputStreamOperator<OrderInfo> sum = keyBy.window(TumblingProcessingTimeWindows.of(Time.seconds(5)))
                .sum("money");
        sum.print();
        env.execute();
    }


}

我们再写一版有水位线的

代码清单


import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.commons.lang.time.DateFormatUtils;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.text.SimpleDateFormat;
import java.time.Duration;
import java.util.Random;
import java.util.UUID;

/**
 * @author tiancx
 */
public class WatermarkDemo {


    @Data  // set get toString
    @AllArgsConstructor
    @NoArgsConstructor
    public static class OrderInfo {
        //格式化的时间
        private String time;
        private String orderId;
        private int uid;
        private int money;
        private long timeStamp;
    }

    public static class MySource implements SourceFunction<OrderInfo> {
        boolean flag = true;

        @Override
        public void run(SourceFunction.SourceContext ctx) throws Exception {
            // 源源不断的产生数据
            Random random = new Random();
            while (flag) {
                OrderInfo orderInfo = new OrderInfo();
                orderInfo.setOrderId(UUID.randomUUID().toString());
                orderInfo.setUid(random.nextInt(3));
                orderInfo.setMoney(random.nextInt(101));
                orderInfo.setTimeStamp(System.currentTimeMillis() - 1000 * 2);
                long timeStamp = orderInfo.getTimeStamp();
                //转成yyyy-MM-dd HH:mm:ss
                String format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(timeStamp);
                orderInfo.setTime(format);
//                System.out.println("数据:" + orderInfo);
                ctx.collect(orderInfo);
                Thread.sleep(1000);// 间隔1s
            }
        }

        // source 停止之前需要干点啥
        @Override
        public void cancel() {
            flag = false;
        }
    }

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        env.setParallelism(1);
        //加载数据
        DataStreamSource<OrderInfo> source = env.addSource(new MySource());
        // 在转换算子之前,加载数据之后,添加水印
        // 添加使用event以及watermark进行操作
        SingleOutputStreamOperator<OrderInfo> watermarks = source.assignTimestampsAndWatermarks(
                WatermarkStrategy.<OrderInfo>forBoundedOutOfOrderness(Duration.ofSeconds(3))
                        .withTimestampAssigner(new SerializableTimestampAssigner<OrderInfo>() {
                            @Override
                            public long extractTimestamp(OrderInfo element, long recordTimestamp) {
                                System.out.println("数据:" + element + "系统时间:" + recordTimestamp);
                                return element.getTimeStamp();
                            }
                        }));
        //keyby分组
        KeyedStream<OrderInfo, Integer> keyBy = watermarks.keyBy(OrderInfo::getUid);
        //开窗计算(滚动窗口)
        SingleOutputStreamOperator<String> sum = keyBy.window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .apply(new WindowFunction<OrderInfo, String, Integer, TimeWindow>() {
                    @Override
                    public void apply(Integer key, TimeWindow window, Iterable<OrderInfo> input, Collector<String> out) throws Exception {
                        String startTime = DateFormatUtils.format(window.getStart(), "yyyy-MM-dd HH:mm:ss");
                        String endTime = DateFormatUtils.format(window.getEnd(), "yyyy-MM-dd HH:mm:ss");
                        String waterTime = DateFormatUtils.format(window.maxTimestamp(), "yyyy-MM-dd HH:mm:ss");
                        int sumMoney = 0;
                        for (OrderInfo orderInfo : input) {
                            sumMoney += orderInfo.getMoney();
                        }
                        out.collect("uid=" + key + ",starttime=" + startTime + ",endTime=" + endTime + ",totalMoney=" + sumMoney);
                    }
                });
        sum.print("窗口计算:");
        env.execute();
    }

我们看下运行结果

image-20240504165256836

🌽自定义水位线生成器

我们上面使用的是Flink帮我们内置的

我们还可以使用自定义水位线生成器

🌶️周期性水位线生成器(Periodic Generator)

假如我们想周期性地生成Watermark,这个周期是可以设置的,默认情况下是每200毫秒生成一个Watermark,或者说Flink每200毫秒调用一次生成Watermark的方法。我们可以在执行环境中设置这个周期:

env.getConfig.setAutoWatermarkInterval(1000L)

使用方式

DataStream<MyType> stream = ...

DataStream<MyType> withTimestampsAndWatermarks = stream
        .assignTimestampsAndWatermarks(
            WatermarkStrategy
                .forGenerator(...)
                .withTimestampAssigner(...)
        );

代码清单

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.commons.lang.time.DateFormatUtils;
import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.eventtime.*;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.KeyedStream;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.source.SourceFunction;
import org.apache.flink.streaming.api.functions.windowing.WindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;

import java.text.SimpleDateFormat;
import java.util.Random;
import java.util.UUID;

/**
 * @author tiancx
 */
public class WatermarkDemo {


    @Data  // set get toString
    @AllArgsConstructor
    @NoArgsConstructor
    public static class OrderInfo {
        //格式化的时间
        private String time;
        private String orderId;
        private int uid;
        private int money;
        private long timeStamp;
    }

    public static class MySource implements SourceFunction<OrderInfo> {
        boolean flag = true;

        @Override
        public void run(SourceFunction.SourceContext ctx) throws Exception {
            // 源源不断的产生数据
            Random random = new Random();
            while (flag) {
                OrderInfo orderInfo = new OrderInfo();
                orderInfo.setOrderId(UUID.randomUUID().toString());
                orderInfo.setUid(random.nextInt(3));
                orderInfo.setMoney(random.nextInt(101));
                orderInfo.setTimeStamp(System.currentTimeMillis() - 1000 * 2);
                long timeStamp = orderInfo.getTimeStamp();
                //转成yyyy-MM-dd HH:mm:ss
                String format = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(timeStamp);
                orderInfo.setTime(format);
//                System.out.println("数据:" + orderInfo);
                ctx.collect(orderInfo);
                Thread.sleep(1000);// 间隔1s
            }
        }

        // source 停止之前需要干点啥
        @Override
        public void cancel() {
            flag = false;
        }
    }

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);
        env.setParallelism(1);
        //加载数据
        DataStreamSource<OrderInfo> source = env.addSource(new MySource());
        // 在转换算子之前,加载数据之后,添加水印
        // 添加使用event以及watermark进行操作
        SingleOutputStreamOperator<OrderInfo> watermarks = source.assignTimestampsAndWatermarks(
                WatermarkStrategy.forGenerator(x -> new MyPeriodicGenerator())
                        .withTimestampAssigner(new SerializableTimestampAssigner<OrderInfo>() {
                            @Override
                            public long extractTimestamp(OrderInfo element, long recordTimestamp) {
                                System.out.println("数据:" + element + "系统时间:" + recordTimestamp);
                                return element.getTimeStamp();
                            }
                        }));
        //keyby分组
        KeyedStream<OrderInfo, Integer> keyBy = watermarks.keyBy(OrderInfo::getUid);
        //开窗计算(滚动窗口)
        SingleOutputStreamOperator<String> sum = keyBy.window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .apply(new WindowFunction<OrderInfo, String, Integer, TimeWindow>() {
                    @Override
                    public void apply(Integer key, TimeWindow window, Iterable<OrderInfo> input, Collector<String> out) throws Exception {
                        String startTime = DateFormatUtils.format(window.getStart(), "yyyy-MM-dd HH:mm:ss");
                        String endTime = DateFormatUtils.format(window.getEnd(), "yyyy-MM-dd HH:mm:ss");
                        String waterTime = DateFormatUtils.format(window.maxTimestamp(), "yyyy-MM-dd HH:mm:ss");
                        int sumMoney = 0;
                        for (OrderInfo orderInfo : input) {
                            sumMoney += orderInfo.getMoney();
                        }
                        out.collect("uid=" + key + ",starttime=" + startTime + ",endTime=" + endTime + ",totalMoney=" + sumMoney);
                    }
                });
        sum.print("窗口计算:");
        env.execute();
    }

    public static class MyPeriodicGenerator implements WatermarkGenerator<OrderInfo> {
        private long maxOutOfOrderness = 3000; // 3 seconds
        private long currentMaxTimestamp;

        @Override
        public void onEvent(OrderInfo event, long eventTimestamp, WatermarkOutput output) {
            // 更新currentMaxTimestamp为当前遇到的最大值
            currentMaxTimestamp = Math.max(currentMaxTimestamp, eventTimestamp);
        }

        @Override
        public void onPeriodicEmit(WatermarkOutput output) {
            // Watermark比currentMaxTimestamp最大值慢3秒
            output.emitWatermark(new Watermark(currentMaxTimestamp - maxOutOfOrderness));
        }
    }


}

🫑断点式水位线生成器(Punctuated Generator)

断点式生成器会不停地检测 onEvent()中的事件,当发现带有水位线信息的事件时,就立

即发出水位线。我们把发射水位线的逻辑写在 onEvent 方法当中即可。

🧃迟到数据处理

waterMark和Window机制解决了流式数据的乱序问题,对于因为延迟而顺序有误的数据,可以根据eventTime进行业务处理,对于延迟的数据Flink也有自己的解决办法:

主要的办法是给定一个允许延迟的时间,在该时间范围内仍可以接受处理延迟数据

设置允许延迟的时间是通过allowedLateness(lateness: Time)设置

保存延迟数据则是通过sideOutputLateData(outputTag: OutputTag[T])保存

获取延迟数据是通过DataStream.getSideOutput(tag: OutputTag[X])获取

🫖设置窗口延迟关闭

​ Flink 的窗口,也允许迟到数据。当触发了窗口计算后,会先计算当前的结果,但是此时并不会关闭窗口。

​ 以后每来一条迟到数据,就触发一次这条数据所在窗口计算(增量计算)。直到wartermark 超过了窗口结束时间+推迟时间,此时窗口会真正关闭。

.window(TumblingEventTimeWindows.of(Time.seconds(5)))

.allowedLateness(Time.seconds(3))

【Tips】: 延迟关闭只能用到event time上

☕️使用侧流接收迟到的数据

侧输出机制:可以将错过水印又错过allowedLateness允许的时间的数据,单独的存放到一个DataStream中,然后开发人员可以自定逻辑对这些超级迟到数据进行处理。

处理主要使用两个方式:

对窗口对象调用sideOutputLateData(OutputTag outputTag)方法,将数据存储到一个地方

对DataStream对象调用getSideOutput(OutputTag outputTag)方法,取出这些被单独处理的数据的DataStream

.windowAll(TumblingEventTimeWindows.of(Time.seconds(5)))

.allowedLateness(Time.seconds(3))

.sideOutputLateData(lateWS)

【都看到这了,点点赞点点关注呗,爱你们】😚😚

蓝白色微信公众号大学生校园清新简单纸飞机动态引导关注简洁新媒体分享中文动态引导关注