当前位置: 首页 > news >正文

Flink流式数据倾斜

 1. 流式数据倾斜

流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的,但是因为流式处理的特性其中又有些许不同

2. 如何解决

2.1 窗口有界流倾斜

 窗口操作类似Spark的微批处理,直接两阶段聚合的方式来解决就可以

select date,type,sum(pv) as pv
from(selectdate,type,sum(count) as pvfrom tablegroup bydate,type,floor(rand()*100) --随机打散成100份 )group by date,type;

2.2 数据本身不均匀

KeyBy 前数据已经不均匀了,可能是Topic 每个分区的数据不一致(较为少见),或者上游task处理以后导致的数据不均匀,导致下游operate chains的某个task压力很大

这种可以加一个随机数 redistributiing 一下之类打散

2.3 keyby类

加盐

开启minibatch 和 global,牺牲时效性,减少输出数据量

相关文章:

  • 案例:爬取豆瓣电影 Top250 的数据
  • VBA技术资料MF117:测试显示器大小
  • 深度学习自然语言处理(NLP)模型BERT:从理论到Pytorch实战
  • 设计模式1-访问者模式
  • Linux 命令行速查表
  • Android 11 访问 Android/data/或者getExternalCacheDir() 非root方式
  • vim常用命令以及配置文件
  • centos安装inpanel
  • 按键扫描16Hz-单片机通用模板
  • PostgreSQL 与 MySQL 相比,优势何在?
  • containerd中文翻译系列(十九)cri插件
  • Java开发IntelliJ IDEA2023
  • Vue 进阶系列丨实现简易VueRouter
  • 无人机飞控算法原理基础研究,多旋翼无人机的飞行控制算法理论详解,无人机飞控软件架构设计
  • Guava RateLimiter单机实战指南
  • conda常用的命令
  • Golang-长连接-状态推送
  • mysql_config not found
  • PHP 的 SAPI 是个什么东西
  • python3 使用 asyncio 代替线程
  • Redis提升并发能力 | 从0开始构建SpringCloud微服务(2)
  • windows下如何用phpstorm同步测试服务器
  • 阿里云Kubernetes容器服务上体验Knative
  • 从零开始在ubuntu上搭建node开发环境
  • 力扣(LeetCode)357
  • 前端面试之闭包
  • 算法系列——算法入门之递归分而治之思想的实现
  • 小程序滚动组件,左边导航栏与右边内容联动效果实现
  • 1.Ext JS 建立web开发工程
  • Nginx惊现漏洞 百万网站面临“拖库”风险
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • ​比特币大跌的 2 个原因
  • ​香农与信息论三大定律
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • #1015 : KMP算法
  • #Linux(权限管理)
  • #微信小程序:微信小程序常见的配置传值
  • (1)(1.11) SiK Radio v2(一)
  • (Mac上)使用Python进行matplotlib 画图时,中文显示不出来
  • (二十五)admin-boot项目之集成消息队列Rabbitmq
  • (原)Matlab的svmtrain和svmclassify
  • (转)Scala的“=”符号简介
  • .NET Framework 4.6.2改进了WPF和安全性
  • .NET 除了用 Task 之外,如何自己写一个可以 await 的对象?
  • .NET 简介:跨平台、开源、高性能的开发平台
  • @Autowired标签与 @Resource标签 的区别
  • @ConfigurationProperties注解对数据的自动封装
  • @RequestMapping 的作用是什么?
  • [ 隧道技术 ] 反弹shell的集中常见方式(四)python反弹shell
  • [.NET 即时通信SignalR] 认识SignalR (一)
  • [acm算法学习] 后缀数组SA
  • [ai笔记9] openAI Sora技术文档引用文献汇总
  • [ajaxupload] - 上传文件同时附件参数值
  • [BUUCTF NewStarCTF 2023 公开赛道] week4 crypto/pwn
  • [C/C++]数据结构 栈和队列()