当前位置: 首页 > news >正文

大数据之数据抽取架构演变过程

架构演变之Flink架构的演变过程

     一、 起初搭建整个大数据平台是基于CDH这一套资源管理和整合的CM资源管理器搭建的

     整个平台包括了: HDFS,YARN,HIVE,zoozie,FLINK,Spark,Zookeeper等组件搭建而成,

   

刚开始搭建的时候,所有的资源管理都是依靠YARN进行资源的管理,调度和任务的查看,

而当时我们搭建的Flink集群是基于YARN进行资源管理和调度的,因为YARN中不仅仅包含着FLInk的资源,也有hive,zoozie,hdfs等等的资源,这样容易造成yarn资源的过度使用,容易引起整个底座的cpu以及内存的使用问题,经过排查,主要是由于FLink的使用资源引起的,所以后续就把Flink从整个集群中剥离出来,进行资源的隔离,最后Flink采用了StandAlone HA部署(但是这个目前还是存在问题,后续根据项目进行优化)

参考: FlinkHA 高可用集群部署

二、数据抽取架构的演变

    

  直接用FLinkCDC抽取任务,会导致源端数据库的cpu和内存急速上升以至于宕机

采用ogg的方式,本质上是由源端库自动触发变化和全量数据,解决了上面的问题

在抽取的过程中遇到的问题:

  1.ogg推送数据的数据格式:

  

如果不是这种格式,导致kafka消费数据,没有数据

2.

create table if not exists xxx(

    `ID` DECIMAL(19,0),

     XXXX,

   primary key(ID) not enforced

) with (

    'connector' = 'kafka',

    'topic' = '表名',

    'properties.bootstrap.servers' = '10.100.XXX.XXXX:9092,10.100.XXX.XXXX:9092,10.100.XXX.XXXX:9092',

    'scan.startup.mode' = 'earliest-offset',

    'properties.group.id' = 'xxx',

    'format' = 'ogg-json'

);

注意这个format,一定是那种形式推送,采用那种形式的格式化json

3.注意源端数据库子段类型(根据字段数据值的大小,决定属于那种类型) 

flink ogg官网:

 Ogg | Apache Flink

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 数据结构 —— B树
  • 【BUG】已解决:WslRegisterDistribution failed with error: 0x800701bc
  • Qt Style Sheets-使用样式表自定义 Qt 部件
  • Freedom of Choice
  • R语言模型评估网格搜索
  • Linux网络——套接字与UdpServer
  • Haproxy服务
  • 第四周:机器学习笔记
  • 接口测试JMeter-1.接口测试初识
  • 电磁兼容专栏说明
  • 深入浅出WebRTC—ALR
  • git-各种场景-撤销指令
  • 文件IO(Ubuntu)
  • TypeScript与面向对象编程
  • Flutter动画详解第二篇之显式动画(Explicit Animations)
  • SegmentFault for Android 3.0 发布
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码
  • Docker容器管理
  • ng6--错误信息小结(持续更新)
  • Python爬虫--- 1.3 BS4库的解析器
  • Python语法速览与机器学习开发环境搭建
  • React Native移动开发实战-3-实现页面间的数据传递
  • socket.io+express实现聊天室的思考(三)
  • Spark in action on Kubernetes - Playground搭建与架构浅析
  • Vue.js 移动端适配之 vw 解决方案
  • Vue小说阅读器(仿追书神器)
  • 多线程事务回滚
  • 工作踩坑系列——https访问遇到“已阻止载入混合活动内容”
  • 基于遗传算法的优化问题求解
  • 小程序上传图片到七牛云(支持多张上传,预览,删除)
  • 不要一棍子打翻所有黑盒模型,其实可以让它们发挥作用 ...
  • #我与Java虚拟机的故事#连载11: JVM学习之路
  • (02)Hive SQL编译成MapReduce任务的过程
  • (arch)linux 转换文件编码格式
  • (学习日记)2024.01.09
  • (转)jQuery 基础
  • .bat批处理(十):从路径字符串中截取盘符、文件名、后缀名等信息
  • .Net CF下精确的计时器
  • .NET Framework、.NET Core 、 .NET 5、.NET 6和.NET 7 和.NET8 简介及区别
  • .NET/C# 使用 SpanT 为字符串处理提升性能
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)
  • .net中的Queue和Stack
  • .skip() 和 .only() 的使用
  • /*在DataTable中更新、删除数据*/
  • /bin/bash^M: bad interpreter: No such file ordirectory
  • @transaction 提交事务_【读源码】剖析TCCTransaction事务提交实现细节
  • [ MSF使用实例 ] 利用永恒之蓝(MS17-010)漏洞导致windows靶机蓝屏并获取靶机权限
  • [ vulhub漏洞复现篇 ] ECShop 2.x / 3.x SQL注入/远程执行代码漏洞 xianzhi-2017-02-82239600
  • []C/C++读取串口接收到的数据程序
  • []利用定点式具实现:文件读取,完成不同进制之间的
  • [100天算法】-实现 strStr()(day 52)
  • [5] CUDA线程调用与存储器架构
  • [acwing周赛复盘] 第 94 场周赛20230311
  • [BZOJ1089][SCOI2003]严格n元树(递推+高精度)