当前位置: 首页 > news >正文

FineBI实战项目一(25):实战项目一总结

实在项目使用mysql做数仓库的ODS层,这仅仅是带领大家入门,用mysql做数仓存在很多问题。以实战项目一为例:

1 存在的问题

  • 目前调度用的kettle,数据分析,计算都是落表到mysql
  • mysql表数量庞大,乱,不知道表用途。
  • 没有集群,hdfs、hive、spark、kafka、flink等等都没有

2 解决方案

  • mysql数据同步尽量和业务系统保持一致,以便后期出现问题排查。
  • mysql同步到数仓,数仓表必须是分区存储;同步方式前期可以全量同步,后期数据多了,可以全量变增量。
  • 向上反馈落表到mysql的潜在风险项,且记录文档,留下证据,以防后期背锅
  • 表太多同步哪些表?根据需求寻求业务方,让他提供表来源

3 潜在风险

在将MySQL用作数据仓库时,可能会面临一些潜在的风险和挑战。以下是一些可能出现的风险项:

读写性能:大规模的数据查询可能导致性能下降,数仓需要支持高吞吐的数据写入,而MySQL可能在大量写入的情况下面临性能瓶颈。

水平扩展:MySQL相对较难实现水平扩展,当数据量增加时,可能需要更强大的硬件或垂直扩展。

分区和分片:大规模数据仓库可能需要实现分区和分片来有效地管理和查询数据,这在MySQL中可能涉及复杂的配置和管理。

数据一致性和完整性:

ETL过程: 在将数据从源系统导入到MySQL中的过程中,可能会发生数据一致性和完整性的问题,尤其是在复杂的ETL流程中。

事务处理:MySQL的事务处理可能受到数据量和复杂性的影响,需要确保数据的一致性和可靠性。

安全性和访问控制:

安全性: 需防范SQL注入等安全威胁,数据恢复:数据仓库的大规模数据恢复可能需要较长时间,需要仔细计划和测试。

成本问题:成本和性能之间可能也需做出权衡,且维护mysql需要专业人员维护

语法问题:mysql可能不支持复杂的语法(hive开窗等)

相关文章:

  • Vulnhub-TECH_SUPP0RT: 1渗透
  • 【Python学习】Python学习21- 正则表达式(1)
  • Spark SQL函数定义
  • Day29- 贪心算法part03
  • 系统架构13 - 软件工程(1)
  • 第二章 使用 SQL Search
  • 使用docker配置semantic slam
  • Python ddddocr 构建 exe 程序后运行报错:Failed Load model ... common_old.onnx
  • Mac M1 Parallels CentOS7.9 Deploy Typecho
  • 考研C语言刷编程题篇之分支循环结构基础篇(一)
  • 从零开始c++精讲:第三篇——内存管理
  • 计算机毕业设计选题分享-ssm租房小程序42196(赠送源码数据库)JAVA、PHP,node.js,C++、python,大屏数据可视化等
  • esp32-c-简单应用笔记
  • python-基础篇-函数
  • 「实战应用」如何用DHTMLX Gantt构建类似JIRA式的项目路线图(二)
  • ----------
  • Docker容器管理
  • EOS是什么
  • Git学习与使用心得(1)—— 初始化
  • IDEA 插件开发入门教程
  • JAVA 学习IO流
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • Sequelize 中文文档 v4 - Getting started - 入门
  • Traffic-Sign Detection and Classification in the Wild 论文笔记
  • 程序员最讨厌的9句话,你可有补充?
  • 将回调地狱按在地上摩擦的Promise
  • 坑!为什么View.startAnimation不起作用?
  • 面试总结JavaScript篇
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 什么软件可以剪辑音乐?
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • 进程与线程(三)——进程/线程间通信
  • # 透过事物看本质的能力怎么培养?
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (16)Reactor的测试——响应式Spring的道法术器
  • (2009.11版)《网络管理员考试 考前冲刺预测卷及考点解析》复习重点
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (每日持续更新)jdk api之FileFilter基础、应用、实战
  • (顺序)容器的好伴侣 --- 容器适配器
  • (算法二)滑动窗口
  • (五)大数据实战——使用模板虚拟机实现hadoop集群虚拟机克隆及网络相关配置
  • (一)kafka实战——kafka源码编译启动
  • ****** 二 ******、软设笔记【数据结构】-KMP算法、树、二叉树
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • .net core 6 redis操作类
  • .Net Web项目创建比较不错的参考文章
  • .NET成年了,然后呢?
  • .NET基础篇——反射的奥妙
  • .net利用SQLBulkCopy进行数据库之间的大批量数据传递
  • [ 蓝桥杯Web真题 ]-布局切换
  • [ACL2022] Text Smoothing: 一种在文本分类任务上的数据增强方法
  • [AutoSar NVM] 存储架构
  • [C# 基础知识系列]专题十六:Linq介绍
  • [codeforces]Recover the String