当前位置: 首页 > news >正文

研发效能工程实践-利用Superset快速打造大数据BI平台

大数据BI平台自研之殇

随着互联网发展,现在随便哪个公司都手握大量数据。如何利用这些数据为公司商业带来价值,触使各个公司投入大量人力财力去做商业智能。
早期的BI可能就是公司Leader叫开发小哥写几句SQL导出数据,然后导入到Excel里绘制几个图表;这一模式维持了一段时间,后来领导觉得这帮业务开发只会导数据,一点想法都没有,忽然有一天在网上看到数据分析师心想这不就是我要找的人吗?就这样公司招来一个数据分析师,数据分析师来了之后效率果然提升了不少,而且总是能做出让老板眼前一亮的报表。这样的日子又维持了一段时间,随着公司越来越大,数据也越来越多,老板开始嫌弃,数据分析师每次都是那些报表,太单一,而且没有一个平台让他实时的看数据。老板说我们要大数据平台,我要实时报表,赶紧让下边的那帮数据分析师和开发给我搞,我现在就要。开发和数据分析师收到指示后表面笑嘻嘻,心里MMP上哪儿给你搞一个平台
开发们拿到指示后开始分析,一个大数据BI平台需要哪些组件,分析一通之后,说最起码需要这些

  • 自定义仪表盘
  • 支持配置各种图形组件
  • 实现一个查询引擎,可能要支持多种数据库
  • 得有一套查询任务调度器,不然如果是同步的,查询的人一多,数据库就BBQ了
  • 你得支持数据图表下钻吧
  • 过滤条件得支持吧
  • 自定义SQL得支持吧

列完之后,一个开发问了旁边小伙伴:“老板是说一个月要看到效果吗?”,小伙伴回答:“可不”,开发问小伙伴“看见我的桶了吗?”,小伙伴一脸疑惑:“干啥?”,开发答道:“提桶跑路啊,不然我还真一个月做一个平台出来呀”
一个小公司要想短时间之内做一个“基本可用”的BI平台,那几乎是不可能完成的任务。好在你想到的问题,开源社区的大佬早就给你准备好答案了,Superset可以满足你的基本需求,superset在Github上已经有4.9w的星星,可见其火爆,有了它,开发小哥不跑路了,淡定的去茶水间泡了一杯咖啡,边喝边说:“慢慢来,慌啥呀”

Superset介绍

superset是一个现代数据探索和数据可视化平台,后端采用python的Flask框架开发,前端采用React。基于Superset可以极大的简化构建BI平台,看一下官方给的demo效果

支持的图表一角
在这里插入图片描述

Seperset优点

  • 极低的部署成本,如果只是想试一下,那么你只需要几分钟就可以搭建起环境
  • 支持众多主流数据库,支持的种类30+数据库驱动,基本上你的数据库都已经杯支持
  • 直观的交互式仪表盘
  • 支持大量的Chart
  • 数据集除了支持物理表,还支持虚拟表,结合SQL Lab你可以编写非常灵活的统计脚本来定制数据集,需要一定sql能力
  • SQL lab的sql支持动态参数,目前支持一些内置参数和筛选器和url参数
  • 支持可视化图表以插件形式扩展
  • 支持异步查询任务管理,将计算独立,提供更高的可扩展性

Superset不足

好的说完了,也说一下一些不足的地方吧

  • 文档不够详细,作为一款操作性很高的平台,缺乏step-by-step教程,很多东西需要自己去探索,新接触上手可能没有那么容易
  • 筛选器有个点要吐槽一下,不支持key-value形式的筛选器,比如我展示给用户看的筛选框的值是姓名,但是我查询传递参数时传递用户ID,这块需要自己做二次开发支持
  • SQL Lab在编写时,如果有外部参数需要传入,因为在编写SQL时无法传入筛选器的值,因此必须通过jinja脚本编写逻辑判断来设置默认值,否则你想用SQL结果创建虚拟dataset的列元数据会因为sql查询无结果导致没有值,你无法用这个dataset做可视化

Superset安装部署

体验部署

如果你只是想体验一下,建议Docker部署,建议直接拉取superset的镜像,因为本地自己构建镜像可能会遇到各种问题,特别是前端拉取包和编译真的慢。你可以用docker搜索一下superset镜像

docker search superset

然后拉取apache/superset镜像

docker pull apache/superset

拉取成功之后就可以启动了

docker run --name superset -u 0 -d -p 8088:8088 apache/superset

启动之后要初始化superset的数据库

docker exec -it superset superset db upgrade

然后需要创建一个管理员用户,方便登录管理页面,注意这里设置管理员账号的时候登录用户名是username,不要搞错了

docker exec -it superset superset fab create-admin

然后初始化superset

docker exec -it superset superset init

启动服务

docker exec -it superset superset run --with-threads --reload --debugger

如果没有报错,那么恭喜你,体验版已经部署成功了,现在可以在浏览器输入localhost:8088登录体验了

生产单机部署

上边的部署只能是体验一下,运行模式是单进程,python的单进程,你懂的,并且数据库也是本地的sqlite当你容器重新部署时没有挂载本地磁盘,数据就会消失。

配置修改

生产部署至少要修改几个配置的地方

  1. 修改数据库
    这里最好用mysql或者postgres,在superset文件夹下的config配置中
    SQLALCHEMY_DATABASE_URI = 'postgressql://username:password@ip:port/database'
    
  2. 开启sqlab的模板配置
    ENABLE_TEMPLATE_PROCESSING = True
    
  3. 添加数据库驱动包
    如果你使用的数据库不在superset默认提供的以内,那么需要自己安装驱动包,比如我们使用clickhouse是没有的,那么就需要在requirements文件夹下的development或者base的txt文件中添加需要安排的包,这样在构建镜像时会自动安装上
    clickhouse-sqlalchemy==0.2.2
    
打包镜像
docker build =t superset:v1.0

这里要注意部署的时候是gunicorn启动的,需要设置一个SERVER_WORKER_AMOUNT环境变量,如果没有设置的话,会默认单进程启动,这个时候如果你的看板有多个卡片,你的卡片就会一个一个的串行加载,所以一定要设置这个参数,让服务并行启动,至于启动多少个,那么得看你分配的cpu核心数,你可以先设置核心数*2,然后在监控后续调整

二次开发环境搭建

其实superset基本可以满足我们BI分析需求,但是往往我们还有一些其他的,比如数据权限管控、我们可能要通过数据的所有者来管控权限,而不仅仅通过dataset来管控;还有就是上边也说了一些不足,筛选框不支持key-value的形式;缺乏树形结构展示组织,这个还是挺常用的;图表下钻时表头能根据层级自动切换等等。那么我们需要做二次开发

编译前端代码

如果你第一次从github上把superset拉取下来,直接启动项目的话,浏览器打开时会报错,这是因为前端没有编译。首先你需要确保你安装node和npm,这里不在讲解如何安装node和npm,注意这里node和npm的版本官方好像有要求,具体可以参考superset前端编译。安装完成后切换到superset-frontend目录

  • 安装前端依赖包
    npm ci
    
    如果下载依赖包慢的话,可以配置国内镜像
    npm config set registry https://registry.npm.taobao.org
    
  • 编译
    npm run build
    
  • 前端热更新
    如果想前端热更新,那么需要前后端单独启动
    npm run dev
    

后端启动

superset后端采用了python,而python开发中建议使用虚拟开发环境,避免包版本问题

  • 安装虚拟环境
    python3 -m venv venv
    
  • 启用虚拟环境
    source venv/bin/activate
    
  • 安装依赖包
    python3 -m pip install -r requirements/integration.txt
    
  • 启动
    FLASK_ENV=development superset run -p 8088 --with-threads --reload --debugger
    
  • 如果你使用VS Code作为开发环境建议你加上如下launch.json,方便本地启动调试
    {
        // Use IntelliSense to learn about possible attributes.
        // Hover to view descriptions of existing attributes.
        // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
        "version": "0.2.0",
        "configurations": [
            {
                "name": "Python: Flask",
                "type": "python",
                "request": "launch",
                "module": "flask",
                "env": {
                    "FLASK_APP": "superset",
                    "FLASK_DEBUG": "1"
                },
                "args": [
                    "run",
                    "-p",
                    "3000",
                    "--no-debugger",
                    "--no-reload"
                ],
                "jinja": true,
                "justMyCode": true
            }
        ]
    }
    

使用心得

目前我们是用superset来打造公司的研发效能大数据BI平台,目前正处于研发阶段。已基本有了雏形,不过还有很多需要完善的地方。目前我们团队主要解决的问题

  • 增强图表组件-树形组件
  • K-V筛选组件
  • 环比指标组件等

当然还有一些需要解决,也可能还有一些坑我们没有解决,比如

  • 图表只能选择一个dataset,目前的解决方案是将多个表的数据以sql方式聚合成一个superset的虚拟dataset
  • 图表下钻表头可动态切换
  • sqlab的自定义条件时不是很方便,目前还没有想到有什么好的解决方案,后续可能会跟进

后续会逐步介绍我们在利用superset构建BI平台中遇到的一些坑,以及如果建设一个研发效能平台,同时也欢迎同行来交流

相关文章:

  • 【C++】set/multiset/map/multimap
  • 数据结构:二叉树的链式结构
  • 3.1数据结构和序列(利用Python进行数据分析)
  • list的模拟实现(万字解读+由浅入深)
  • 秒级使网站变灰,不改代码不上线,如何做到?
  • qt人员管理模块(模块化程序)功能块复制直接使用不冲突
  • 【项目_03】日历的回显、搭建热门精选、下拉加载更多、搜索框搭建 | 基于Vue3全家桶
  • 目标检测算法——YOLOv5/YOLOv7改进之结合特征提取网络RFBNet(涨点明显)
  • 【Spring系列】- Spring循环依赖
  • Java实验七
  • 图像处理:模糊图像判断
  • SNMP协议——网络管理概述
  • 家庭用户无线上网案例(AC通过三层口对AP进行管理)
  • Hbase的SQL接口之Phoenix使用心得
  • Linux-性能分析常用工具
  • [译]CSS 居中(Center)方法大合集
  • 11111111
  • CNN 在图像分割中的简史:从 R-CNN 到 Mask R-CNN
  • extjs4学习之配置
  • HashMap ConcurrentHashMap
  • javascript面向对象之创建对象
  • Next.js之基础概念(二)
  • React Native移动开发实战-3-实现页面间的数据传递
  • Spark VS Hadoop:两大大数据分析系统深度解读
  • 测试如何在敏捷团队中工作?
  • 纯 javascript 半自动式下滑一定高度,导航栏固定
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 高性能JavaScript阅读简记(三)
  • 基于阿里云移动推送的移动应用推送模式最佳实践
  • 前端相关框架总和
  • 算法---两个栈实现一个队列
  • 微信小程序开发问题汇总
  • 微信支付JSAPI,实测!终极方案
  • ​MySQL主从复制一致性检测
  • ​比特币大跌的 2 个原因
  • (1)SpringCloud 整合Python
  • (145)光线追踪距离场柔和阴影
  • (3)选择元素——(17)练习(Exercises)
  • (C#)Windows Shell 外壳编程系列9 - QueryInfo 扩展提示
  • (DenseNet)Densely Connected Convolutional Networks--Gao Huang
  • (HAL)STM32F103C6T8——软件模拟I2C驱动0.96寸OLED屏幕
  • (Matalb回归预测)PSO-BP粒子群算法优化BP神经网络的多维回归预测
  • (pytorch进阶之路)扩散概率模型
  • (Pytorch框架)神经网络输出维度调试,做出我们自己的网络来!!(详细教程~)
  • (Redis使用系列) Springboot 使用redis实现接口幂等性拦截 十一
  • (windows2012共享文件夹和防火墙设置
  • (二十三)Flask之高频面试点
  • (机器学习-深度学习快速入门)第三章机器学习-第二节:机器学习模型之线性回归
  • (算法二)滑动窗口
  • (原创)攻击方式学习之(4) - 拒绝服务(DOS/DDOS/DRDOS)
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • .[backups@airmail.cc].faust勒索病毒的最新威胁:如何恢复您的数据?
  • .NET DevOps 接入指南 | 1. GitLab 安装
  • .NET MVC第五章、模型绑定获取表单数据
  • .net Signalr 使用笔记