当前位置: 首页 > news >正文

通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

通过DataWorks归档日志服务数据至MaxCompute

官方指导文档:https://help.aliyun.com/document_detail/68322.html
但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:

image

创建数据源:

步骤1      进入数据集成,点击作业数据源,进入Tab页面。

image

步骤2      点击右上角
新增数据源,选择消息队列 loghub。

image
image

步骤3 编辑LogHub数据源中的必填项,包括数据源名称、LogHub
Endpoint、Project、AK信息等,并点击 测试连通性。

image

创建目标表:

步骤1      在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

image

步骤2      编写建表DDL。
步骤3      点击
执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步骤4      直到日志打印成本,表示三条DDL语句执行完毕。

image

步骤5      可以通过desc 查看创建的表。

image

其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

创建数据同步任务

数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。
操作步骤
步骤1      点击
新建业务流程 并 确认提交,名称为 直播日志采集。

image

步骤2      在业务流程开发面板中依次创建如下依赖并命名。

image

依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步骤3      双击
web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。

image
image

根据采集的时间窗口自定义参数为:

当然其消费点位也可以按照自定义设置5分钟调度一次,从00:00到23:59,startTime=$[yyyymmddhh24miss-10/24/60]系统前10分钟到
endTime=$[yyyymmddhh24miss-5/24/60]系统前5分钟时间(注意与上图消费数据定位不同),那么应该配置为ds=[yyyymmdd-5/24/60],hr=[hh24-5/24/60],min=[mi-5/24/60]。

步骤4      可以点击高级运行进行测试。

image

可以分别手工收入自定义参数值进行测试。

image

步骤3      使用SQL脚本确认是否数据已经写进来。如下图所示:

image

日志服务的日志正式的被采集入库,接下来就可以进行数据加工。
比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:
image

具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。

欢迎入群进行产品资料获取以及获取帮助:
image

相关文章:

  • 分享 | 关于人工智能算法建模稳定性那些事儿
  • 金三银四,2019大厂Android高级工程师面试题整理
  • 函数的命名空间、作用域、闭包函数
  • 内核常见锁的机制与实现分析2
  • int,char指针探究
  • 安卓平台Flutter启动过程全解析
  • (4.10~4.16)
  • 高精度练习 - P1604 B进制星球
  • 小组第四次冲刺
  • 设计模式入门----设计模式的7大原则与23种设计模式概述(转载)
  • Jenkins手把手图文教程[基于Jenkins 2.164.1]
  • Kubernetes如何通过Device Plugins来使用NVIDIA GPU
  • 极乐技术周报(第二十三期)
  • django.db.utils.OperationalError: (1049, Unknown database 'djangodb')
  • Vue2.0 实现互斥
  • 时间复杂度分析经典问题——最大子序列和
  • @jsonView过滤属性
  • 「译」Node.js Streams 基础
  • 【402天】跃迁之路——程序员高效学习方法论探索系列(实验阶段159-2018.03.14)...
  • Android开源项目规范总结
  • bearychat的java client
  • Docker 1.12实践:Docker Service、Stack与分布式应用捆绑包
  • GDB 调试 Mysql 实战(三)优先队列排序算法中的行记录长度统计是怎么来的(上)...
  • iOS | NSProxy
  • k8s如何管理Pod
  • NLPIR语义挖掘平台推动行业大数据应用服务
  • Redis提升并发能力 | 从0开始构建SpringCloud微服务(2)
  • Spring技术内幕笔记(2):Spring MVC 与 Web
  • 读懂package.json -- 依赖管理
  • 人脸识别最新开发经验demo
  • 深入浏览器事件循环的本质
  • 线性表及其算法(java实现)
  • ( )的作用是将计算机中的信息传送给用户,计算机应用基础 吉大15春学期《计算机应用基础》在线作业二及答案...
  • (1)(1.19) TeraRanger One/EVO测距仪
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (4) openssl rsa/pkey(查看私钥、从私钥中提取公钥、查看公钥)
  • (Matalb时序预测)WOA-BP鲸鱼算法优化BP神经网络的多维时序回归预测
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (每日持续更新)jdk api之FileFilter基础、应用、实战
  • (算法设计与分析)第一章算法概述-习题
  • (一)使用IDEA创建Maven项目和Maven使用入门(配图详解)
  • (转)Linq学习笔记
  • .NET 5种线程安全集合
  • .NET 8 编写 LiteDB vs SQLite 数据库 CRUD 接口性能测试(准备篇)
  • .net core 3.0 linux,.NET Core 3.0 的新增功能
  • .NET Framework 4.6.2改进了WPF和安全性
  • .Net6 Api Swagger配置
  • .NET下的多线程编程—1-线程机制概述
  • .so文件(linux系统)
  • @selector(..)警告提示
  • [20140403]查询是否产生日志
  • [8-23]知识梳理:文件系统、Bash基础特性、目录管理、文件管理、文本查看编辑处理...
  • [bug总结]: Feign调用GET请求找不到请求体实体类
  • [BZOJ4016][FJOI2014]最短路径树问题
  • [C#] 基于 yield 语句的迭代器逻辑懒执行