当前位置: 首页 > news >正文

数据仓库的实际应用示例-广告投放平台为例

数据仓库的数据分层通常包括以下几层:

  1. ODS层:存放原始数据,如日志数据和结构化数据。
  2. DWD层:进行数据清洗、脱敏、维度退化和格式转换。
  3. DWS层:用于宽表聚合值和主题加工。
  4. ADS层:面向业务定制的应用数据层。
  5. DIM层:一致性维度建模,包括低基数和高基数维度数据。

image.png

为了更好地理解数据仓库的各个方面,我们以一个广告投放平台为例,详细说明各个层级的数据处理和使用,并附带一些代码示例。

1. ODS层

ODS(Operational Data Store)层存放的是原始数据。比如,广告点击日志数据。

示例数据

{"log_id": "12345","user_id": "67890","ad_id": "54321","timestamp": "2023-06-21T12:00:00Z","action": "click","cost": 0.5
}
2. DWD层

DWD(Data Warehouse Detail)层进行数据清洗、脱敏、维度退化和格式转换。

数据清洗代码示例(使用PySpark):

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, from_unixtime# 创建SparkSession
spark = SparkSession.builder.appName("DWD Layer").getOrCreate()# 读取ODS层数据
ods_data = spark.read.json("hdfs://path/to/ods/data")# 数据清洗
dwd_data = ods_data.withColumn("timestamp", from_unixtime(col("timestamp")))# 写入DWD层
dwd_data.write.mode("overwrite").json("hdfs://path/to/dwd/data")
3. DWS层

DWS(Data Warehouse Service)层用于宽表聚合和主题加工。

宽表聚合代码示例

from pyspark.sql.functions import sum# 聚合用户点击行为数据
dws_data = dwd_data.groupBy("user_id").agg(sum("cost").alias("total_cost"))# 写入DWS层
dws_data.write.mode("overwrite").json("hdfs://path/to/dws/data")
4. ADS层

ADS(Application Data Store)层面向业务定制的应用数据层。比如,计算每个广告的总点击次数。

业务定制数据处理代码示例

from pyspark.sql.functions import count# 计算每个广告的总点击次数
ads_data = dwd_data.groupBy("ad_id").agg(count("action").alias("click_count"))# 写入ADS层
ads_data.write.mode("overwrite").json("hdfs://path/to/ads/data")
5. DIM层

DIM(Dimension)层用于一致性维度建模。

维度建模示例

# 读取广告信息维度数据
ad_info = spark.read.json("hdfs://path/to/dim/ad_info")# 读取ADS层数据
ads_data = spark.read.json("hdfs://path/to/ads/data")# 关联广告信息维度数据
final_data = ads_data.join(ad_info, "ad_id")# 写入最终数据
final_data.write.mode("overwrite").json("hdfs://path/to/final/data")

数据指标示例

数据指标分为原子指标、复合指标和派生指标。下面以广告点击数据为例说明各类指标的计算。

原子指标

# 原子指标:广告点击次数
ad_clicks = dwd_data.filter(col("action") == "click").count()
print(f"广告点击次数: {ad_clicks}")

复合指标

# 复合指标:点击率
total_impressions = dwd_data.filter(col("action") == "impression").count()
click_through_rate = ad_clicks / total_impressions
print(f"点击率: {click_through_rate}")

派生指标

# 派生指标:按天计算的点击次数
daily_clicks = dwd_data.filter(col("action") == "click").groupBy("date").count()
daily_clicks.show()

结论

通过以上示例代码,我们可以看到数据仓库各个层级的数据处理流程,以及如何定义和计算各种数据指标。这些规范和方法不仅帮助企业构建高效、可维护的数据仓库系统,还能为业务决策提供有力的数据支持。

希望这个简单的示例能够帮助读者更好地理解数据仓库的设计和应用。

相关文章:

  • 解决Qt中 -lGL无法找到的问题
  • Java数据类型与运算符
  • 小游戏app看广告app开发案例
  • NodeJs实现对本地 mysql 数据库的增删改查
  • Flink 窗口函数
  • 网络编程5----初识http
  • 类AAAAAAAAAAAA迭代
  • SpringBoot使用Redisson实现可重入分布式锁
  • 如何正确理解和评估品牌价值?
  • C语言循环中获取之前变量的值
  • fataadmin导出Exel文件图片太大
  • 雷池社区版自动SSL
  • Go语言 获取服务器资源磁盘Disk情况
  • Vue3DraggableResizable知识点
  • 模型轻量化:数据瘦身的成功秘诀
  • python3.6+scrapy+mysql 爬虫实战
  • Angular 4.x 动态创建组件
  • co模块的前端实现
  • CSS魔法堂:Absolute Positioning就这个样
  • FastReport在线报表设计器工作原理
  • github指令
  • HTTP中GET与POST的区别 99%的错误认识
  • JavaScript 事件——“事件类型”中“HTML5事件”的注意要点
  • JS基础篇--通过JS生成由字母与数字组合的随机字符串
  • Webpack4 学习笔记 - 01:webpack的安装和简单配置
  • 百度地图API标注+时间轴组件
  • 编写符合Python风格的对象
  • 动手做个聊天室,前端工程师百无聊赖的人生
  • 多线程 start 和 run 方法到底有什么区别?
  • 基于MaxCompute打造轻盈的人人车移动端数据平台
  • 使用阿里云发布分布式网站,开发时候应该注意什么?
  • 专访Pony.ai 楼天城:自动驾驶已经走过了“从0到1”,“规模”是行业的分水岭| 自动驾驶这十年 ...
  • ​【原创】基于SSM的酒店预约管理系统(酒店管理系统毕业设计)
  • ​如何防止网络攻击?
  • ​用户画像从0到100的构建思路
  • #git 撤消对文件的更改
  • (2024.6.23)最新版MAVEN的安装和配置教程(超详细)
  • (39)STM32——FLASH闪存
  • (9)YOLO-Pose:使用对象关键点相似性损失增强多人姿态估计的增强版YOLO
  • (cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)
  • (规划)24届春招和25届暑假实习路线准备规划
  • (九十四)函数和二维数组
  • (力扣记录)235. 二叉搜索树的最近公共祖先
  • (每日持续更新)jdk api之StringBufferInputStream基础、应用、实战
  • (免费领源码)python+django+mysql线上兼职平台系统83320-计算机毕业设计项目选题推荐
  • (强烈推荐)移动端音视频从零到上手(上)
  • (三维重建学习)已有位姿放入colmap和3D Gaussian Splatting训练
  • (微服务实战)预付卡平台支付交易系统卡充值业务流程设计
  • (一)Spring Cloud 直击微服务作用、架构应用、hystrix降级
  • (一)认识微服务
  • (转)总结使用Unity 3D优化游戏运行性能的经验
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • ./indexer: error while loading shared libraries: libmysqlclient.so.18: cannot open shared object fil
  • .net 8 发布了,试下微软最近强推的MAUI
  • .net websocket 获取http登录的用户_如何解密浏览器的登录密码?获取浏览器内用户信息?...