当前位置: 首页 > news >正文

用户画像的核心技术盘点

导读:在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。

随着大数据技术的深入研究与应用,企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。

那么搭建起一套用户画像系统需要哪些核心技术呢。

作者:赵宏田

来源:华章计算机

01

对画像系统的深入理解

工欲善其事必先利其器,如果对于画像系统没有一个深入的、体系化的理解,那么对整个项目的开发规划,落地应用规划都是一盘散沙。项目建设虎头蛇尾,最后不了了之。对于画像系统的深入理解包括理解画像系统的建设目标应用场景、需要使用的大数据技术选型方案开发涉及的主要步骤,画像产品的设计形式应用场景方案等多个方面。

02

大数据开发相关技术

整个工程化方案中,系统依赖的基础设施包括Spark、Hive、HBase、Airflow、MySQL、Redis、Elasticsearch。除去基础设施外,系统主体还包括Spark Streaming、ETL、产品端3个重要组成部分。(下图是画像系统数据架构设计)

开发画像系统需要掌握的大数据技术包括:数据仓库建模理论和方法;会使用Scala、Java或Python语言进行Spark开发,离线批处理/实时数据处理;掌握Hbase、Elasticsearch等数据存储工具的使用。

03

数据分析能力

在画像系统开发过程中也需要开发者具备一定的数据分析思维,例如在开发RFM模型对应的标签前,先需要进行数据调研。根据对数据仓库中拉取的用户消费相关数据进行分析后得出用户这3个维度的指标在数值上划分的界限。

本案例中根据对RFM三个维度的数据调研,得到用户最近一次交易时间的分布情况如图。

根据累计用户量的占比,可按照二八比例进行划分,将最近一次交易时间距今0到90日的用户划分为近,将90日以上的用户划分为远。

案例中用户近一年交易订单量的情况分布如下图。

根据累计用户量的占比,按二八比例进行划分,将历史交易订单量在3单以下的用户划分为低频,将交易订单量在3单及以上的用户划分为高频。

案例中用户历史交易金额情况分布如下图。

根据用户近一年交易金额情况,将交易金额在300元以下的用户划分为低额,交易金额大于300元的用户划分为高额。

04

业务意识及数据落地应用能力

画像系统最终的目标是帮助数据走出数据仓库落地应用在业务场景上,促进业务质量提升(如流量增加、营收增加、用户体验改进等方方面面)。

画像的落地应用场景包括:

1、对用户行为的多维度自助式分析

渠道分析、漏斗分析、分布分析、特征分析等;

2、对目标人群的精准营销

短信营销、邮件营销、电话外呼营销、消息推送营销等;

3、对用户的个性化推进与高价值服务

针对用户的行为偏好推荐商品、内容,对平台高价值用户提供专属vip服务;

4、对营销方案进行线上AB测试

借助画像系统触达不同的人群进行高效的AB测试。

05

平台开发能力

画像产品化开发、接口服务开发需要开发者掌握Java web的开发能力。虽然对于数据开发人员来说这不是必备的能力,但是对于一个希望具备全栈开发能力的开发者来说,掌握该项技术,有助于深入理解画像的数据流、产品设计的背景和意义、画像系统落地支撑业务的技术细节。

关于作者:赵宏田,资深大数据技术专家,先后在中国地质大学(武汉)和武汉大学获得工学和经济学双学士学位。在大数据、数据分析和数据化运营领域有多年的实践经验,擅长Hadoop、Spark等大数据技术,以及业务数据分析、数据仓库开发、爬虫、用户画像系统搭建等。

本文摘编自《用户画像:方法论与工程化解决方案》,经出版方授权发布。

延伸阅读《用户画像:方法论与工程化解决方案》

长按上方二维码了解及购买

转载请联系微信:zj06220_0

推荐语:资深大数据专家多个亿级规模用户画像系统的经验总结,技术、产品、运营3个维度讲解从0到1构建用户画像系统的技术和方法论。

精彩抢先观看

相关文章:

  • 为什么建议你要迁移到MySQL 8.0?
  • “计算机伦理学”——计算机科学专业的必修课
  • 字节跳动为什么选用Flutter:并非跨平台终极之选,但它可能是不一样的未来
  • 带你了解增强现实的基础理论、核心技术、系统架构以及激动人心的应用和未来...
  • 深入理解XGBoost:分布式实现
  • 为什么我们应该使用 Flutter
  • 【收藏】机器学习入门的常见问题集
  • 为什么想进大厂,一定要掌握Java异步编程技术
  • 【第1期】MySQL为什么叫MySQL
  • 刘慈欣推荐!这本“疯狂的书”预言9年后人类将永生?
  • 4月6日 | Java异步编程在企业中的应用
  • 零基础掌握Istio on Kubernetes开发与运维
  • 聊聊流计算系统中的核心问题:状态管理
  • 我写了一本书,书名对肺活量大有益处
  • 大数据战略上升为国家战略,悄悄告诉你大数据大牛都在读的8本书
  • 「译」Node.js Streams 基础
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • Apache Spark Streaming 使用实例
  • ES6简单总结(搭配简单的讲解和小案例)
  • ES学习笔记(10)--ES6中的函数和数组补漏
  • Sublime Text 2/3 绑定Eclipse快捷键
  • 翻译:Hystrix - How To Use
  • 记录一下第一次使用npm
  • 什么是Javascript函数节流?
  • 微信端页面使用-webkit-box和绝对定位时,元素上移的问题
  •  一套莫尔斯电报听写、翻译系统
  • 异步
  • 你对linux中grep命令知道多少?
  • $ git push -u origin master 推送到远程库出错
  • (Demo分享)利用原生JavaScript-随机数-实现做一个烟花案例
  • (NSDate) 时间 (time )比较
  • (八)五种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (汇总)os模块以及shutil模块对文件的操作
  • (十八)devops持续集成开发——使用docker安装部署jenkins流水线服务
  • (十六)串口UART
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (转)Android学习笔记 --- android任务栈和启动模式
  • .[hudsonL@cock.li].mkp勒索加密数据库完美恢复---惜分飞
  • .class文件转换.java_从一个class文件深入理解Java字节码结构
  • .NET 中什么样的类是可使用 await 异步等待的?
  • .NETCORE 开发登录接口MFA谷歌多因子身份验证
  • @modelattribute注解用postman测试怎么传参_接口测试之问题挖掘
  • @Pointcut 使用
  • [ vulhub漏洞复现篇 ] GhostScript 沙箱绕过(任意命令执行)漏洞CVE-2019-6116
  • [1] 平面(Plane)图形的生成算法
  • [C++]拼图游戏
  • [CSAWQual 2019]Web_Unagi ---不会编程的崽
  • [docker] Docker容器服务更新与发现之consul
  • [FFmpeg学习]从视频中获取图片
  • [MYSQL]mysql将两个表结果合并到一起
  • [NOIP2014] 提高组 洛谷P1941 飞扬的小鸟
  • [office] 图文演示excel怎样给单元格添加下拉列表 #知识分享#经验分享
  • [php] 数据结构算法(PHP描述) 快速排序 quick sort
  • [python] `sys.settrace` 跟踪函数