当前位置: 首页 > news >正文

基于 Redis 的 HyperLogLog 实现了 UV 的统计

文章目录

    • 前言
    • HyperLogLog 简介
    • HyperLogLog 的工作原理
    • 例子
    • 总结

前言

在现代网站开发中,用户行为分析是一个非常重要的环节。其中,UV(Unique Visitor,独立访客)PV(Page View,页面浏览量)是衡量网站流量用户活跃度的关键指标。UV 指的是通过互联网访问网站的自然人数量,通常一个用户在一定时间内的多次访问只计作一次;而 PV 则指的是用户访问网站的页面次数,无论是否来自同一用户,每次访问都会计入。

HyperLogLog 简介

HyperLogLog 是一种用于基数估计的概率性数据结构,可以高效地估算集合中唯一元素的数量(基数)。与传统的基数统计方法(如使用哈希集合)相比,HyperLogLog 能在使用极少内存的情况下提供相对高精度的基数估计。它特别适合在大数据和高并发的场景中使用,如网站的 UV(独立访客数)统计。

HyperLogLog 是一种高效的算法,用来估计集合中有多少个不同的元素

局限:

  • 误差:存在约 0.81% 的误差率,对于需要精确统计的场景不适用。
  • 不可取出原始数据:一旦元素被插入 HyperLogLog,就无法检索具体的元素,只能提供基数的估计。

HyperLogLog 的工作原理

哈希映射:HyperLogLog 使用哈希函数将每个输入元素转换成一个长整数(就像把名字转换成一个很长的号码),形成一串伪随机的二进制字符串。这样做的目的是为了确保所有元素被随机分布,而不是集中在某些地方。哈希函数的均匀性保证了每个元素有相同的概率被分配到任何一个位置。

前导零计数:对于每个哈希后的号码,HyperLogLog 会查看它的二进制表示(用 0 和 1 组成的串),并数出从左边开始有多少个连续的 0。前导零越多,说明这个元素在一个大范围内是很独特的。简单来说,前导零的数量间接反映了集合中有多少不同的元素。

分桶和调和平均:为了更准确地估计不同元素的数量,HyperLogLog 把这些哈希值分配到多个桶(想象成多个小盒子)。每个桶会记录它见到的哈希值中最多前导零的数量。然后,HyperLogLog 会用一种叫做“调和平均”的数学方法来综合所有桶的信息,从而估算出不同元素的总数。

误差控制:虽然 HyperLogLog 使用的是一种概率算法(不是完全精确),但它的误差率非常小,大约只有 0.81%。在大多数实际应用中,比如统计网站的独立访客数量(UV),这个误差是可以接受的。同时,相比于传统方法,HyperLogLog 只需要很少的内存,就可以处理非常多的数据。

例子

注解

@TrackPageView 注解可以加在控制器(Controller)的方法上,用于指定需要统计 PV 和 UV 的页面或模块。通过在 Controller 方法上使用这个注解,AOP 切面可以拦截请求,自动进行页面访问的统计。

@Target({ ElementType.PARAMETER, ElementType.METHOD })
@Retention(RetentionPolicy.RUNTIME)
@Documented
public @interface TrackPageView {String pageName() default ""; // 用于指定页面或模块的名称
}

切面类

@Component
@Aspect
public class SysAspect {@Autowiredprivate StatisticsService statisticsService;@Pointcut("@annotation(com.example.hac.annotation.TrackPageView)")private void pointcut() {}@Around("pointcut()")public Object around(ProceedingJoinPoint joinPoint) throws Throwable {// 继续执行原始方法Object result = joinPoint.proceed();// 获取切入点方法的签名MethodSignature signature = (MethodSignature) joinPoint.getSignature();Method method = signature.getMethod();// 从方法中获取 TrackPageView 注解TrackPageView trackPageView = method.getAnnotation(TrackPageView.class);if (trackPageView != null) {String userId = UserContext.getUser();String pageName = trackPageView.pageName(); // 获取注解中的页面名称// 记录 PV 和 UVstatisticsService.recordPageView(userId, pageName);}return result;}
}

redis统计

@Ser**加粗样式**vice
public class StatisticsService {@Autowiredprivate StringRedisTemplate redisTemplate;private static final String UV_KEY_PREFIX = "uv:";private static final String PV_KEY_PREFIX = "pv:";public void recordPageView(String userId, String pageName) {String pvKey = PV_KEY_PREFIX + pageName;String uvKey = UV_KEY_PREFIX + pageName;// 记录 PVredisTemplate.opsForValue().increment(pvKey, 1);// 记录 UV(使用 HyperLogLog 统计唯一用户)redisTemplate.opsForHyperLogLog().add(uvKey, userId);}public long getPageViews(String pageName) {String pvKey = PV_KEY_PREFIX + pageName;String pvCount = redisTemplate.opsForValue().get(pvKey);return pvCount != null ? Long.parseLong(pvCount) : 0;}public long getUniqueVisitors(String pageName) {String uvKey = UV_KEY_PREFIX + pageName;return redisTemplate.opsForHyperLogLog().size(uvKey);}
}

ps: 可以通过修改 Redis 的 key 来按时间单位(例如每天)统计数据。每天的数据可以定时同步到数据库中,以便持久化和后续分析。当需要查看历史统计数据时,可以直接从数据库中查询。

使用:

@RestController
@RequestMapping(value = "/api")
public class TestController {@Autowiredpublic TestService service;@TrackPageView(pageName = "home")@GetMapping(value = "/test")public int test() {return service.test();}
}

结果:
在这里插入图片描述

我登录访问了两次,所以pv为2,同一个用户,所以uv为1
在这里插入图片描述

总结

为了有效地统计网站的访问情况,我们可以使用 Redis 提供的 HyperLogLog 数据结构来统计 UV(独立访客数),并使用 Redis 的 String 类型来统计 PV(页面访问次数)。


相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • C# 如何实现接口事件:详解与示例
  • 考试:计算机网络(01)
  • python循环访问excel的某一列从某行开始的内容
  • 139.单词拆分
  • 扑捉一只耿鬼(HTML文件)
  • 【C++】初识C++模板与STL
  • 景芯SoC A72实战反馈
  • 冲刺蓝桥杯第四章标准模版库STL(上)
  • App推广新姿势:Xinstall地推码,一键直达用户心!
  • 嵌入式高频面试题——第一章 进程与线程(上)
  • Redis Stream 助力:打造实时用户行为日志处理平台
  • 分类预测|基于麻雀优化核极限学习机的数据分类预测Matlab程序SSA-KELM 多特征输入多类别输出 含基础KELM
  • BlinqIO:业界首个生成式 AI 测试平台
  • OpenCV绘图函数(5)绘制标记函数drawMarker()的使用
  • 【Cadence24】如何给PCB板露铜处理
  • Angularjs之国际化
  • ECS应用管理最佳实践
  • hadoop入门学习教程--DKHadoop完整安装步骤
  • in typeof instanceof ===这些运算符有什么作用
  • Iterator 和 for...of 循环
  • macOS 中 shell 创建文件夹及文件并 VS Code 打开
  • MaxCompute访问TableStore(OTS) 数据
  • PAT A1092
  • React+TypeScript入门
  • Web设计流程优化:网页效果图设计新思路
  • 从伪并行的 Python 多线程说起
  • 湖南卫视:中国白领因网络偷菜成当代最寂寞的人?
  • 基于遗传算法的优化问题求解
  • 记一次和乔布斯合作最难忘的经历
  • 老板让我十分钟上手nx-admin
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 少走弯路,给Java 1~5 年程序员的建议
  • 世界上最简单的无等待算法(getAndIncrement)
  • 详解移动APP与web APP的区别
  • 你对linux中grep命令知道多少?
  • linux 淘宝开源监控工具tsar
  • ​ ​Redis(五)主从复制:主从模式介绍、配置、拓扑(一主一从结构、一主多从结构、树形主从结构)、原理(复制过程、​​​​​​​数据同步psync)、总结
  • ​【经验分享】微机原理、指令判断、判断指令是否正确判断指令是否正确​
  • ​520就是要宠粉,你的心头书我买单
  • ​Python 3 新特性:类型注解
  • #Lua:Lua调用C++生成的DLL库
  • (1)Map集合 (2)异常机制 (3)File类 (4)I/O流
  • (2024,RWKV-5/6,RNN,矩阵值注意力状态,数据依赖线性插值,LoRA,多语言分词器)Eagle 和 Finch
  • (39)STM32——FLASH闪存
  • (9)YOLO-Pose:使用对象关键点相似性损失增强多人姿态估计的增强版YOLO
  • (BAT向)Java岗常问高频面试汇总:MyBatis 微服务 Spring 分布式 MySQL等(1)
  • (C++)八皇后问题
  • (Redis使用系列) Springboot 使用redis实现接口Api限流 十
  • (第9篇)大数据的的超级应用——数据挖掘-推荐系统
  • (七)MySQL是如何将LRU链表的使用性能优化到极致的?
  • (十八)三元表达式和列表解析
  • (数位dp) 算法竞赛入门到进阶 书本题集
  • (完整代码)R语言中利用SVM-RFE机器学习算法筛选关键因子
  • (五)activiti-modeler 编辑器初步优化
  • (转)大道至简,职场上做人做事做管理