当前位置: 首页 > news >正文

机器学习-关联规则算法Apriori及编码实现

一、前置知识

       在了解关联规则之前首先了解一些相关概念,包含项集、频繁项集、支持度、置信度、提升度等基础概念。假如我们在经营一家商品超市,顾客进行购买商品的订单信息如下:

TID  Items
T1  {耳机,背包}
T2{背包,手机手表,鞋子}        
T3 {耳机,手机手表,相机}
T4 {背包,耳机,手机手表}
T5  {背包,耳机,手机,相机}

-- TID是交易编号,表示一次购物交易的唯一标识,即用户购买的一次记录。

-- Items表示一次购买记录中顾客购买的商品如{耳机,背包}

1.项集

       项的集合,包含k个项的项集称为k项集,例如上面 {耳机,背包} 是2项集。

2.支持度

       表示物品A物品B同时出现的次数总的交易次数中的占比,例如 A表示手机,B表示手表,手机和手表同时出现的次数是3次,总的交易记录是5次,支持度=3/5=60%。

公式如下:

support(X→Y)=|X交Y|/N,表示物品集X和Y同时出现的次数占总记录数的比例。

3.置信度

       表示物品A物品B同时出现的总次数 物品A出现的总次数,例如手机和手表同时出现的次数是3次,手机出现的总次数是4次,则置信度=3/4=75%。

公式如下:

confidence(X→Y)=|X交Y|/|X|,集合X与集合Y同时出现的总次数/集合X出现的记录数。

4.提升度

       就是 置信度 除以 支持度。即 (3/4)/(3/5)=5/4 > 1 。

公式如下:

lift(X→Y)=confidence(X→Y)/P(Y),表示含有X的条件下,同时含有Y的概率,与Y总体发生的概率之比。

说明:

      提升度越高,说明置信度和支持度越好,说明物品之间的关联性也比较强。

5、频繁项集

       满足规定的最小支持度的项集,即出现频率大于最小支持度的项集被称作频繁项集。 例如:给定支持度是>50%,耳机和相机的支持度为2/5=40%,不满足规定的最小支持度即 <50%。而手机与手表的支持度是 3/5=60%,满足规定的最小支持度即>50%,因此{手机,手表}  是频繁项集。

       例如,如果在一个超市的销售数据中,发现葡萄酒、尿布和豆奶这三个商品经常一起被购买,
那么{葡萄酒,尿布,豆奶}就是一个频繁项集。

二、关联规则

       某超市的管理者发现:纸尿裤和啤酒放通常会出现在一个订单里,经过数据分析发现,买尿不湿的家长以父亲居多,如果他们在买尿不湿的同时恰好看到了啤酒,就会有很大的概率购买,从而就能提高啤酒的销售量。根据纸尿裤与啤酒的关联规则(买尿不湿的家长以父亲居多),超市经营者可以将这两件商品放在一起出售,并且还可以通过推荐系统向购买纸尿裤的顾客推荐啤酒,这样可以提高超市的效益。
       因此关联规则是分析挖掘购物篮中的购买行为。通过分析购物篮中不同商品之间的关联关系,可以揭示商品之间的搭配规律,为商家提供定制化的推荐策略,优化产品摆放和促销活动,以提高销售额和顾客满意度。
       关联规则分析也被称为购物篮分析,用于分析数据集各项之间的关联关系。
       关联规则挖掘是一种用于发现数据集中的频繁项集关联规则的数据挖掘技术。它可以帮助我们找到数据集中的相关性,从而可以用于市场篮子分析、推荐系统等领域。

关联规则的生成可以通过计算支持度和置信度来完成。
支持度表示项集在数据集中的出现频率,
而置信度表示在前提项集出现的情况下,结论项集出现的概率。

  1. 例如我要计算商品A和B在一起出售的支持度:
    支持度 = (同时包含商品A、B的交易数目) / (所有交易数目)

  2. 置信度是指在购买商品A的交易中,同时也购买了商品B的比例:
    置信度 = (同时包含商品A、B的交易数目) / (购买商品A的交易数目)

  3. 如果支持度和置信度都较高,说明商品A和B之间存在较强的关联关系,可以作为推荐系统中的一条关联规则。

三、数据挖掘算法

       频繁项集的挖掘通常使用数据挖掘算法,如Apriori算法、FPTree(Frequent Pattern Tree)、GSP、CBA等算法,后几种算法都是基于Apriori算法和思想产生,这些可以帮助我们有效地从大规模数据集中找出频繁项集,为商业决策提供支持。现在一般很少直接用Apriori算法来挖掘数据,但理解Apriori算法是理解其它相关算法的前提。

1、学习Apriori算法前提

       假如我们在经营一家商品种类并不多的杂货店,我们对哪些经常在一起被购买的商品非常感兴趣。我们只有四种商品:商品0、商品1、商品2、商品3。那么所有商品的组合有15种:{0}、{1}、{2}、{3}、{0,1}、{0,2}、{0,3}、{1,2}、{1,3}、{2,3}、{0,1,2}、{0,1,3}、{0,2,3}、{01,2,3}。那么所有可能被一起购买的商品组合可能只有一种商品,比如商品0,也可能包括两种、三种或所有四种商品。但我们不关心某人买了两件商品0以及四件商品2的情况,只关心他购买了一种或多种商品。下图显示了物品之间所有可能的组合:

图中使用物品的编号0来表示物品0本身。
图中从上往下的第一个集合是ϕ,表示空集或不包含任何物品的集合。
物品集合之间的连线表明两个或者更多集合可以组合形成一个更大的集合。

       我们的目标是找到经常在一起购买的物品集合。我们使用集合的支持度来度量其出现的频率。如何对一个给定的集合,比如{0,3},来计算其支持度?我们可以遍历上面15种记录中的毎条记录并检查该记录包含0和3,如果记录确实同时包含这两项,那么就增加总计数值。在扫描完所有数据之后,同时出现0和3的总次数是3次,即{0,3}、{0,1,3}、{01,2,3} ,  除以总的交易记录使用统计得到的总数数,就可以得到支持度。

       上述过程我们只有4个商品,组合是15个,只是针对单个集合{0,3},需要遍历15次。而随着物品数目的增加遍历次数会急剧增长。对于包含N种物品的组合项目有2^(n-1)数据集,共需要遍历 2^(n-1)次,而且实际上出售10000或更多种物品的商店并不少见。即使只出售100种商品的商店也会有  2^99个组合。需要变量2^99次,而且还是一个单个集合的遍历。如果所有集合都进行遍历,这样的运算量,其实即使是对于现在的很多计算机而言,也需要很长的时间才能完成运算。
       据挖掘算法Apriori算法的原理可以帮我们减少可能感兴趣的项集,降低所需的计算时间。
 

2、Apriori算法

       据挖掘算法Apriori算法的原理可以帮我们减少可能感兴趣的项集,降低所需的计算时间。

2.1 Apriori算法原理:

  • ​如果某个项集是频繁的,那么它的所有子集都是频繁的,例如,假设{1,2}是频繁的,那么{1}和{2}也一定是频繁的。
  • 将这个原理取反会发现:如果一个项集是非频繁的,那么它的所有超集也是非频繁的
  • 如下图中,已知项集{2,3}是非频繁的,那么可立即判断出项集{0,2,3}、{1,2,3}、{0,1,2,3}都是非频繁的,因此这些项集的支持度也就不需要再计算。使用该原理就可以避免项集数目的指数增长,从而在合理的时间内计算出频繁项集。

        使用该原理就可以避免项集数目的指数增长,从而在合理的时间内计算出频繁项集。

相关文章:

  • 【讲解下Gitea】
  • PyTorch 教程-快速上手指南
  • 关于 UnityEditorWindow
  • Java中常见的锁策略
  • 【Linux】详解文件系统以及周边知识
  • 10.windows ubuntu 组装软件:spades,megahit
  • 鸿蒙应用开发-录音保存并播放音频
  • Linux文件(系统)IO(含动静态库的链接操作)
  • 最新2024年增强现实(AR)营销指南(完整版)
  • 全国青少年软件编程(Python)等级考试一级考试真题2023年9月——持续更新.....
  • HTML块级元素和内联元素(头部和布局)
  • centos 7 安装磐维(PanWeiDB)数据库(单机)
  • pandas在循环中多次写入数据到一个excel防止锁定的方法
  • 鸿蒙ARKTS--简易的购物网站
  • 【pytest、playwright】多账号同时操作
  • [译] 理解数组在 PHP 内部的实现(给PHP开发者的PHP源码-第四部分)
  • AHK 中 = 和 == 等比较运算符的用法
  • CODING 缺陷管理功能正式开始公测
  • CSS 专业技巧
  • Electron入门介绍
  • Java 实战开发之spring、logback配置及chrome开发神器(六)
  • Linux中的硬链接与软链接
  • Mysql5.6主从复制
  • SpiderData 2019年2月25日 DApp数据排行榜
  • VirtualBox 安装过程中出现 Running VMs found 错误的解决过程
  • 大主子表关联的性能优化方法
  • 如何打造100亿SDK累计覆盖量的大数据系统
  • 通过git安装npm私有模块
  • 我是如何设计 Upload 上传组件的
  • 用element的upload组件实现多图片上传和压缩
  • Prometheus VS InfluxDB
  • Salesforce和SAP Netweaver里数据库表的元数据设计
  • zabbix3.2监控linux磁盘IO
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • ​人工智能书单(数学基础篇)
  • #pragam once 和 #ifndef 预编译头
  • (06)金属布线——为半导体注入生命的连接
  • (4) openssl rsa/pkey(查看私钥、从私钥中提取公钥、查看公钥)
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (Redis使用系列) Springboot 整合Redisson 实现分布式锁 七
  • (附源码)计算机毕业设计SSM在线影视购票系统
  • (六)库存超卖案例实战——使用mysql分布式锁解决“超卖”问题
  • (十)【Jmeter】线程(Threads(Users))之jp@gc - Stepping Thread Group (deprecated)
  • (十三)Maven插件解析运行机制
  • (转)jdk与jre的区别
  • (转)微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)...
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .net2005怎么读string形的xml,不是xml文件。
  • .NET牛人应该知道些什么(2):中级.NET开发人员
  • .net生成的类,跨工程调用显示注释
  • @Autowired 与@Resource的区别
  • @property括号内属性讲解
  • @select 怎么写存储过程_你知道select语句和update语句分别是怎么执行的吗?
  • @TableId注解详细介绍 mybaits 实体类主键注解
  • @取消转义