当前位置：首页 > news >正文

机器学习-关联规则算法Apriori及编码实现

news 来源：原创 2024/5/16 15:02:57

一、前置知识

在了解关联规则之前首先了解一些相关概念，包含项集、频繁项集、支持度、置信度、提升度等基础概念。假如我们在经营一家商品超市，顾客进行购买商品的订单信息如下：

TID	Items
T1	{耳机，背包}
T2	{背包，手机，手表，鞋子}
T3	{耳机，手机，手表，相机}
T4	{背包，耳机，手机，手表}
T5	{背包，耳机，手机，相机}

-- TID是交易编号，表示一次购物交易的唯一标识，即用户购买的一次记录。

-- Items表示一次购买记录中顾客购买的商品如{耳机，背包}

1.项集

项的集合，包含k个项的项集称为k项集，例如上面 {耳机，背包} 是2项集。

2.支持度

表示物品A和物品B同时出现的次数在总的交易次数中的占比，例如 A表示手机，B表示手表，手机和手表同时出现的次数是3次，总的交易记录是5次，则支持度=3/5=60%。

公式如下：

support(X→Y)=|X交Y|/N，表示物品集X和Y同时出现的次数占总记录数的比例。

3.置信度

表示物品A和物品B同时出现的总次数 / 物品A出现的总次数，例如手机和手表同时出现的次数是3次，手机出现的总次数是4次，则置信度=3/4=75%。

公式如下：

confidence(X→Y)=|X交Y|/|X|，集合X与集合Y同时出现的总次数/集合X出现的记录数。

4.提升度

就是 置信度除以支持度。即（3/4）/（3/5）=5/4 > 1 。

公式如下：

lift(X→Y)=confidence(X→Y)/P(Y),表示含有X的条件下，同时含有Y的概率，与Y总体发生的概率之比。

说明：

提升度越高，说明置信度和支持度越好，说明物品之间的关联性也比较强。

5、频繁项集

满足规定的最小支持度的项集，即出现频率大于最小支持度的项集被称作频繁项集。例如：给定支持度是>50%，耳机和相机的支持度为2/5=40%，不满足规定的最小支持度即 <50%。而手机与手表的支持度是 3/5=60%，满足规定的最小支持度即>50%，因此{手机，手表} 是频繁项集。

例如，如果在一个超市的销售数据中，发现葡萄酒、尿布和豆奶这三个商品经常一起被购买，
那么{葡萄酒，尿布，豆奶}就是一个频繁项集。

二、关联规则

       某超市的管理者发现：纸尿裤和啤酒放通常会出现在一个订单里，经过数据分析发现，买尿不湿的家长以父亲居多，如果他们在买尿不湿的同时恰好看到了啤酒，就会有很大的概率购买，从而就能提高啤酒的销售量。根据纸尿裤与啤酒的关联规则（买尿不湿的家长以父亲居多），超市经营者可以将这两件商品放在一起出售，并且还可以通过推荐系统向购买纸尿裤的顾客推荐啤酒，这样可以提高超市的效益。
       因此关联规则是分析挖掘购物篮中的购买行为。通过分析购物篮中不同商品之间的关联关系，可以揭示商品之间的搭配规律，为商家提供定制化的推荐策略，优化产品摆放和促销活动，以提高销售额和顾客满意度。
       关联规则分析也被称为购物篮分析，用于分析数据集各项之间的关联关系。
       关联规则挖掘是一种用于发现数据集中的频繁项集和关联规则的数据挖掘技术。它可以帮助我们找到数据集中的相关性，从而可以用于市场篮子分析、推荐系统等领域。

关联规则的生成可以通过计算支持度和置信度来完成。
支持度表示项集在数据集中的出现频率，
而置信度表示在前提项集出现的情况下，结论项集出现的概率。

例如我要计算商品A和B在一起出售的支持度：
支持度 = (同时包含商品A、B的交易数目) / (所有交易数目)

置信度是指在购买商品A的交易中，同时也购买了商品B的比例：
置信度 = (同时包含商品A、B的交易数目) / (购买商品A的交易数目)

如果支持度和置信度都较高，说明商品A和B之间存在较强的关联关系，可以作为推荐系统中的一条关联规则。

三、数据挖掘算法

频繁项集的挖掘通常使用数据挖掘算法，如Apriori算法、FPTree（Frequent Pattern Tree）、GSP、CBA等算法，后几种算法都是基于Apriori算法和思想产生，这些可以帮助我们有效地从大规模数据集中找出频繁项集，为商业决策提供支持。现在一般很少直接用Apriori算法来挖掘数据，但理解Apriori算法是理解其它相关算法的前提。

1、学习Apriori算法前提

假如我们在经营一家商品种类并不多的杂货店，我们对哪些经常在一起被购买的商品非常感兴趣。我们只有四种商品：商品0、商品1、商品2、商品3。那么所有商品的组合有15种：{0}、{1}、{2}、{3}、{0，1}、{0，2}、{0，3}、{1，2}、{1，3}、{2，3}、{0，1，2}、{0，1，3}、{0，2，3}、{01，2，3}。那么所有可能被一起购买的商品组合可能只有一种商品，比如商品0，也可能包括两种、三种或所有四种商品。但我们不关心某人买了两件商品0以及四件商品2的情况，只关心他购买了一种或多种商品。下图显示了物品之间所有可能的组合：

图中使用物品的编号0来表示物品0本身。
图中从上往下的第一个集合是ϕ，表示空集或不包含任何物品的集合。
物品集合之间的连线表明两个或者更多集合可以组合形成一个更大的集合。

我们的目标是找到经常在一起购买的物品集合。我们使用集合的支持度来度量其出现的频率。如何对一个给定的集合，比如{0，3}，来计算其支持度？我们可以遍历上面15种记录中的毎条记录并检查该记录包含0和3，如果记录确实同时包含这两项，那么就增加总计数值。在扫描完所有数据之后，同时出现0和3的总次数是3次，即{0，3}、{0，1，3}、{01，2，3} ，除以总的交易记录使用统计得到的总数数，就可以得到支持度。

上述过程我们只有4个商品，组合是15个，只是针对单个集合{0,3}，需要遍历15次。而随着物品数目的增加遍历次数会急剧增长。对于包含N种物品的组合项目有2^(n-1)数据集，共需要遍历 2^(n-1)次，而且实际上出售10000或更多种物品的商店并不少见。即使只出售100种商品的商店也会有 2^99个组合。需要变量2^99次，而且还是一个单个集合的遍历。如果所有集合都进行遍历，这样的运算量，其实即使是对于现在的很多计算机而言，也需要很长的时间才能完成运算。
据挖掘算法Apriori算法的原理可以帮我们减少可能感兴趣的项集，降低所需的计算时间。

2、Apriori算法

据挖掘算法Apriori算法的原理可以帮我们减少可能感兴趣的项集，降低所需的计算时间。

2.1 Apriori算法原理：

如果某个项集是频繁的，那么它的所有子集都是频繁的，例如，假设{1,2}是频繁的，那么{1}和{2}也一定是频繁的。
将这个原理取反会发现：如果一个项集是非频繁的，那么它的所有超集也是非频繁的
如下图中，已知项集{2,3}是非频繁的，那么可立即判断出项集{0,2,3}、{1,2,3}、{0,1,2,3}都是非频繁的，因此这些项集的支持度也就不需要再计算。使用该原理就可以避免项集数目的指数增长，从而在合理的时间内计算出频繁项集。