哈喽,各位学友~
今天我们一起学习一下数据挖掘的常用方法
在此之前
我们需要明确一个问题
什么是数据挖掘呢?
1.从技术角度看,数据挖掘(Data Mining,简称DM)是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。
2.从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。
那么数据挖掘是用来做什么的呢?
数据挖掘的主要任务如下所示:
那么~
用什么方法来实现以上任务呢?
接下来我们就来看看
数据挖掘的常用方法~
今天我们先来学习第一个方法:关联分析
关联分析:是指关联规则挖掘,它是数据挖掘中一个重要的、高度活跃的分支。
目标:发现事务数据库中不同项(如顾客购买的商品项)之间的联系,这些联系构成的规则可以帮助用户找出某些行为特征(如顾客购买行为模式),以便进行企业决策。
设I={i1,i2,…,im}是一个全局项的集合,其中ij(1≤j≤m)是项(item)的唯一标识,j表示项的序号。事务数据库D={t1,t2 …,tn}是一个事务的集合,每个事务ti(1≤i≤n)都对应I上的一个子集,其中ti是事务的唯一标识,i表示事务的序号。
接下来我们通过一个日常生活的例子来认识“事务数据库”:
购物篮问题:设I是全部商品集合,D是所有顾客的购物清单,每个元组即事务是一次购买商品的集合。
表第二列就是此事务数据库中的项。为了进行关联分析,我们还要了解关联规则:
首先认识2个名词概念:
支持度定义:给定一个全局项集I和事务数据库D,一个项集I1ÍI在D上的支持度是包含I1的事务在D中所占的百分比,即:
置信度定义:给定一个全局项集I和事务数据库D,一个定义在I和D上的关联规则形如X→Y,其中X、Y∈I,且X∩Y=Ф,它的置信度(或可信度、信任度)是指包含X和Y的事务数与包含X的事务数之比,即:
例如:
support(i1→i2)≤confidence(i1→i2)
关联规则表示项之间的关系,它是形如X→Y的蕴涵表达式,其中X和Y是不相交的项集,即X∩Y=Ф,X称为规则的前件,Y称为规则的后件。
例如,{cereal,milk}→{fruit}
给定D上的最小支持度(记为min_sup)和最小置信度(记为min_conf),分别称为最小支持度阈值和最小置信度阈值,同时满足最小支持度阈值和最小置信度阈值的关联规则称为强关联规则。
即某关联规则的最小支持度≥min_sup、最小置信度≥min_conf,则它为强关联规则。
关联规则挖掘的基本过程:
①找频繁项集:通过用户给定最小支持度阈值min_sup,寻找所有频繁项集,即仅保留大于或等于最小支持度阈值的项集。
②生成强关联规则:通过用户给定最小置信度阈值min_conf,在频繁项集中寻找关联规则,即删除不满足最小置信度阈值的规则。
这个过程中的频繁项集是什么呢?
频繁项集定义:给定全局项集I和事务数据库D,对于I的非空子集I1,若其支持度大于或等于min_sup,则称I1为频繁项集。
那有什么算法可以帮我们实现这个过程呢?
Apriori算法是由Agrawal等人于1993提出的,它采用逐层搜索策略(层次搜索策略)产生所有的频繁项集。
Apriori性质:若A是一个频繁项集,则A的每一个子集都是一个频繁项集。
例如,若{beer,diaper,nuts}项集是频繁的,则{beer,diaper}也一定是频繁的,但{apple,beer,diaper,nuts}不一定是频繁的。
Apriori性质具有反单调性:如果一个项集不是频繁的,则它的所有超集也一定不是频繁的。
Apriori算法的基本思路是采用层次搜索的迭代方法,由候选(k-1)-项集来寻找候选k-项集,并逐一判断产生的候选k-项集是否是频繁的。
设Ck是长度为k的候选项集的集合,Lk是长度为k的频繁项集的集合。为了简单,设最小支持度阈值min_sup为最小元组数,即采用最小支持度计数。
第一:
上述算法需要解决以下问题:
① 如何由Lk-1构建Ck
② 如何由Ck产生Lk
2. 自连接:由Lk-1构建Ck
在基本的Apriori算法中,由Lk-1构建Ck可以通过连接运算来实现。
连接运算是表的基本运算之一,如下图所示是两个表R、S按R第3列等于S第2列的条件进行条件连接的结果。
采用自连接的方式由Lk-1产生Ck时,连接关系是在Lk-1(用p表示)和Lk-1(用q表示)中,前k-2项相同,且p的第k-1项小于q的第k-1项值.
由L3产生C4的过程如图:
通过以上学习,相信大家对Apriori算法已经有了潜在认识,接下来我们通过一个具体例子来学一下:
【例】设L3={{i1,i2,i3},{i1,i2,i4},{i1,i3,i4},{i1,i3,i5},{i2,i3,i4}},通过自连接并剪枝构建C4的过程如下:
今天对关联规则的Apriori算法学习就先到这里啦~
转自:“云导师学术辅导平台”微信公众号
如有侵权,请联系本站删除!