机器学习：关联分析

Apriori

频繁项集的评估标准有

关联的数据在数据集中出现的次数占总数据集的比重

$\mathrm{Support}(X) = P(X) = \frac{ \mathrm{Count}(X) }{ \mathrm{Count}(Samples) }$

$\mathrm{Support}(X,Y) = P(XY) = \frac{ \mathrm{Count}(XY) }{ \mathrm{Count}(Samples) }$

一个数据出现后，另一个数据出现的概率，即数据的条件概率（ $X$ 在 $Y$ 发生的条件下发生的概率）。

$\mathrm{Confidence}(X ⇐ Y) = P(X {\ \bold|\ } Y) = \dfrac{ \mathrm{Support}(X, Y) }{ \mathrm{Support}(Y) } = \dfrac{ P(XY) }{ P(Y) }$

$X$ 在 $Y$ 发生的条件下发生的概率，与 $X$ 总体发生的概率之比

$\mathrm{Lift}(X ⇐ Y) = \dfrac{ Confidence(X ⇐ Y) }{ P(X) } = \dfrac{ P(X {\ \bold|\ } Y) }{ P(X) } = \dfrac{ P(XY) }{ P(X)P(Y) }$

提升度	关联强弱
$\mathrm{Lift}(X ⇐ Y) > 1$	$X ⇐ Y$ 为有效的强关联
$\mathrm{Lift}(X ⇐ Y) < 1$	$X ⇐ Y$ 为无效的强关联

要选择一个数据集合中的频繁数据集，则需要自定义评估标准。最常用的评估标准是用自定义的支持度，或者是自定义支持度和置信度的一个组合。

Apriori算法是常用的用于挖掘出数据关联规则的算法，它用来找出数据值中频繁出现的数据集合。

Apriori算法的目标是找到最大的 $K$ 项频繁集。

如果一个集合是频繁项集，则它的所有非空子集都是频繁项集。

如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。

规定最小支持计数为2

随着数据库容量的增大，Apriori算法重复访问数据库（外存）将导致性能低下。FP-tree算法对此进行了改进，减少了数据库的扫描次数和侯选集空间占用。

最小支持度0.5