当前位置：首页 > news >正文

机器学习 - 先验算法（Apriori Algorithm）

news 2026/7/17 22:10:23

摘要：先验算法（Apriori）是关联规则挖掘的经典算法，由Agrawal和Srikant于1994年提出。该算法通过自底向上的迭代方式发现频繁项集，采用剪枝技术提高效率。核心步骤包括生成候选项集、计算支持度、筛选频繁项集等。示例展示了在鸢尾花数据集上应用该算法，挖掘支持度≥30%的频繁项集。该算法广泛应用于购物篮分析等领域，帮助发现商品购买规律，也可用于医疗、金融等场景的数据挖掘。

先验算法的核心步骤概述

示例

示例说明

输出结果

结果解读

算法应用场景

机器学习 - 先验算法（Apriori Algorithm）

先验算法（Apriori）是机器学习中用于关联规则挖掘的经典算法，旨在从交易数据库中发现频繁项集，并基于这些项集生成关联规则。该算法由拉克什・阿格拉沃尔（Rakesh Agrawal）和拉马库马尔・斯里坎特（Ramakrishnan Srikant）于 1994 年首次提出。

先验算法通过迭代扫描数据库，逐步寻找规模递增的频繁项集，采用 “自底向上” 的核心思路：从单个物品开始，逐步向候选项集中添加更多物品，直到无法发现新的频繁项集为止。同时，算法还引入剪枝技术，以减少需要验证的候选项集数量，提升计算效率。

先验算法的核心步骤概述

扫描数据库，统计每个物品的支持度计数；
根据最小支持度阈值，生成频繁 1 - 项集（仅包含单个物品的频繁项集）；
组合频繁 1 - 项集，生成候选 2 - 项集；
再次扫描数据库，计算每个候选 2 - 项集的支持度计数；
依据最小支持度阈值筛选出频繁 2 - 项集，并剪枝掉非频繁的候选 2 - 项集；
重复步骤 3-5，持续生成候选 k - 项集与频繁 k - 项集，直至无法发现新的频繁项集。

示例

在 Python 中，mlxtend库提供了先验算法的实现。以下示例展示了如何结合mlxtend库与sklearn数据集，在鸢尾花（iris）数据集上应用先验算法：

from mlxtend.frequent_patterns import apriori from mlxtend.preprocessing import TransactionEncoder from sklearn import datasets import pandas as pd # 补充必要的pandas库导入 # 加载鸢尾花数据集 iris = datasets.load_iris() # 将数据集转换为交易列表（每个交易代表一朵花的特征与标签） transactions = [] for i in range(len(iris.data)): transaction = [] # 添加花萼长度、花萼宽度、花瓣长度、花瓣宽度4个特征 transaction.append('sepal_length=' + str(iris.data[i][0])) transaction.append('sepal_width=' + str(iris.data[i][1])) transaction.append('petal_length=' + str(iris.data[i][2])) transaction.append('petal_width=' + str(iris.data[i][3])) # 添加目标标签（花的品种类别） transaction.append('target=' + str(iris.target[i])) transactions.append(transaction) # 使用独热编码对交易数据进行编码 te = TransactionEncoder() te_ary = te.fit(transactions).transform(transactions) df = pd.DataFrame(te_ary, columns=te.columns_) # 挖掘最小支持度为0.3的频繁项集 frequent_itemsets = apriori(df, min_support=0.3, use_colnames=True) # 打印频繁项集 print(frequent_itemsets)

示例说明

本示例中，我们从sklearn加载鸢尾花数据集（包含鸢尾花的特征与品种标签信息），并将其转换为交易列表 —— 每个交易对应一朵花，包含花萼长度、花萼宽度、花瓣长度、花瓣宽度 4 个属性值以及品种目标标签（target）。随后通过独热编码对交易数据进行预处理，最后使用mlxtend库的apriori函数，挖掘出最小支持度为 0.3 的频繁项集。

输出结果

plaintext

support itemsets 0 0.333333 (target=0) 1 0.333333 (target=1) 2 0.333333 (target=2)

结果解读

输出结果显示，数据集中存在 3 个频繁项集，每个项集的支持度均为 33.33%（即 1/3）。这表明：数据集中 33% 的交易（花朵样本）包含标签target=0（对应鸢尾花的山鸢尾品种）、33% 包含标签target=1（变色鸢尾品种）、33% 包含标签target=2（维吉尼亚鸢尾品种）。