当前位置：首页 > news >正文

朴素贝叶斯分类器原理与Python实现详解

news 2026/4/25 23:45:55

1. 朴素贝叶斯分类器原理剖析

朴素贝叶斯算法是基于贝叶斯定理的概率分类方法。它的"朴素"之处在于假设所有特征之间相互独立——这个假设在现实中很少成立，但奇妙的是，这个简化版算法在很多场景下表现优异。

贝叶斯定理的数学表达为： P(class|data) = (P(data|class) * P(class)) / P(data)

其中：

P(class|data) 是后验概率，表示在已知数据特征条件下属于某类的概率
P(data|class) 是似然，表示某类中观察到该数据的概率
P(class) 是先验概率，表示某类在总体中的比例
P(data) 是证据因子，用作归一化常数

在实际应用中，我们通常忽略P(data)这个常数，转而比较不同类的相对概率大小。对于特征向量X=(x₁,x₂,...,xₙ)，分类决策简化为：

argmax P(class) * ∏ P(xᵢ|class)

2. 算法实现关键步骤

2.1 数据准备与预处理

我们使用经典的鸢尾花数据集作为示例，这个数据集包含150个样本，每个样本有4个特征：

花萼长度（cm）
花萼宽度（cm）
花瓣长度（cm）
花瓣宽度（cm）

数据集已经按3种鸢尾花类别（Setosa、Versicolor、Virginica）标注，每类50个样本，分布均衡。

def load_dataset(filename): dataset = [] with open(filename, 'r') as file: csv_reader = reader(file) for row in csv_reader: if not row: continue dataset.append([float(x) for x in row[:-1]] + [row[-1]]) return dataset

注意：实际应用中应该对数据进行标准化处理，但由于我们使用高斯分布假设，算法本身已经考虑了特征的尺度差异。

2.2 按类别分离数据

训练阶段首先需要按类别分组数据，计算每个类别的统计特征：

def separate_by_class(dataset): separated = {} for row in dataset: class_value = row[-1] if class_value not in separated: separated[class_value] = [] separated[class_value].append(row) return separated

这个函数返回一个字典，键是类别标签，值是属于该类别的所有样本列表。

2.3 计算统计特征

对于每个特征，我们需要计算其均值和标准差，这些统计量将用于构建高斯概率密度函数：

from math import sqrt def mean(numbers): return sum(numbers)/float(len(numbers)) def stdev(numbers): avg = mean(numbers) variance = sum([(x-avg)**2 for x in numbers]) / float(len(numbers)-1) return sqrt(variance) def summarize_dataset(dataset): summaries = [(mean(column), stdev(column), len(column)) for column in zip(*dataset)] del summaries[-1] # 移除类别列的统计 return summaries

2.4 构建类别统计摘要

将上述两步结合，得到每个类别的特征统计摘要：

def summarize_by_class(dataset): separated = separate_by_class(dataset) summaries = {} for class_value, rows in separated.items(): summaries[class_value] = summarize_dataset(rows) return summaries

得到的摘要结构如下：

{ 'class1': [(mean1, stdev1, count1), (mean2, stdev2, count2), ...], 'class2': [(mean1, stdev1, count1), (mean2, stdev2, count2), ...], ... }

3. 核心概率计算实现

3.1 高斯概率密度函数

对于连续特征，我们使用高斯分布来估计概率：

from math import exp, pi, sqrt def calculate_probability(x, mean, stdev): exponent = exp(-((x-mean)**2 / (2 * stdev**2))) return (1 / (sqrt(2 * pi) * stdev)) * exponent

这个函数计算给定特征值x在高斯分布下的概率密度。

3.2 类别概率计算

结合先验概率和条件概率，计算样本属于每个类别的联合概率：

def calculate_class_probabilities(summaries, row): total_rows = sum([summaries[label][0][2] for label in summaries]) probabilities = {} for class_value, class_summaries in summaries.items(): probabilities[class_value] = summaries[class_value][0][2]/float(total_rows) for i in range(len(class_summaries)): mean, stdev, _ = class_summaries[i] probabilities[class_value] *= calculate_probability(row[i], mean, stdev) return probabilities

4. 完整分类器实现

将上述组件组合成完整的朴素贝叶斯分类器：

class NaiveBayesClassifier: def __init__(self): self.summaries = None def fit(self, dataset): self.summaries = summarize_by_class(dataset) def predict(self, row): probabilities = calculate_class_probabilities(self.summaries, row) best_label, best_prob = None, -1 for class_value, probability in probabilities.items(): if best_label is None or probability > best_prob: best_prob = probability best_label = class_value return best_label

使用示例：

# 加载数据 dataset = load_dataset('iris.csv') # 划分训练测试集 train_set = dataset[:100] + dataset[50:100] + dataset[100:150] test_set = dataset[0:50] + dataset[50:100] + dataset[100:150] # 训练模型 model = NaiveBayesClassifier() model.fit(train_set) # 测试模型 correct = 0 for row in test_set: prediction = model.predict(row[:-1]) if prediction == row[-1]: correct += 1 print(f'Accuracy: {correct/len(test_set):.2f}')

5. 实战技巧与优化建议

5.1 处理零概率问题

当某个特征值在训练集中从未出现在某类中时，会导致整个概率乘积为零。解决方案是使用拉普拉斯平滑：

def calculate_probability_smoothed(x, mean, stdev, epsilon=1e-5): if stdev < epsilon: # 防止标准差为零 stdev = epsilon exponent = exp(-((x-mean)**2 / (2 * stdev**2))) return (1 / (sqrt(2 * pi) * stdev)) * exponent + epsilon

5.2 数值稳定性优化

概率连乘可能导致数值下溢，改用对数概率：

def calculate_log_probability(x, mean, stdev): exponent = -((x-mean)**2 / (2 * stdev**2)) return -log(sqrt(2 * pi) * stdev) + exponent # 在类别概率计算中使用加法替代乘法 probabilities[class_value] += calculate_log_probability(row[i], mean, stdev)