实验三朴素贝叶斯算法

2021/6/26 20:56:58

编程Tag： 算法 test label self 贝叶斯朴素

本文主要是介绍实验三朴素贝叶斯算法，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

实验三朴素贝叶斯算法

这个作业属于哪个课程	[AHPU-机器学习](https://edu.cnblogs.com/campus/ahgc/machinelearning/homework/12085
这个作业要求在哪里	实验三朴素贝叶斯算法
这个作业的目标	理解朴素贝叶斯算法，能实现朴素贝叶斯算法
学号	3180701108

一、实验目的
二、实验内容
三、实验报告要求
四、实验过程及核心代码注释
五、实验结果
六、实验小结

一、实验目的

1.理解朴素贝叶斯算法原理，掌握朴素贝叶斯算法框架；
2.掌握常见的高斯模型，多项式模型和伯努利模型；
3.能根据不同的数据类型，选择不同的概率模型实现朴素贝叶斯算法；
4.针对特定应用场景及数据，能应用朴素贝叶斯解决实际问题。

二、实验内容

1.实现高斯朴素贝叶斯算法。
2.熟悉sklearn库中的朴素贝叶斯算法；
3.针对iris数据集，应用sklearn的朴素贝叶斯算法进行类别预测。
4.针对iris数据集，利用自编朴素贝叶斯算法进行类别预测。

三、实验报告要求

1.对照实验内容，撰写实验过程、算法及测试结果；
2.代码规范化：命名规则、注释；
3.分析核心算法的复杂度；
4.查阅文献，讨论各种朴素贝叶斯算法的应用场景；
5.讨论朴素贝叶斯算法的优缺点。

四、实验过程及核心代码注释

1.核心代码注释
GaussianNB 高斯朴素贝叶斯
特征的可能性被假设为高斯概率密度函数：数学期望(mean)：μ，方差：

class NaiveBayes:
    def __init__(self):
        self.model = None
    # 数学期望
    @staticmethod
    def mean(X):
        return sum(X) / float(len(X))
    # 标准差（方差）
    def stdev(self, X):
        avg = self.mean(X)
        return math.sqrt(sum([pow(x - avg, 2) for x in X]) / float(len(X)))
    # 概率密度函数
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(math.pow(x - mean, 2) /
                              (2 * math.pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent
    # 处理X_train
    def summarize(self, train_data):
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]
        return summaries
    # 分类别求出数学期望和标准差
    def fit(self, X, y):
        labels = list(set(y))
        data = {label: [] for label in labels}
        for f, label in zip(X, y):
            data[label].append(f)
        self.model = {
            label: self.summarize(value)
            for label, value in data.items()
        }
        return 'gaussianNB train done!'
    # 计算概率
    def calculate_probabilities(self, input_data):
        # summaries:{0.0: [(5.0, 0.37),(3.42, 0.40)], 1.0: [(5.8, 0.449),(2.7, 0.27)]}
        # input_data:[1.1, 2.2]
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(
                    input_data[i], mean, stdev)
        return probabilities
    # 类别
    def predict(self, X_test):
        # {0.0: 2.9680340789325763e-27, 1.0: 3.5749783019849535e-26}
        label = sorted(
            self.calculate_probabilities(X_test).items(),
            key=lambda x: x[-1])[-1][0]
        return label
    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1
        return right / float(len(X_test))

2.伯努利模型和多项式模型

from sklearn.naive_bayes import BernoulliNB, MultinomialNB

model = NaiveBayes()

model.fit(X_train, y_train)

print(model.predict([4.4, 3.2, 1.3, 0.2]))

model.score(X_test, y_test)

from sklearn.naive_bayes import GaussianNB

clf = GaussianNB()
clf.fit(X_train, y_train)

clf.score(X_test, y_test)

clf.predict([[4.4, 3.2, 1.3, 0.2]])

五、实验结果

2.算法优缺点分析

优点：
（1）朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率。
（2）对小规模的数据表现很好，能个处理多分类任务，适合增量式训练，尤其是数据量超出内存时，我们可以一批批的去增量训练。
（3）对缺失数据不太敏感，算法也比较简单，常用于文本分类。

缺点：
（1）理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型给定输出类别的情况下,假设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。而在属性相关性较小时，朴素贝叶斯性能最为良好。对于这一点，有半朴素贝叶斯之类的算法通过考虑部分关联性适度改进。
（2）需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候会由于假设的先验模型的原因导致预测效果不佳。
（3）由于我们是通过先验和数据来决定后验的概率从而决定分类，所以分类决策存在一定的错误率。
（4）对输入数据的表达形式很敏感。

六、实验小结

此次试验我主要了解了朴素贝叶斯算法，知道朴素贝叶斯是一种简单的分类算法。朴素贝叶斯的核心思想是：对于待分类项，求解此待分类项在各个类别中出现的概率，哪个类别概率最大，则认为此待分类项就属于那个类别。

这篇关于实验三朴素贝叶斯算法的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

实验三 朴素贝叶斯算法