2016年1月

Apriori关联算法简介


Wiki链接:关联规则

  Apriori算法是基于关联分析的产生算法,关联分析即从数据集中寻找物品的隐含关系。比如超市对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买习惯。经典的有购物篮分析。Apriori算法提供了一种更高效的搜寻方法。   Apriori算法的主要作用在于发现频繁项集和关联规则,首先需要发现频繁项集(链接)。Apriori算法接受接受两个参数,最小支持度和数据集,通过扫描数据集发现满足最小支持度的项集。


K-均值聚类算法


Wiki百科:K-平均算法

  K-均值聚类算法是一种无监督的机器学习算法,所谓无监督简单来说就是事先不告诉计算机需要做什么让其主动学习,具体来说,就是设计分类器时候,让程序处理未被分类标记的样本集。   K-均值聚类算法同时是聚类方法的一种,而聚类是将不同数据划分为相同特征集合的一种方式。K代表了数据集的数目。


用AdaBoost元算法提高分类性能


维基百科:AdaBoost

  首先介绍一下元算法,它是对其它算法进行组合的一种方式,而AdaBoost就是其中一种元算法。   在分类过程中我们可以将不同的方法进行组合,无论是kNN还是朴素贝叶斯,它们的组合叫做集成方法或者元算法,这既可以是一种算法的不同设置,也可以是不同算法的分配。   boosting方法从原始数据集选择S次后获得S个新数据集,是通过集中关注已有分类器错分的数据来获得新的分类器,分类器中的权重并不相同,权重代表的是上一轮迭代的成功度。Adaboost只是其中一个版本。


支持向量机(SVM)初探


wiki百科参考:链接 链接:开源的LIBSVM库

  要想理解SVM,需要掌握一些理论基础才能进行编码,接下来让我们逐步学习。   SVM有许多实现方法,这里介绍的是序列最小优化(SMO)算法(参考链接)   简单来说,SMO是一种解决支持向量机优化问题的迭代算法。由于目标函数为凸函数,一般的优化算法都通过梯度方法一次优化一个变量求解二次规划问题的最大值,但是,对于以上问题,由于限制条件存在,当某个从更新到时,上述限制条件即被打破。为了克服以上的困难,SMO采用一次更新两个变量的方法。

   1.png


Logistic回归简介


  参考:Logistic回归

  Logister回归是一种最优化算法,所谓回归就是假设你有一些数据点,用一条直线对它们进行拟合,这个拟合过程就是回归。   基于梯度上升的最优化方法,梯度上升的思想就是找到某函数的最大值,最好的函数沿该函数的梯度方向探寻。详细解释可以看wiki百科:参考链接。    为了便于理解,可以看下图    2.png